Transformers 是一种为处理顺序数据(如文本)而设计的神经网络架构,并且已成为大多数现代自然语言处理 (NLP) 系统的基础。 Transformers 在 2017 年的论文“Attention Is All You Need”中被提出,它解决了早期模型(如循环神经网络 (RNN) 和长短期记忆 (LSTM) 网络)的局限性。 Transformers 的核心创新是自注意力机制,它允许模型衡量句子中不同词语相对于彼此的重要性。 与按顺序处理文本的 RNN 不同,Transformers 同时分析句子中的所有单词,使其对并行计算更有效。 这种设计能够更好地处理长距离依赖关系——句子中相距较远的单词之间的关系——这对于翻译或摘要等任务至关重要。
Transformer 架构包含两个主要组件:编码器和解码器。 每个编码器层都包含一个自注意力机制,后跟一个前馈神经网络。 自注意力步骤计算输入中每对单词之间的注意力分数,确定在处理另一个单词时每个单词应接收多少关注。 例如,在句子“The cat sat on the mat”中,“cat”这个词与“sat”的联系比与“mat”的联系更强。 解码器使用类似的层,但添加了一个掩码自注意力步骤,以防止模型在训练期间“偷看”未来的单词。 此外,还将位置编码添加到输入嵌入中,以向模型提供有关单词顺序的信息,因为 Transformers 缺乏固有的顺序处理。 多头注意力是自注意力的一种变体,它将输入分成多个子空间,允许模型学习不同的关系(例如,句法模式与语义模式)。
Transformers 推动了 NLP 的重大进步。 例如,像 BERT 这样的模型使用双向训练来理解来自两个方向的上下文,使其对于问答等任务有效。 GPT 风格的模型使用解码器堆栈通过预测序列中的下一个单词来生成连贯的文本。 像 Hugging Face 的 Transformers 这样的库提供了预训练模型,开发人员可以针对特定应用(例如情感分析或命名实体识别)对其进行微调。 一个关键的优势是可扩展性:更大的 Transformer 模型(例如,GPT-3)通过增加参数和训练数据来实现更好的性能。 但是,这也带来了更高的计算成本。 尽管如此,Transformers 仍然实用,因为与 RNN 相比,它们的并行处理减少了训练时间。 对于开发人员来说,了解 Transformers 对于使用现代 NLP 工具至关重要,无论是构建聊天机器人、改进搜索引擎还是自动化文本分析。