Transformer架构是一种2017年引入的神经网络设计,是GPT和BERT等现代大型语言模型(LLMs)的基础。其核心创新是自注意力机制,它允许模型动态地分析序列中单词之间的关系。与较旧的架构(例如RNN)不同,Transformer可以并行处理所有单词,使其速度更快,并能更好地捕获长程依赖关系。该架构由堆叠的层组成,包含自注意力和前馈神经网络,并使用残差连接和层归一化等技术来稳定训练。为保留单词顺序信息,会向输入嵌入中添加位置编码,因为Transformer本身缺乏顺序处理能力。
一个关键组件是多头注意力,它将输入分割成多个“头”,以便同时关注不同类型的关系。例如,在句子“The bank charges fees for river access”中,一个头可能将“bank”与“fees”关联起来(金融语境),而另一个头则将“river”与“bank”关联起来(地理含义)。每个注意力头计算查询、键和值——这些是从输入嵌入派生的矩阵——以确定单词之间相互影响的强度。在注意力处理后,前馈网络应用非线性变换来精炼特征。这些层会重复多次(例如,BERT-base中有12层),使模型能够构建复杂的表示。
Transformer主要用于两种配置:仅编码器(例如BERT)用于分类等任务,以及仅解码器(例如GPT)用于文本生成。编码器侧重于理解输入语境,而解码器则逐个token生成输出,使用掩码注意力来防止训练期间看到未来的词语。实际应用包括翻译(输入文本被编码,输出逐步解码)或摘要(编码器处理文章,解码器生成摘要)。开发者通常通过添加特定任务层来微调预训练的Transformer,利用它们通过分词和嵌入适配来处理各种数据结构(文本、代码等)的能力。