GPT-4 等大型语言模型 (LLM) 通过处理文本序列来预测序列中的下一个单词或 token。其核心是使用一种称为 Transformer 的神经网络架构,该架构依赖于自注意力机制来分析句子中词语之间的关系。与早期按顺序处理文本的模型(例如 RNN)不同,Transformer 可以同时评估句子中的所有词语,从而更有效地捕捉上下文。例如,在处理句子“The cat sat on the mat”(猫坐在垫子上)时,模型会为每个词语分配权重,以确定“cat”应该关注“mat”的程度,而不是其他词语。这种并行处理使 LLM 能够有效地处理长距离依赖和复杂的句子结构。
LLM 的训练包括两个主要阶段:预训练和微调。在预训练阶段,模型会吸收海量数据集(通常是来自书籍、网站和其他来源的数 TB 文本),以学习统计模式。它们使用自监督目标,例如预测被遮盖的词语(例如,填补“The [MASK] sat on the mat”)或生成序列中的下一个词语。例如,给定输入“法国的首都是”,模型通过反向传播调整其内部参数,学习输出“巴黎”。这个阶段需要大量的计算能力,通常涉及数千个 GPU 或 TPU。预训练后,模型会在较小的、针对特定任务的数据集(例如问答对)上进行微调,以适应聊天机器人或代码生成等应用。
在推理过程中,LLM 通过根据输入和先前生成的 token 迭代预测最有可能的下一个 token 来生成文本。例如,如果用户问“如何在 Python 中对列表进行排序?”,模型可能会根据其对 Python 语法和常用排序算法的理解输出代码片段。为了平衡创造性和准确性,温度缩放等技术会调整预测的随机性——温度越高,多样性越高;值越低,输出越确定。然而,LLM 也有局限性:它们可能会产生错误的幻觉信息,难以处理实时数据,并且需要大量的硬件才能部署。开发人员通常通过将 LLM 与外部数据库或验证系统结合来缓解这些问题,以提高可靠性。