大语言模型 (LLMs) 通过预测 token(词或词的一部分)序列来生成文本,这是基于在训练期间学习到的模式。当给定一个输入提示时,模型会逐个 token 处理文本,利用其内部神经网络估计每个可能的下一个 token 的概率。然后它选择一个 token(可能是最可能的,也可能是随机选择的),并重复这个过程,将每个新 token 添加到输入中以生成连贯的输出。这种自回归方法使模型能够逐步构建更长的响应。
实现这一过程的核心架构是 Transformer,它利用自注意力机制来衡量输入文本不同部分的关联性。例如,在生成句子“The cat sat on the mat”(猫坐在垫子上)时,模型可能首先处理“The cat sat on the”(猫坐在...),并计算注意力分数,根据在训练数据中看到的模式(例如“猫”通常与“垫子”关联),确定“mat”(垫子)是一个可能的下一个词。在训练过程中,LLMs 优化其参数,以最大限度地减少在海量数据集上的预测错误,学习语法、事实和上下文关系。例如,如果输入是 "2 + 2 =",模型会通过识别数学相关文本中的数值模式来学习预测“4”。
文本生成还取决于控制随机性和多样性的解码策略和参数。例如,“贪婪解码”(greedy decoding)在每一步选择概率最高的 token,这可能导致重复的输出。相比之下,“温度”(temperature)缩放调整随机性:低温度(例如 0.2)使模型倾向于高概率的 token(生成更安全、可预测的文本),而高温度(例如 1.0)则允许更多样化的选择。开发者还可以使用“top-k 采样”(top-k sampling),它将模型限制为从概率最高的 k 个 token 中进行选择。这些设置让开发者可以在创造性和连贯性之间取得平衡——例如,聊天机器人可以使用适中的温度,以避免听起来像机器人,同时保持主题一致。