预训练语言模型(PLM)是一种人工智能系统,旨在通过在初始训练阶段从大量文本数据中学习模式来理解和生成人类语言。这些模型使用神经网络构建,神经网络分析词序列以预测句子中下一个词的可能性。“预训练”方面意味着模型首先在通用文本(例如,书籍、网站或文章)上进行训练,以培养广泛的语言理解能力。开发人员随后可以针对特定任务(如翻译、摘要或问答)对这些模型进行微调,与从头开始训练相比,这可以节省时间和资源[7]。
训练过程涉及两个主要阶段。首先,模型通过无监督学习进行学习,在没有显式标签的情况下识别词语和短语之间的关系。例如,它可能学习到“Paris”与“France”相关,或者“rain”常常出现在“cloudy”之后。其次,在微调阶段,模型使用较小的带标签数据集适应特定任务。流行的架构如 BERT (Bidirectional Encoder Representations from Transformers) 和 GPT (Generative Pre-trained Transformer) 都采用这种方法。例如,BERT 擅长理解双向(词语的左侧和右侧)上下文,这使其对于情感分析等任务非常有效[7]。
PLM 在实践中的一个关键例子是 OpenAI 的 InstructGPT,它通过在训练期间融入人类反馈,从而更好地将输出与用户意图对齐,从而改进了 GPT-3[7]。这种调整有助于减少有害或无意义的回复,同时保持模型处理多样化查询的能力。PLM 为聊天机器人、代码自动补全系统和内容审核过滤器等工具提供支持。它们的通用性源于其基础训练,该训练捕捉了语法、事实和推理模式,使其能够适应小众应用,而无需庞大的特定任务数据集。
[7] 使语言模型遵循指令