AI推理模型可以在特定条件下实现有限形式的自我改进,但如果没有人为设计的框架,它们不会自主进化。 目前的模型,如语言模型或强化学习代理,依赖于预定义的架构和训练管道。 例如,模型可以通过迭代训练周期来优化其性能,在这些周期中,它可以从新数据或反馈中学习。 然而,这个过程是由人为设计的算法(例如,梯度下降)和评估指标指导的。 如果没有明确的编程或干预,模型无法自发地重写自己的架构或重新定义自己的目标。
一种实用的自我改进方法是通过自动化强化学习或元学习。 例如,AlphaZero通过与自己竞争来提高其下棋能力,通过数百万次的自我对弈生成训练数据。 同样,可以使用诸如来自人类反馈的强化学习(RLHF)之类的技术来微调语言模型,在这种情况下,人类偏好会指导模型的调整。 在这些情况下,“自我改进”被限制在固定结构内的参数更新。 另一个例子是合成数据生成:模型可能会创建训练示例来填补其知识中的空白,但这需要采取保障措施,以防止低质量生成数据导致的错误复合。
关键的限制在于,自我改进中的真正自主性仍然是理论上的。 模型缺乏对其自身局限性或超出人类定义的目标的内在理解。 例如,语言模型可能会在自我训练期间生成不正确的代码片段,从而在没有外部验证的情况下延续错误。 开发人员必须设计反馈循环、验证检查和更新机制,以实现安全的改进。 像OpenAI的GPT-4这样的项目使用广泛的人工监督和精选的数据集来迭代地改进输出。 虽然自动化工具可以帮助优化(例如,超参数调整),但有意义的进步所需的核心推理和创造力仍然取决于人为输入和系统设计。