神经进化通过进化算法来演化神经网络结构或参数,而不是仅仅依赖于基于梯度的优化,从而增强了强化学习(RL)。这种方法在传统 RL 方法(如 Q-learning 或策略梯度)因稀疏奖励、复杂环境或需要多样化探索而难以奏效的场景中特别有用。通过维护一个候选网络的种群,并迭代地选择、变异和重组表现最佳的网络,神经进化鼓励探索更广泛的策略范围,从而带来更稳健的解决方案。
神经进化的一个关键优势是它能够处理奖励稀疏或具有欺骗性的环境。例如,在一个游戏中,代理只有在完成一项困难任务(如解决迷宫)时才能获得奖励,传统 RL 可能失败,因为代理从未偶然发现正确的动作序列。神经进化通过评估整个代理种群来解决这个问题,允许一些代理探索随机行为。即使大多数代理失败,少数代理也可能偶然发现有用的策略,然后可以通过进化来改进。像 NEAT (NeuroEvolution of Augmenting Topologies) 这样的算法更进一步,通过演化网络权重和结构,从而发现针对特定问题量身定制的新颖架构。
另一个好处是神经进化与并行化的兼容性以及它避免了与梯度相关的陷阱。由于进化方法独立评估代理,它们可以分布在多台机器或多个核心上,从而加快训练速度。这与基于梯度的 RL 形成对比,后者通常需要顺序更新。此外,神经进化绕开了诸如梯度消失或局部最优等挑战,因为它不依赖于反向传播。例如,在需要精确协调动作的机器人控制任务中,神经进化已被用于演化能够适应物理缺陷或环境变化的控制器。通过结合探索多样化策略和对性能的选择压力,神经进化为传统 RL 提供了一种灵活的替代方案,尤其是在复杂或理解不充分的领域。