AI 在科学发现中的推理工作涉及使用计算方法分析数据、生成假设并指导实验。其核心在于,AI 系统应用逻辑规则、统计模型或神经网络,在复杂数据集中识别模式或关系,这些模式或关系可能难以由人类手动检测。例如,在基因组学或材料科学等领域,AI 可以处理海量实验或仿真数据,以提出有前途的研究方向。一个关键方面是通过迭代算法模拟科学推理步骤——例如形成假设、设计实验和解释结果——这些算法会根据反馈来优化预测。
一种常见的方法是将符号推理与数据驱动方法相结合。符号 AI 使用预定义的规则(例如,化学反应规则或物理定律)来建模科学知识,而机器学习模型则从非结构化数据中提取见解。例如,DeepMind 的 AlphaFold 通过将神经网络与生物物理约束相结合来预测蛋白质结构,有效地将数据模式与领域特定原理相结合。同样,像 IBM 的 RoboRXN 这样的 AI 系统将化学反应数据库与语言模型相结合,以提出新分子的合成路径。这些混合系统通常优于纯粹的数据驱动方法,因为它们融入了领域专业知识,降低了产生不可信假设的风险。
挑战包括确保透明度和处理不完整数据。AI 模型可能产生“黑箱”结果,这使得科学家难以信任或验证其推理过程。可解释 AI (XAI) 或不确定性量化等工具通过突出显示哪些特征或规则促成了预测来帮助解决这一问题。例如,在药物发现中,模型可能会根据历史数据优先考虑与毒性相关的分子片段,但研究人员需要通过实验验证这些关联。未来的进步可能侧重于与实验室自动化更紧密的集成,使 AI 不仅能够建议实验,还能实时执行和调整实验,从而弥合假设与验证之间的差距。