给大型语言模型 (LLM) 的提示或指令相当于生成回应的蓝图。它们定义了任务,设定了上下文,并建立了指导模型输出的约束。一个精心设计的提示能确保答案重点突出、逻辑结构清晰,并与用户的意图相符。例如,如果开发者问“如何优化 SQL 查询?”,且没有提供额外的上下文,模型可能会提供一份通用的技巧列表。然而,像“解释在 PostgreSQL 中减少查询执行时间的三种具体技术,并提供代码示例”这样的提示,则指示模型优先考虑可操作的、特定于数据库的建议。清晰的指令也有助于避免不相关的题外话——比如当用户已经了解 SQL 语法基础时解释这些基本知识——从而提高连贯性和相关性。
评估提示风格包括测试不同的措辞、具体程度和结构如何影响输出质量。例如,像“编写 REST API 的代码”这样模糊的提示可能会导致不完整或过于简单的示例。像“编写一个带有 GET/POST 端点、JWT 身份验证和 SQLite 集成的 Python Flask API。包括错误处理和单元测试”这样的结构化提示,则会产生更详细和功能完善的代码。开发者可以通过检查输出是否满足技术要求(例如,正确的语法)、解决边缘情况或遵循最佳实践来评估质量。对开放式提示与受约束提示进行并排比较测试——并测量代码正确性、答案长度或是否符合指南等指标——有助于确定哪种风格能产生最可靠的结果。
有效提示设计通常需要在具体性和灵活性之间取得平衡。对于复杂的任务,将提示分解为多个步骤——比如“首先,概述算法逻辑;然后,编写代码;最后,建议测试用例”——可以改善结构。包含示例(例如,“将答案格式化为带有键‘steps’和‘dependencies’的 YAML 配置”)可确保模型遵循所需的模式。迭代测试是关键:开发者应根据模型行为改进提示,比如如果响应过于抽象,则添加“避免使用技术术语”。像 A/B 测试框架或自动化验证脚本(例如,检查代码是否存在语法错误)之类的工具可提供客观的质量衡量标准,从而实现对提示工程策略进行数据驱动的改进。