要使用 OpenAI 模型生成表格等结构化数据,可以利用提示工程明确定义所需的格式和结构。首先,精心设计一个详细的提示,指定列、数据类型和任何约束。例如,如果您想要一个产品表格,您的提示可以写:“生成一个包含 3 行的表格,包括 ‘产品名称’(字符串)、‘价格’(美元)和 ‘类别’(以下之一:电子产品、服装、家居)列。使用 Markdown 语法格式化表格。” 模型将返回如下响应:
产品名称 | 价格 | 类别 |
---|---|---|
无线耳机 | $89.99 | 电子产品 |
棉质 T 恤 | $19.99 | 服装 |
台灯 | $34.99 | 主页 |
这种方法之所以有效,是因为模型遵循明确的格式指示。对于更复杂的结构,可以在提示中提供示例(少样本学习)。例如,包含一行样本来展示所需的样式。模型解析上下文的能力确保它能够一致地复制模式。
如果初始输出不符合您的要求,可以通过添加分隔符或更严格的规则来优化提示。例如,使用竖线字符 (|
) 和表头来强制对齐。您也可以在提示中指定请求 CSV 或 JSON 格式的输出。然而,模型偶尔可能会忽略表头或数据对齐不齐,因此通常需要进行后处理。Python 的 csv
模块或 pandas
等工具可以将文本解析成结构化格式。对于编程使用,可以将 API 调用与解析器结合起来,将原始文本转换为 DataFrame 或字典。
验证对于确保数据一致性至关重要。检查是否存在缺失值、不正确的数据类型或违反约束(例如,“类别”不在允许列表中)。使用正则表达式或像 Pydantic 这样的模式验证库来自动化检查。如果错误仍然存在,调整提示以包含验证规则,例如:“确保所有价格以美元表示,且类别有效。” 对于大型数据集,分批生成数据并对失败的行实施重试逻辑。测试多个提示并根据输出质量进行迭代将有助于获得可靠的结果。