在评估 AWS Bedrock 上的生成模型时,开发者应考虑三个主要类别的指标:输出质量、成本效率以及用户/业务契合度。这些因素可确保模型不仅速度快,而且可靠、可持续并符合用途。
输出质量指标对于评估模型满足任务要求的程度至关重要。对于文本生成,像困惑度(Perplexity)(模型生成输出的置信度)以及 BLEU/ROUGE 分数(用于比较输出与参考文本)可以量化准确性。然而,特定任务的衡量标准也很重要:对于聊天机器人,您可以通过分析回复是否切题来追踪对话连贯性,或者使用人工评估员来评价输出的相关性。对于图像生成,像弗雷歇初始距离 (FID) 等指标可以比较合成数据和真实数据的分布。例如,使用 Bedrock 的 Stable Diffusion 模型的营销团队可以使用 FID 来确保产品图像看起来逼真。此外,多样性指标(例如,文本中的独特 n-gram 或图像中的颜色变化)可以防止重复或通用的输出,这对于创意应用至关重要。
成本效率超越了原始计算速度。追踪每次请求的成本,这取决于文本模型的输入/输出 token 数量或图像模型的分辨率。例如,Bedrock 上的 Claude-v2 按 token 收费,因此优化提示以减少输入长度可以直接降低成本。比较不同模型的成本:使用 Titan 进行基本摘要可能比使用更大的模型(如 Jurassic-2)更便宜。此外,考虑运营成本——如果模型由于错误需要频繁重试,这会增加延迟和开销。像 Bedrock 的预置吞吐量(Provisioned Throughput)这样的工具可以帮助在高吞吐量用例中平衡成本和性能。例如,一个每天处理 10,000 个请求的客户服务聊天机器人通过选择经济高效的模型层级,每月可以节省数千美元。
用户和业务契合度指标确保模型能够带来现实世界价值。衡量任务成功率(例如,代码生成模型生成的代码片段能正确编译的百分比)或通过调查衡量用户满意度得分。对于侧重审核的模型,追踪标记有害内容的误报率/漏报率。此外,监控延迟方差——持续 2 秒的响应通常比在 0.5 秒和 5 秒之间波动的响应更好,即使平均速度看起来不错。例如,一个使用 Bedrock 模型生成患者摘要的医疗保健应用程序,会优先考虑准确性(通过人工抽查)而非原始速度,以避免关键错误。最后,将指标与业务 KPI 保持一致,例如部署聊天机器人后支持工单减少,以展示投资回报率 (ROI)。