AWS Bedrock 中模型的典型吞吐量取决于特定模型、实例类型和工作负载。 例如,像 Claude 或 Jurassic-2 这样的模型在标准配置下可能可以处理每秒 10-50 个请求 (RPS) 或每秒 100-500 个令牌 (TPS),但这些数字可能相差很大。 针对低延迟任务优化的较小模型可能实现更高的 RPS,但每个请求处理的令牌更少。 像那些专为复杂推理设计的更大模型通常优先考虑准确性而非速度,从而导致较低的吞吐量。 亚马逊不公布精确的基准,因为性能取决于诸如输入/输出令牌计数、有效负载大小和区域服务器负载等因素。 使用您的特定工作负载进行测试至关重要——使用真实的提示运行负载测试将为您提供最准确的基线,以便了解您的使用情况。
吞吐量可以通过配置调整和基础设施选择来提高。 一种方法是选择更大的实例类型(例如,从 bedrock.m5.large
切换到 bedrock.m5.4xlarge
),这会将更多计算资源分配给模型。 另一种选择是启用预配置吞吐量,这是一项付费功能,可以为您的模型预留专用容量,从而保证流量高峰期间的一致性能。 例如,为 Claude-v2 预配置 50 RPS 可确保这些请求优先于非预配置工作负载。 此外,调整推理参数(如 max_tokens
)或将多个请求批处理到单个 API 调用中可以提高效率。 如果您的应用程序允许异步处理,则使用 Bedrock 的批处理 API 对请求进行排队并批量处理也可以通过减少开销来提高有效吞吐量。
开发人员还应该优化他们的实施。 缓存频繁或重复的查询(例如,常见的客户支持提示)可以减少冗余模型调用。 使用更新的模型版本(例如,从 Titan-v1 切换到 Titan-v2)可能会由于架构改进而提供更好的令牌效率。 区域选择也很重要——在与您的 Bedrock 端点相同的 AWS 区域中部署您的应用程序可以最大限度地减少网络延迟。 最后,监控 CloudWatch 指标(如 ModelLatency
和 InvocationCount
)有助于识别瓶颈。 例如,如果延迟在 30 RPS 时达到峰值,则您可能已达到实例的默认限制,这表明需要扩展或配置更多容量。 结合使用这些策略可以根据您的应用程序的需求平衡成本和性能。