Amazon Bedrock 会根据需求自动扩展以处理增加的负载,无需用户手动配置容量。作为一项托管服务,Bedrock 抽象了基础设施管理,使开发人员能够专注于构建应用程序,而不是配置资源。AWS 负责处理底层计算、存储和网络资源,并根据实时工作负载需求动态调整它们。例如,如果在 Bedrock 上构建的应用程序遇到用户请求的突然激增——比如聊天机器人在高峰时段处理数千个并发查询——该服务会扩展 API 端点和模型实例等资源以保持性能。用户无需指定实例类型、集群大小或扩展策略;Bedrock 的无服务器设计会在后台处理这一切。
在底层,Bedrock 利用了 AWS 的全球基础设施和弹性扩展能力。该服务将工作负载分布到多个可用区,并在流量激增时自动预置额外资源。例如,如果一家零售公司在假日促销期间使用 Bedrock 生成商品描述,该服务可以扩展以应对增加的负载,而无需人工干预。但是,Bedrock 会对每个模型强制执行默认吞吐量限制,以确保公平使用,这些限制因底层 AI 模型提供商(例如 Anthropic 的 Claude 或 Meta 的 Llama)而异。如果用例需要持续的大流量,开发人员可以通过 AWS Support 请求更高的限制。虽然 Bedrock 管理扩展,但用户仍应优化其应用程序的 API 调用模式——例如实施带有指数回退的重试机制——以便在接近这些限制时处理瞬时限流。
尽管 Bedrock 自动化了扩展,但开发人员仍可控制性能调优。例如,他们可以配置推理请求的最大并发数或批量大小等参数,以符合成本或延迟目标。Amazon CloudWatch 等监控工具提供了对使用模式、错误和限流事件的可见性,使团队能够主动调整其代码或请求提高限制。在需要超低延迟或保证吞吐量(例如实时翻译服务)的场景中,用户可以将 Bedrock 与缓存层或异步处理队列结合使用。然而,这些优化是对 Bedrock 内置扩展的补充,而不是替代。其核心价值在于能够无缝处理不可预测的工作负载,减轻开发人员的操作负担。