AWS Bedrock 提供内置机制来处理扩展性和可用性,减少了应用程序直接管理负载均衡的需求。作为一项完全托管服务,Bedrock 抽象了基础设施相关的问题,包括资源分配和流量分配。它能根据不同的请求量自动扩展,确保工作负载在其底层资源之间实现均衡,无需手动干预。这通过 AWS 内部的负载均衡和扩展系统实现,这些系统根据需求动态调整容量。开发人员通过 API 端点与 Bedrock 交互,服务在后台管理请求的分发。
例如,当应用程序向 Bedrock 模型发送推理请求时,服务会将每个请求路由到 AWS 基础设施中可用的计算资源。如果流量激增,Bedrock 会通过预置额外的资源进行横向扩展以保持性能。这使得开发人员无需专门为 Bedrock 设置和维护负载均衡器、实例组或自动扩展策略。然而,这种自动化仅限于 Bedrock 自身的资源——如果您的应用程序集成了多个服务(例如,将 Bedrock 与其他 AWS 或第三方 API 结合使用),则需要在这些外部组件之间单独管理负载均衡。
尽管 Bedrock 处理内部负载均衡,应用程序可能仍需针对特定场景实施策略。例如,如果您使用多个 Bedrock 模型或区域,您可能需要设计逻辑来根据成本、延迟或区域可用性分发请求。AWS Route 53 或 Application Load Balancer 等工具可以帮助在不同区域的 Bedrock 端点之间路由流量。此外,Bedrock 的预置吞吐量(Provisioned Throughput)功能允许为高优先级工作负载预留容量,这可以视为一种有针对性的负载管理形式。总之,Bedrock 在内部管理资源级别的负载均衡,但开发人员仍负责涉及多个服务或自定义路由需求的高级架构决策。