Amazon Bedrock 通过内置的内容过滤、可定制的审核工具以及特定于模型的安全措施,将安全实践整合到其 AI 工作流程中。 这些功能可帮助开发人员在使用基础模型 (FM) 时降低有害输出、有偏见的回应或不当内容等风险。 该系统在输入(用户提示)和输出(模型生成的文本)阶段都应用安全检查,从而为开发人员提供多层控制。
首先,Bedrock 提供自动应用的基础安全过滤器。 例如,在使用 Amazon Titan 等模型时,该服务会扫描提示和响应中是否存在违反政策的行为,例如仇恨言论、暴力或露骨的性内容。 这些过滤器可以在有害请求到达模型之前阻止它们,或者抑制不安全输出。 开发人员可以使用 Bedrock 的 API 参数,通过预定义的类别和阈值来调整过滤器严格程度。 此外,Bedrock 还支持护栏,允许团队定义自定义阻止列表、限制主题或正则表达式模式,以实时捕获特定短语或敏感数据(如信用卡号)。
其次,安全功能因模型提供商而异。 像 Anthropic 的 Claude 这样的模型包含内置的宪法 AI 技术,该技术使响应与预定义的道德原则保持一致,而像 Cohere 的 Command 这样的模型则强调事实准确性检查。 Bedrock 通过标准化的 API 统一访问这些特定于模型的安全措施,从而允许开发人员查询每个模型的安全功能并一致地应用它们。 例如,Claude 的 API 可能会返回毒性置信度分数以及生成的文本,从而实现重新排序或二次验证等后处理步骤。
最后,Bedrock 支持针对企业需求的监控和定制。 开发人员可以将模型输入/输出记录到 AWS 服务(如 CloudWatch)以进行审计,为违反策略的行为设置警报,或者使用他们自己的数据微调模型以加强特定于域的安全规则。 对于高风险应用程序,团队可以将 Bedrock 的本机工具与 AWS AI 服务(如 Amazon Comprehend(用于情感分析))或第三方审核 API 分层。 这种模块化方法允许组织在安全要求与灵活性之间取得平衡,确保模型既符合技术标准又符合道德标准,而不会牺牲开发速度。