如果在 AWS Bedrock 上完成训练后,你的微调模型未显示为可用于推理,最常见的原因是部署步骤不完整、配置不匹配或权限问题。 Bedrock 需要显式步骤才能在训练后部署模型以进行推理,缺少这些步骤可能会使模型处于“已训练但未部署”状态。 此外,训练作业可能成功,但不会自动授予访问模型的权限,需要手动调整 IAM 角色或资源策略。
一个关键因素是 Bedrock 中训练和部署工作流程之间的区别。 例如,即使你的训练作业成功完成,你可能需要手动创建模型端点或将训练后的模型工件链接到推理组件。 Bedrock 通常将训练后的模型存储在 Amazon S3 中,但要访问它们以进行推理,需要配置专用端点或确保该模型已在 Bedrock 的模型注册表中注册。 另一个常见的疏忽是忘记在设置推理 API 时指定训练后的模型的正确 ARN(Amazon 资源名称)。 如果没有此 ARN,Bedrock 将无法识别该模型是否可用。 权限也发挥作用:你的 IAM 角色可能有权运行训练作业,但缺少 bedrock:InvokeModel
权限或允许访问存储模型的 S3 存储桶的策略。
要解决此问题,请首先验证 AWS 管理控制台或 CLI 中的训练作业的输出。 检查模型工件是否已保存到 S3,并确认其路径与你的部署配置匹配。 接下来,确保已使用 Bedrock 的 API(例如,CreateModel
或 CreateEndpoint
调用)或通过控制台显式部署了该模型。 检查 IAM 策略以确认你的角色同时具有训练和推理操作的权限。 例如,如果你的模型存储在 s3://your-bucket/model-artifacts/
中,请确保该角色包含该路径的 s3:GetObject
。 最后,检查服务限制 - Bedrock 可能会限制并发部署或要求某些模型的特定实例类型。 如果所有其他方法都失败,请检查 CloudWatch 日志以查找部署错误,这些错误通常会提供可操作的线索,例如缺少依赖项或不兼容的模型格式。