要在 Amazon Bedrock 中监控微调作业,您主要使用 AWS 管理控制台、Amazon CloudWatch 以及 AWS SDK 或 CLI 来跟踪作业状态和访问日志。该过程很简单,旨在与 AWS 现有的监控工具集成,使已经使用 AWS 服务的开发人员感到熟悉。
首先,作业状态在 Bedrock 控制台的自定义模型部分可见。当您启动微调作业时,它会出现在列表中,状态为进行中、已完成或失败。例如,在提交微调 Cohere 模型的作业后,您将看到其当前状态、创建时间和基本模型类型。如果作业失败,控制台通常会提供简短的错误消息,以帮助诊断问题。您还可以使用 AWS CLI,命令如 aws bedrock get-model-customization-job --job-id <JOB_ID>
以编程方式检索状态详细信息。这对于自动化或将状态检查集成到 CI/CD 管道中非常有用。
其次,微调作业的日志存储在 Amazon CloudWatch 中。 Bedrock 会自动将日志流式传输到名为 /aws/bedrock/model-customization-jobs
的 CloudWatch 日志组。在此组中,日志按作业 ID 组织,允许您过滤特定训练运行的日志。例如,您可以检查日志以查看作业为何停滞(例如,内存不足错误)或监控随时间变化的训练损失等指标。您可以通过 CloudWatch 控制台、AWS CLI (aws logs filter-log-events
) 或 SDK 访问日志。此外,Bedrock 可以发出 CloudWatch 指标,如 TrainingElapsedTime
或 TrainingSteps
以跟踪进度。
最后,开发人员可以使用 AWS SDK(例如,Python 的 Boto3)以编程方式监控作业。例如,调用 bedrock_client.get_model_customization_job(jobId=JOB_ID)
会返回详细的状态和元数据。这有助于构建自定义仪表板或触发警报。如果作业失败,将控制台状态消息与 CloudWatch 日志相结合,可提供最完整的故障排除情况。例如,“ResourceLimitExceeded”状态可能与 CloudWatch 日志显示 GPU 内存耗尽相关,从而指导您调整训练参数(如批处理大小)。