当您在 AWS Bedrock 中完成自定义微调的模型后,您可以使用 Bedrock 内置的 API 将其部署以进行推理。 微调作业完成后,在 Bedrock 控制台中或通过 AWS CLI 检查其状态,以确认其标记为“已完成”。 Bedrock 会自动托管微调后的模型,因此无需额外的部署步骤(如预置终端节点)。 您将收到自定义模型的唯一模型标识符 (ARN),该标识符将在 API 调用中使用。 例如,使用 AWS CLI,您可以使用 aws bedrock list-custom-models
验证模型的可用性,并记录响应中的 ARN。
要执行推理,请将 Bedrock Runtime API 与您首选的 SDK 或直接 HTTP 请求一起使用。 例如,在带有 Boto3 的 Python 中,您将从 bedrock-runtime
客户端调用 invoke_model
,指定模型 ARN 和输入数据。 这是一个简化的示例
import boto3
client = boto3.client('bedrock-runtime')
response = client.invoke_model(
modelId='arn:aws:bedrock:.../custom-model-123',
contentType='application/json',
body=json.dumps({'prompt': 'Translate: Hello world', 'max_tokens': 50})
)
output = json.loads(response['body'].read())['generation']
输入格式(例如,prompt
与 input_text
)取决于用于微调的基础模型。查看 Bedrock 的文档以了解您的模型类型,以确保请求结构与其要求相符。您可以在本地测试此功能,或通过 AWS Lambda、EC2 或容器化服务将其集成到应用程序中。
对于生产用途,请考虑监控和扩展。 Bedrock 与 CloudWatch 集成以跟踪调用计数或延迟等指标。 如果您的应用程序需要低延迟响应,请测试负载下的性能并调整 max_tokens
或批量大小等参数。 为了安全起见,请确保附加到您的应用程序的 IAM 角色具有 bedrock:InvokeModel
权限。 如果您以后需要更新模型,您将重复微调过程并更新代码中的 ARN。 Bedrock 处理底层基础设施,因此您可以避免手动管理服务器或扩展集群。