本指南介绍了如何从 Llama 模型获取批量预测结果,涵盖以下主题: 下图总结了整个工作流程: 通过批量预测,您可以高效地向 Llama 模型发送对延迟时间不敏感的多个纯文本提示。与在线预测(每次请求发送一个输入提示)相比,您可以在单个请求中批量发送大量输入提示。 在预览版期间,批量预测功能可供免费使用。 Vertex AI 对以下 Llama 模型支持批量预测: 您可以在 BigQuery 表中或以 Cloud Storage 中的 JSONL 文件形式提供输入提示。这两种来源的输入都必须遵循 OpenAI API 架构 JSON 格式,如以下示例所示: BigQuery 输入表必须具有以下架构: 输入必须是 Cloud Storage 存储桶中的 JSONL 文件。文件中的每一行都必须是遵循所需架构的有效 JSON 对象。 如需向 Llama 模型请求批量预测,请使用来自 BigQuery 或 Cloud Storage 的输入。无论输入源是什么,您都可以选择将预测结果输出到 BigQuery 表或 Cloud Storage 存储桶中的 JSONL 文件。 指定 BigQuery 输入表、模型和输出位置。批量预测作业和您的表必须位于同一区域。
设置您的环境后,您可以使用 REST 测试文本提示。以下示例会向发布方模型端点发送请求。 在使用任何请求数据之前,请先进行以下替换: HTTP 方法和网址: 请求 JSON 正文:
如需发送请求,请选择以下方式之一:
将请求正文保存在名为
将请求正文保存在名为 您应该收到类似以下内容的 JSON 响应。 指定 JSONL 文件的 Cloud Storage 位置、模型和输出位置。
设置您的环境后,您可以使用 REST 测试文本提示。以下示例会向发布方模型端点发送请求。 在使用任何请求数据之前,请先进行以下替换: HTTP 方法和网址: 请求 JSON 正文:
如需发送请求,请选择以下方式之一:
将请求正文保存在名为
将请求正文保存在名为 您应该收到类似以下内容的 JSON 响应。 提交请求后,您可以获取批量预测作业的状态,以检查其是否已完成。作业完成所需的时间取决于您提交的输入数据项数量。
设置您的环境后,您可以使用 REST 测试文本提示。以下示例会向发布方模型端点发送请求。 在使用任何请求数据之前,请先进行以下替换: HTTP 方法和网址: 如需发送请求,请选择以下方式之一: 执行以下命令: 执行以下命令: 您应该收到类似以下内容的 JSON 响应。 批量预测作业完成后,输出会保存到您在请求中指定的目标位置。
支持的 Llama 模型
准备输入
输入源
说明
使用场景
BigQuery
输入数据存储在 BigQuery 表中。
如果您的数据已位于 BigQuery 中,并且是大规模结构化数据集,并且您希望利用 SQL 进行数据准备,那么这种方法非常适合。
Cloud Storage
输入数据以 JSONL 文件的形式存储在 Cloud Storage 存储桶中。
适用于非结构化或半结构化数据,当数据来自各种来源时,或适用于更简单的基于文件的工作流。
{"custom_id": "test-request-0", "method": "POST", "url": "/v1/chat/completions", "body": {"model": "meta/llama-3.1-405b-instruct-maas", "messages": [{"role": "system", "content": "You are a chef."}, {"role": "user", "content": "Give me a recipe for banana bread"}], "max_tokens": 1000}}
BigQuery
列名
说明
custom_id
每个请求的 ID,用于将输入与输出进行匹配。
method
请求方法。
url
请求端点。
body
(JSON)您的输入提示。
response
(JSON) 和 id
作为输出的列名。为避免冲突,请勿在输入表中为列使用这些名称。method
和 url
列,因此输出表中不包含这两列。Cloud Storage
请求批量预测
BigQuery
REST
myproject.mydataset.input_table
。bigquery
。如需输出到 Cloud Storage 存储桶,请指定 jsonl
。bigqueryDestination
。对于 Cloud Storage,请指定 gcsDestination
。
outputUri
。对于 Cloud Storage,请指定 outputUriPrefix
。
myproject.mydataset.output_result
。对于 Cloud Storage,请指定存储桶和文件夹位置,例如 gs://mybucket/path/to/outputfile
。
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs
'{
"displayName": "JOB_NAME",
"model": "publishers/meta/models/MODEL",
"inputConfig": {
"instancesFormat":"bigquery",
"bigquerySource":{
"inputUri" : "INPUT_URI"
}
},
"outputConfig": {
"predictionsFormat":"OUTPUT_FORMAT",
"DESTINATION":{
"OUTPUT_URI_FIELD_NAME": "OUTPUT_URI"
}
}
}'
curl
request.json
的文件中,然后执行以下命令:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs"PowerShell
request.json
的文件中,然后执行以下命令:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs" | Select-Object -Expand ContentCloud Storage
REST
gs://bucketname/path/to/jsonl
。bigquery
。如需输出到 Cloud Storage 存储桶,请指定 jsonl
。bigqueryDestination
。对于 Cloud Storage,请指定 gcsDestination
。
outputUri
。对于 Cloud Storage,请指定 outputUriPrefix
。
myproject.mydataset.output_result
。对于 Cloud Storage,请指定存储桶和文件夹位置,例如 gs://mybucket/path/to/outputfile
。
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs
'{
"displayName": "JOB_NAME",
"model": "publishers/meta/models/MODEL",
"inputConfig": {
"instancesFormat":"jsonl",
"gcsDestination":{
"uris" : "INPUT_URI"
}
},
"outputConfig": {
"predictionsFormat":"OUTPUT_FORMAT",
"DESTINATION":{
"OUTPUT_URI_FIELD_NAME": "OUTPUT_URI"
}
}
}'
curl
request.json
的文件中,然后执行以下命令:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs"PowerShell
request.json
的文件中,然后执行以下命令:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs" | Select-Object -Expand Content获取批量预测作业的状态
REST
GET https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs/JOB_ID
curl
curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs/JOB_ID"PowerShell
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method GET `
-Headers $headers `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs/JOB_ID" | Select-Object -Expand Content检索输出
response(JSON)
列中。
批量预测
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2025-08-19。