Este guia mostra como receber previsões em lote de modelos Llama, abordando os seguintes tópicos: O diagrama a seguir resume o fluxo de trabalho geral: Com a previsão em lote, é possível enviar com eficiência vários comandos somente de texto que não são sensíveis à latência para um modelo da Llama. Em comparação com as previsões on-line, em que você envia um comando de entrada para cada solicitação, é possível agrupar um grande número de comandos de entrada em uma única solicitação. Não há cobranças para previsões em lote durante o período de pré-lançamento. A Vertex AI é compatível com previsões em lote para os seguintes modelos Llama: Você pode fornecer os comandos de entrada em uma tabela do BigQuery ou como um arquivo JSONL no Cloud Storage. A entrada para ambas as fontes precisa seguir o formato JSON do esquema da API OpenAI, conforme mostrado no exemplo a seguir: Sua tabela de entrada do BigQuery precisa ter o seguinte esquema: A entrada precisa ser um arquivo JSONL em um bucket do Cloud Storage. Cada linha no arquivo precisa ser um objeto JSON válido que segue o esquema necessário. Para solicitar uma previsão em lote de um modelo do Llama, use a entrada do
BigQuery ou do Cloud Storage.
Você pode gerar previsões em uma tabela do BigQuery ou em um arquivo JSONL em um bucket do Cloud Storage, independente da origem de entrada. Especifique a tabela de entrada do BigQuery, o modelo e o local de saída.
O job de previsão em lote e a tabela precisam estar na mesma região.
Depois de
configurou seu ambiente
use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher
endpoint do modelo.
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
Método HTTP e URL:
Corpo JSON da solicitação: Para enviar a solicitação, escolha uma destas opções:
Salve o corpo da solicitação em um arquivo com o nome
Salve o corpo da solicitação em um arquivo com o nome Você receberá uma resposta JSON semelhante a seguinte. Especifique o local do Cloud Storage, o modelo e o local de saída do arquivo JSONL.
Depois de
configurou seu ambiente
use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher
endpoint do modelo.
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
Método HTTP e URL:
Corpo JSON da solicitação: Para enviar a solicitação, escolha uma destas opções:
Salve o corpo da solicitação em um arquivo com o nome
Salve o corpo da solicitação em um arquivo com o nome Você receberá uma resposta JSON semelhante a seguinte. Depois de enviar a solicitação, você pode conferir o status do job de predição em lote para verificar se ele foi concluído. O tempo necessário para a conclusão do job depende do número de itens de entrada enviados.
Depois de
configurou seu ambiente
use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher
endpoint do modelo.
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
Método HTTP e URL:
Para enviar a solicitação, escolha uma destas opções:
execute o seguinte comando:
execute o seguinte comando:
Você receberá uma resposta JSON semelhante a seguinte. Depois que o job de previsão em lote é concluído, a saída é salva no destino especificado na solicitação.
Modelos Llama compatíveis
Prepare sua entrada
Origem da entrada
Descrição
Caso de uso
BigQuery
Os dados de entrada são armazenados em uma tabela do BigQuery.
Ideal quando seus dados já estão no BigQuery, para conjuntos de dados estruturados em grande escala e quando você quer usar o SQL para preparação de dados.
Cloud Storage
Os dados de entrada são armazenados como um arquivo JSONL em um bucket do Cloud Storage.
Adequado para dados não estruturados ou semiestruturados, quando os dados vêm de várias fontes ou para fluxos de trabalho mais simples baseados em arquivos.
{"custom_id": "test-request-0", "method": "POST", "url": "/v1/chat/completions", "body": {"model": "meta/llama-3.1-405b-instruct-maas", "messages": [{"role": "system", "content": "You are a chef."}, {"role": "user", "content": "Give me a recipe for banana bread"}], "max_tokens": 1000}}
BigQuery
Nome da coluna
Descrição
custom_id
Um ID para cada solicitação que corresponde à entrada e à saída.
method
O método de solicitação.
url
O endpoint de solicitação.
body
(JSON)Seu comando de entrada.
response
(JSON) e id
como nomes de colunas para a saída. Para evitar conflitos, não use esses nomes para colunas na tabela de entrada.method
e url
, que não são incluídas na tabela de saída. Cloud Storage
Solicitar uma predição em lote
BigQuery
REST
myproject.mydataset.input_table
.bigquery
. Para gerar saída em um bucket do Cloud Storage, especifique jsonl
.
bigqueryDestination
. No Cloud Storage, especifique gcsDestination
.
outputUri
. Para o Cloud Storage, especifique outputUriPrefix
.
myproject.mydataset.output_result
. Para o Cloud Storage, especifique o local do bucket e da pasta, como gs://mybucket/path/to/outputfile
.
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs
'{
"displayName": "JOB_NAME",
"model": "publishers/meta/models/MODEL",
"inputConfig": {
"instancesFormat":"bigquery",
"bigquerySource":{
"inputUri" : "INPUT_URI"
}
},
"outputConfig": {
"predictionsFormat":"OUTPUT_FORMAT",
"DESTINATION":{
"OUTPUT_URI_FIELD_NAME": "OUTPUT_URI"
}
}
}'
curl
request.json
e execute o comando a seguir:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs"PowerShell
request.json
e execute o comando a seguir:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs" | Select-Object -Expand ContentCloud Storage
REST
gs://bucketname/path/to/jsonl
.bigquery
. Para gerar saída em um bucket do Cloud Storage, especifique jsonl
.
bigqueryDestination
. No Cloud Storage, especifique gcsDestination
.
outputUri
. Para o Cloud Storage, especifique outputUriPrefix
.
myproject.mydataset.output_result
. Para o Cloud Storage, especifique o local do bucket e da pasta, como gs://mybucket/path/to/outputfile
.
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs
'{
"displayName": "JOB_NAME",
"model": "publishers/meta/models/MODEL",
"inputConfig": {
"instancesFormat":"jsonl",
"gcsDestination":{
"uris" : "INPUT_URI"
}
},
"outputConfig": {
"predictionsFormat":"OUTPUT_FORMAT",
"DESTINATION":{
"OUTPUT_URI_FIELD_NAME": "OUTPUT_URI"
}
}
}'
curl
request.json
e execute o comando a seguir:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs"PowerShell
request.json
e execute o comando a seguir:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs" | Select-Object -Expand ContentVer o status de um job de previsão em lote
REST
GET https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs/JOB_ID
curl
curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs/JOB_ID"PowerShell
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method GET `
-Headers $headers `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/batchPredictionJobs/JOB_ID" | Select-Object -Expand ContentRecuperar sua saída
response(JSON)
da tabela de destino.
Previsões em lote
Exceto em caso de indicação contrária, o conteúdo desta página é licenciado de acordo com a Licença de atribuição 4.0 do Creative Commons, e as amostras de código são licenciadas de acordo com a Licença Apache 2.0. Para mais detalhes, consulte as políticas do site do Google Developers. Java é uma marca registrada da Oracle e/ou afiliadas.
Última atualização 2025-08-19 UTC.