A partir de 29 de abril de 2025, os modelos Gemini 1.5 Pro e Gemini 1.5 Flash não estarão disponíveis em projetos que não os usaram antes, incluindo novos projetos. Para mais detalhes, consulte Versões e ciclo de vida do modelo.
Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Receba inferências assíncronas, de alta capacidade e econômicas para suas necessidades de processamento de dados em grande escala com os recursos de previsão em lote do Gemini.
Este guia explica o valor da previsão em lote, como ela funciona, as limitações e as práticas recomendadas para resultados ideais.
Por que usar a previsão em lote?
Em muitos cenários do mundo real, não é necessário ter uma resposta imediata de um modelo de linguagem. Em vez disso, você pode ter um grande conjunto de dados de comandos que precisa processar de maneira eficiente e econômica. É aí que a previsão em lote se destaca.
Entre os principais benefícios estão:
Custo-benefício:o processamento em lote é oferecido com um desconto de 50% em comparação com a inferência em tempo real, o que o torna ideal para tarefas em grande escala e não urgentes.
Limites de taxa altos:processe centenas de milhares de solicitações em um único lote com um limite de taxa mais alto em comparação com a API Gemini em tempo real.
Fluxo de trabalho simplificado:em vez de gerenciar um pipeline complexo de solicitações individuais em tempo real, é possível enviar um único job em lote e recuperar os resultados quando o processamento for concluído. O serviço vai processar a validação de formato, paralelizar solicitações para processamento simultâneo e tentar novamente automaticamente para alcançar uma alta taxa de conclusão com um tempo de resposta de 24 horas.
A previsão em lote é otimizada para tarefas de processamento em grande escala, como:
Geração de conteúdo:gere descrições de produtos, postagens em redes sociais ou
outros textos criativos em massa.
Anotação e classificação de dados:classifique avaliações de usuários, categorize documentos ou faça uma análise de sentimentos em um grande corpus de texto.
Análise off-line:resuma artigos, extraia informações importantes de relatórios ou traduza documentos em grande escala.
Modelos do Gemini compatíveis com previsões em lote
Os seguintes modelos básicos e ajustados do Gemini são compatíveis com previsões em lote:
Embora a previsão em lote seja eficiente, é importante conhecer as seguintes limitações.
Cota: não há limites de cota predefinidos para seu uso. Em vez disso, o serviço
em lote oferece acesso a um grande pool compartilhado de recursos, alocados
dinamicamente com base na disponibilidade de recursos e na demanda em tempo real
de todos os clientes desse modelo. Quando mais clientes estão ativos e saturam nossa capacidade, suas solicitações em lote podem ser colocadas em fila.
Tempo na fila: quando nosso serviço tem muito tráfego, seu job em lote fica na fila até que haja capacidade. O job vai ficar na fila por até 72 horas antes de expirar.
Limites de solicitação: um único job em lote pode incluir até 200.000 solicitações. Se você estiver usando o Cloud Storage como entrada, também haverá um limite de tamanho de arquivo de 1 GB.
Tempo de processamento: os jobs em lote são processados de forma assíncrona e não são projetados para aplicativos em tempo real. A maioria dos jobs é concluída em até 24 horas após o início da execução (sem contar o tempo na fila). Após 24 horas, os trabalhos incompletos serão cancelados, e você só vai receber cobranças pelas solicitações concluídas.
Para aproveitar ao máximo a previsão em lote com o Gemini, recomendamos as seguintes práticas recomendadas:
Combinar jobs:para maximizar a capacidade de processamento, combine jobs menores em um job grande, dentro dos limites do sistema. Por exemplo, enviar um job em lote com 200.000 solicitações vai gerar uma capacidade de processamento melhor do que 1.000 jobs com 200 solicitações cada.
Monitorar o status do job:é possível monitorar o progresso do job usando a API, o SDK ou UI.
Para mais informações, consulte monitorar o status do job. Se um job falhar, verifique as mensagens de erro para diagnosticar e resolver o problema.
Otimize para custo:aproveite a economia de custos oferecida pelo processamento em lote para tarefas que não exigem uma resposta imediata.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-08-25 UTC."],[],[],null,["# Batch prediction with Gemini\n\n| To see an example of using batch predictions,\n| run the \"Intro to Batch Predictions with the Gemini API\" notebook in one of the following\n| environments:\n|\n| [Open in Colab](https://colab.research.google.com/github/GoogleCloudPlatform/generative-ai/blob/main/gemini/batch-prediction/intro_batch_prediction.ipynb)\n|\n|\n| \\|\n|\n| [Open in Colab Enterprise](https://console.cloud.google.com/vertex-ai/colab/import/https%3A%2F%2Fraw.githubusercontent.com%2FGoogleCloudPlatform%2Fgenerative-ai%2Fmain%2Fgemini%2Fbatch-prediction%2Fintro_batch_prediction.ipynb)\n|\n|\n| \\|\n|\n| [Open\n| in Vertex AI Workbench](https://console.cloud.google.com/vertex-ai/workbench/deploy-notebook?download_url=https%3A%2F%2Fraw.githubusercontent.com%2FGoogleCloudPlatform%2Fgenerative-ai%2Fmain%2Fgemini%2Fbatch-prediction%2Fintro_batch_prediction.ipynb)\n|\n|\n| \\|\n|\n| [View on GitHub](https://github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/batch-prediction/intro_batch_prediction.ipynb)\n\nGet asynchronous, high-throughput, and cost-effective inference for your\nlarge-scale data processing needs with Gemini's batch prediction capabilities.\nThis guide will walk you through the value of batch prediction, how it works,\nits limitations, and best practices for optimal results.\n\nWhy use batch prediction?\n-------------------------\n\nIn many real-world scenarios, you don't need an immediate response from a\nlanguage model. Instead, you might have a large dataset of prompts that you need\nto process efficiently and affordably. This is where batch prediction shines.\n\n**Key benefits include:**\n\n- **Cost-Effectiveness:** Batch processing is offered at a 50% discounted rate compared to real-time inference, making it ideal for large-scale, non-urgent tasks.\n- **High rate limits:** Process hundreds of thousands of requests in a single batch with a higher rate limit compared to the real time Gemini API.\n- **Simplified Workflow:** Instead of managing a complex pipeline of individual real-time requests, you can submit a single batch job and retrieve the results once the processing is complete. The service will handle format validation, parallelize requests for concurrent processing, and automatically retry to strive for a high completion rate with **24 hours** turnaround time.\n\nBatch prediction is optimized for **large-scale processing tasks** like:\n\n- **Content Generation:** Generate product descriptions, social media posts, or other creative text in bulk.\n- **Data Annotation and Classification:** Classify user reviews, categorize documents, or perform sentiment analysis on a large corpus of text.\n- **Offline Analysis:** Summarize articles, extract key information from reports, or translate documents at scale.\n\nGemini models that support batch predictions\n--------------------------------------------\n\nThe following base and tuned Gemini models support batch predictions:\n\n- [Gemini 2.5\n Pro](/vertex-ai/generative-ai/docs/models/gemini/2-5-pro)\n- [Gemini 2.5\n Flash](/vertex-ai/generative-ai/docs/models/gemini/2-5-flash)\n- [Gemini 2.5\n Flash-Lite](/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-lite)\n- [Gemini 2.0\n Flash](/vertex-ai/generative-ai/docs/models/gemini/2-0-flash)\n- [Gemini 2.0\n Flash-Lite](/vertex-ai/generative-ai/docs/models/gemini/2-0-flash-lite)\n\nQuotas and limits\n-----------------\n\nWhile batch prediction is powerful, it's important to be aware of the following\nlimitations.\n\n- **Quota**: There are no predefined quota limits on your usage. Instead, batch service provides access to a large, shared pool of resources, dynamically allocated based on availability of resources and real-time demand across all customers of that model. When more customers are active and saturated our capacity, your batch requests may be queued for capacity.\n- **Queue Time**: When our service experiences high traffic, your batch job will queue for capacity. The job will be in queue for up to 72 hours before it expires.\n- **Request Limits**: A single batch job may include up to 200,000 requests. If you are using Cloud Storage as input, there is also a file size limit of 1GB.\n- **Processing Time**: Batch jobs are processed asynchronously and are not designed for real-time applications. Most jobs complete within 24 hours after it starts running (not counting the queue time). After 24 hours, incomplete jobs will be cancelled, and you will only be charged for completed requests.\n- **Unsupported features** : Batch prediction does not support [Context Caching](/vertex-ai/generative-ai/docs/context-cache/context-cache-overview), [RAG](/vertex-ai/generative-ai/docs/rag-engine/rag-overview), or [Global endpoints](/vertex-ai/generative-ai/docs/learn/locations#global-endpoint).\n\n| **Note:** Batch prediction is not a [Covered Service](/vertex-ai/sla) and is excluded from the Service Level Objective (SLO) of any Service Level Agreement (SLA).\n\nBest practices\n--------------\n\nTo get the most out of batch prediction with Gemini, we recommend the following\nbest practices:\n\n- **Combine jobs:** To maximize throughput, combine smaller jobs into one large job, within system limits. For example, submitting one batch job with 200,000 requests will give you better throughput than 1000 jobs with 200 requests each.\n- **Monitor Job Status:** You can monitor job progress using API, SDK, or UI. For more information, see [monitor the job status](/vertex-ai/generative-ai/docs/multimodal/batch-prediction-from-cloud-storage#monitor). If a job fails, check the error messages to diagnose and troubleshoot the issue.\n- **Optimize for Cost:** Take advantage of the cost savings offered by batch processing for any tasks that don't require an immediate response.\n\nWhat's next\n-----------\n\n- [Create a batch job with Cloud Storage](/vertex-ai/generative-ai/docs/multimodal/batch-prediction-from-cloud-storage)\n- [Create a batch job with BigQuery](/vertex-ai/generative-ai/docs/multimodal/batch-prediction-from-bigquery)\n- Learn how to tune a Gemini model in [Overview of model tuning for Gemini](/vertex-ai/generative-ai/docs/models/tune-gemini-overview)\n- Learn more about the [Batch prediction API](/vertex-ai/generative-ai/docs/model-reference/batch-prediction-api)."]]