Mulai 29 April 2025, model Gemini 1.5 Pro dan Gemini 1.5 Flash tidak tersedia di project yang belum pernah menggunakan model ini, termasuk project baru. Untuk mengetahui detailnya, lihat Versi dan siklus proses model.
Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Dapatkan inferensi asinkron, ber-throughput tinggi, dan hemat biaya untuk kebutuhan pemrosesan data skala besar Anda dengan kemampuan prediksi batch Gemini.
Panduan ini akan menjelaskan nilai prediksi batch, cara kerjanya, batasannya, dan praktik terbaik untuk hasil yang optimal.
Mengapa menggunakan prediksi batch?
Dalam banyak skenario dunia nyata, Anda tidak memerlukan respons langsung dari model bahasa. Sebagai gantinya, Anda mungkin memiliki set data perintah yang besar yang perlu diproses secara efisien dan terjangkau. Di sinilah keunggulan prediksi batch.
Manfaat utama meliputi:
Efisiensi Biaya: Batch processing ditawarkan dengan tarif diskon 50% dibandingkan dengan inferensi real-time, sehingga ideal untuk tugas berskala besar yang tidak mendesak.
Batas frekuensi tinggi: Proses ratusan ribu permintaan dalam satu batch dengan batas frekuensi yang lebih tinggi dibandingkan dengan Gemini API real-time.
Alur Kerja yang Disederhanakan: Daripada mengelola pipeline kompleks dari setiap permintaan real-time, Anda dapat mengirimkan satu tugas batch dan mengambil hasilnya setelah pemrosesan selesai. Layanan ini akan menangani validasi format, memparalelkan permintaan untuk pemrosesan serentak, dan mencoba lagi secara otomatis untuk berupaya mencapai rasio penyelesaian yang tinggi dengan waktu penyelesaian 24 jam.
Prediksi batch dioptimalkan untuk tugas pemrosesan skala besar seperti:
Pembuatan Konten: Buat deskripsi produk, postingan media sosial, atau
teks kreatif lainnya secara massal.
Anotasi dan Klasifikasi Data: Mengklasifikasikan ulasan pengguna, mengategorikan dokumen, atau melakukan analisis sentimen pada korpus teks yang besar.
Analisis Offline: Meringkas artikel, mengekstrak informasi penting dari laporan, atau menerjemahkan dokumen dalam skala besar.
Model Gemini yang mendukung prediksi batch
Model Gemini dasar dan yang disesuaikan berikut mendukung prediksi batch:
Meskipun prediksi batch sangat efektif, penting untuk mengetahui batasan berikut.
Kuota: Tidak ada batas kuota yang telah ditentukan sebelumnya untuk penggunaan Anda. Sebagai gantinya, layanan batch menyediakan akses ke kumpulan besar resource bersama, yang dialokasikan secara dinamis berdasarkan ketersediaan resource dan permintaan real-time di semua pelanggan model tersebut. Jika lebih banyak pelanggan aktif dan
kapasitas kami sudah penuh, permintaan batch Anda mungkin dimasukkan dalam antrean untuk mendapatkan kapasitas.
Waktu Antrean: Jika layanan kami mengalami traffic tinggi, tugas batch Anda akan
mengantre untuk mendapatkan kapasitas. Tugas akan berada dalam antrean hingga 72 jam sebelum berakhir.
Batas Permintaan: Satu batch job dapat mencakup hingga 200.000 permintaan. Jika
Anda menggunakan Cloud Storage sebagai input, ada juga batas ukuran file sebesar 1 GB.
Waktu Pemrosesan: Tugas batch diproses secara asinkron dan tidak dirancang untuk aplikasi real-time. Sebagian besar tugas selesai dalam waktu 24 jam setelah mulai berjalan (tidak termasuk waktu antrean). Setelah 24 jam, tugas yang belum selesai akan dibatalkan, dan Anda hanya akan ditagih untuk permintaan yang telah selesai.
Untuk mendapatkan hasil maksimal dari prediksi batch dengan Gemini, sebaiknya ikuti praktik terbaik berikut:
Gabungkan tugas: Untuk memaksimalkan throughput, gabungkan tugas yang lebih kecil menjadi satu tugas besar, dalam batas sistem. Misalnya, mengirimkan satu tugas batch dengan 200.000 permintaan akan memberikan throughput yang lebih baik daripada 1.000 tugas dengan masing-masing 200 permintaan.
Memantau Status Tugas: Anda dapat memantau progres tugas menggunakan API, SDK, atau UI.
Untuk mengetahui informasi selengkapnya, lihat memantau status tugas. Jika tugas gagal, periksa pesan error untuk mendiagnosis dan memecahkan masalah.
Mengoptimalkan Biaya: Manfaatkan penghematan biaya yang ditawarkan oleh pemrosesan batch untuk tugas apa pun yang tidak memerlukan respons langsung.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Sulit dipahami","hardToUnderstand","thumb-down"],["Informasi atau kode contoh salah","incorrectInformationOrSampleCode","thumb-down"],["Informasi/contoh yang saya butuhkan tidak ada","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-08-25 UTC."],[],[],null,["# Batch prediction with Gemini\n\n| To see an example of using batch predictions,\n| run the \"Intro to Batch Predictions with the Gemini API\" notebook in one of the following\n| environments:\n|\n| [Open in Colab](https://colab.research.google.com/github/GoogleCloudPlatform/generative-ai/blob/main/gemini/batch-prediction/intro_batch_prediction.ipynb)\n|\n|\n| \\|\n|\n| [Open in Colab Enterprise](https://console.cloud.google.com/vertex-ai/colab/import/https%3A%2F%2Fraw.githubusercontent.com%2FGoogleCloudPlatform%2Fgenerative-ai%2Fmain%2Fgemini%2Fbatch-prediction%2Fintro_batch_prediction.ipynb)\n|\n|\n| \\|\n|\n| [Open\n| in Vertex AI Workbench](https://console.cloud.google.com/vertex-ai/workbench/deploy-notebook?download_url=https%3A%2F%2Fraw.githubusercontent.com%2FGoogleCloudPlatform%2Fgenerative-ai%2Fmain%2Fgemini%2Fbatch-prediction%2Fintro_batch_prediction.ipynb)\n|\n|\n| \\|\n|\n| [View on GitHub](https://github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/batch-prediction/intro_batch_prediction.ipynb)\n\nGet asynchronous, high-throughput, and cost-effective inference for your\nlarge-scale data processing needs with Gemini's batch prediction capabilities.\nThis guide will walk you through the value of batch prediction, how it works,\nits limitations, and best practices for optimal results.\n\nWhy use batch prediction?\n-------------------------\n\nIn many real-world scenarios, you don't need an immediate response from a\nlanguage model. Instead, you might have a large dataset of prompts that you need\nto process efficiently and affordably. This is where batch prediction shines.\n\n**Key benefits include:**\n\n- **Cost-Effectiveness:** Batch processing is offered at a 50% discounted rate compared to real-time inference, making it ideal for large-scale, non-urgent tasks.\n- **High rate limits:** Process hundreds of thousands of requests in a single batch with a higher rate limit compared to the real time Gemini API.\n- **Simplified Workflow:** Instead of managing a complex pipeline of individual real-time requests, you can submit a single batch job and retrieve the results once the processing is complete. The service will handle format validation, parallelize requests for concurrent processing, and automatically retry to strive for a high completion rate with **24 hours** turnaround time.\n\nBatch prediction is optimized for **large-scale processing tasks** like:\n\n- **Content Generation:** Generate product descriptions, social media posts, or other creative text in bulk.\n- **Data Annotation and Classification:** Classify user reviews, categorize documents, or perform sentiment analysis on a large corpus of text.\n- **Offline Analysis:** Summarize articles, extract key information from reports, or translate documents at scale.\n\nGemini models that support batch predictions\n--------------------------------------------\n\nThe following base and tuned Gemini models support batch predictions:\n\n- [Gemini 2.5\n Pro](/vertex-ai/generative-ai/docs/models/gemini/2-5-pro)\n- [Gemini 2.5\n Flash](/vertex-ai/generative-ai/docs/models/gemini/2-5-flash)\n- [Gemini 2.5\n Flash-Lite](/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-lite)\n- [Gemini 2.0\n Flash](/vertex-ai/generative-ai/docs/models/gemini/2-0-flash)\n- [Gemini 2.0\n Flash-Lite](/vertex-ai/generative-ai/docs/models/gemini/2-0-flash-lite)\n\nQuotas and limits\n-----------------\n\nWhile batch prediction is powerful, it's important to be aware of the following\nlimitations.\n\n- **Quota**: There are no predefined quota limits on your usage. Instead, batch service provides access to a large, shared pool of resources, dynamically allocated based on availability of resources and real-time demand across all customers of that model. When more customers are active and saturated our capacity, your batch requests may be queued for capacity.\n- **Queue Time**: When our service experiences high traffic, your batch job will queue for capacity. The job will be in queue for up to 72 hours before it expires.\n- **Request Limits**: A single batch job may include up to 200,000 requests. If you are using Cloud Storage as input, there is also a file size limit of 1GB.\n- **Processing Time**: Batch jobs are processed asynchronously and are not designed for real-time applications. Most jobs complete within 24 hours after it starts running (not counting the queue time). After 24 hours, incomplete jobs will be cancelled, and you will only be charged for completed requests.\n- **Unsupported features** : Batch prediction does not support [Context Caching](/vertex-ai/generative-ai/docs/context-cache/context-cache-overview), [RAG](/vertex-ai/generative-ai/docs/rag-engine/rag-overview), or [Global endpoints](/vertex-ai/generative-ai/docs/learn/locations#global-endpoint).\n\n| **Note:** Batch prediction is not a [Covered Service](/vertex-ai/sla) and is excluded from the Service Level Objective (SLO) of any Service Level Agreement (SLA).\n\nBest practices\n--------------\n\nTo get the most out of batch prediction with Gemini, we recommend the following\nbest practices:\n\n- **Combine jobs:** To maximize throughput, combine smaller jobs into one large job, within system limits. For example, submitting one batch job with 200,000 requests will give you better throughput than 1000 jobs with 200 requests each.\n- **Monitor Job Status:** You can monitor job progress using API, SDK, or UI. For more information, see [monitor the job status](/vertex-ai/generative-ai/docs/multimodal/batch-prediction-from-cloud-storage#monitor). If a job fails, check the error messages to diagnose and troubleshoot the issue.\n- **Optimize for Cost:** Take advantage of the cost savings offered by batch processing for any tasks that don't require an immediate response.\n\nWhat's next\n-----------\n\n- [Create a batch job with Cloud Storage](/vertex-ai/generative-ai/docs/multimodal/batch-prediction-from-cloud-storage)\n- [Create a batch job with BigQuery](/vertex-ai/generative-ai/docs/multimodal/batch-prediction-from-bigquery)\n- Learn how to tune a Gemini model in [Overview of model tuning for Gemini](/vertex-ai/generative-ai/docs/models/tune-gemini-overview)\n- Learn more about the [Batch prediction API](/vertex-ai/generative-ai/docs/model-reference/batch-prediction-api)."]]