Halaman ini diterjemahkan oleh Cloud Translation API.

Prediksi batch dengan Gemini

Dapatkan inferensi asinkron, throughput tinggi, dan hemat biaya untuk kebutuhan pemrosesan data skala besar Anda dengan kemampuan prediksi batch Gemini. Panduan ini akan menjelaskan nilai prediksi batch, cara kerjanya, batasannya, dan praktik terbaik untuk hasil yang optimal.

Mengapa menggunakan prediksi batch?

Dalam banyak skenario dunia nyata, Anda tidak memerlukan respons langsung dari model bahasa. Sebagai gantinya, Anda mungkin memiliki set data perintah yang besar yang perlu diproses secara efisien dan terjangkau. Di sinilah keunggulan prediksi batch.

Manfaat utama meliputi:

Efisiensi Biaya: Batch processing ditawarkan dengan tarif diskon 50% dibandingkan dengan inferensi real-time, sehingga ideal untuk tugas berskala besar yang tidak mendesak. Penyimpanan cache implisit diaktifkan secara default untuk Gemini 2.5 Pro, Gemini 2.5 Flash, dan Gemini 2.5 Flash-Lite. Penyimpanan ke cache implisit memberikan diskon 75% untuk token yang di-cache dibandingkan dengan token input standar. Namun, diskon untuk cache dan batch tidak dapat digabungkan. Diskon hit cache 75% lebih diutamakan daripada diskon batch.
Batas frekuensi tinggi: Proses ratusan ribu permintaan dalam satu batch dengan batas frekuensi yang lebih tinggi dibandingkan dengan Gemini API real-time.
Alur Kerja yang Disederhanakan: Daripada mengelola pipeline kompleks dari setiap permintaan real-time, Anda dapat mengirimkan satu tugas batch dan mengambil hasilnya setelah pemrosesan selesai. Layanan ini akan menangani validasi format, memparalelkan permintaan untuk pemrosesan serentak, dan mencoba lagi secara otomatis untuk berupaya mencapai rasio penyelesaian yang tinggi dengan waktu penyelesaian 24 jam.

Prediksi batch dioptimalkan untuk tugas pemrosesan skala besar seperti:

Pembuatan Konten: Buat deskripsi produk, postingan media sosial, atau teks kreatif lainnya secara massal.
Anotasi dan Klasifikasi Data: Mengklasifikasikan ulasan pengguna, mengategorikan dokumen, atau melakukan analisis sentimen pada korpus teks yang besar.
Analisis Offline: Meringkas artikel, mengekstrak informasi penting dari laporan, atau menerjemahkan dokumen dalam skala besar.

Model Gemini yang mendukung prediksi batch

Model Gemini dasar dan yang disesuaikan berikut mendukung prediksi batch:

Kuota dan batas

Meskipun prediksi batch sangat efektif, penting untuk menyadari batasan berikut.

Quota: Tidak ada batas kuota yang telah ditentukan sebelumnya untuk penggunaan Anda. Sebagai gantinya, layanan batch menyediakan akses ke kumpulan besar resource bersama, yang dialokasikan secara dinamis berdasarkan ketersediaan resource dan permintaan real-time di semua pelanggan model tersebut. Jika lebih banyak pelanggan aktif dan kapasitas kami penuh, permintaan batch Anda dapat dimasukkan dalam antrean untuk mendapatkan kapasitas.
Waktu Antrean: Jika layanan kami mengalami traffic tinggi, tugas batch Anda akan mengantre untuk mendapatkan kapasitas. Tugas akan berada dalam antrean hingga 72 jam sebelum berakhir.
Batas Permintaan: Satu tugas batch dapat mencakup hingga 200.000 permintaan. Jika Anda menggunakan Cloud Storage sebagai input, ada juga batas ukuran file sebesar 1 GB.
Waktu Pemrosesan: Tugas batch diproses secara asinkron dan tidak dirancang untuk aplikasi real-time. Sebagian besar tugas selesai dalam waktu 24 jam setelah mulai berjalan (tidak termasuk waktu antrean). Setelah 24 jam, tugas yang belum selesai akan dibatalkan, dan Anda hanya akan ditagih untuk permintaan yang telah selesai.
Fitur yang tidak didukung: Prediksi batch tidak mendukung penge-cache-an eksplisit, RAG, atau endpoint global. Caching implisit prediksi batch tidak didukung di Gemini 2.0 Flash atau Gemini 2.0 Flash-Lite.

Praktik terbaik

Untuk mendapatkan hasil maksimal dari prediksi batch dengan Gemini, sebaiknya ikuti praktik terbaik berikut:

Gabungkan tugas: Untuk memaksimalkan throughput, gabungkan tugas yang lebih kecil menjadi satu tugas besar, dalam batas sistem. Misalnya, mengirimkan satu tugas batch dengan 200.000 permintaan akan memberi Anda throughput yang lebih baik daripada 1.000 tugas dengan masing-masing 200 permintaan.
Memantau Status Tugas: Anda dapat memantau progres tugas menggunakan API, SDK, atau UI. Untuk mengetahui informasi selengkapnya, lihat memantau status tugas. Jika tugas gagal, periksa pesan error untuk mendiagnosis dan memecahkan masalah.
Mengoptimalkan Biaya: Manfaatkan penghematan biaya yang ditawarkan oleh pemrosesan batch untuk tugas apa pun yang tidak memerlukan respons langsung.

Langkah berikutnya

Membuat tugas batch dengan Cloud Storage
Membuat tugas batch dengan BigQuery
Pelajari cara menyesuaikan model Gemini di Ringkasan penyesuaian model untuk Gemini
Pelajari lebih lanjut Batch prediction API.