Caching konteks bertujuan untuk mengurangi biaya dan latensi permintaan ke Gemini yang berisi konten berulang.
Secara default, Google otomatis meng-cache input untuk semua model Gemini guna mengurangi latensi dan mempercepat respons untuk perintah berikutnya.
Untuk model Gemini 2.5 Flash (jumlah token input minimum 1.024) dan Gemini 2.5 Pro (jumlah token input minimum 2.048), token input yang di-cache dikenai biaya dengan diskon 75% dibandingkan dengan token input standar saat cache hit terjadi.
Lihat informasi token hit cache di kolom metadata respons. Untuk menonaktifkannya, lihat AI generatif dan tata kelola data.
Melalui Vertex AI API, Anda dapat membuat cache konteks dan memiliki lebih banyak kontrol atasnya dengan:
- Menggunakan cache konteks dengan mereferensikan isinya dalam permintaan perintah dengan nama resource-nya.
- Memperbarui waktu habis masa berlaku (TTL) context cache di luar 60 menit default.
- Menghapus context cache jika Anda tidak lagi memerlukannya.
Anda juga dapat menggunakan Vertex AI API untuk mendapatkan informasi tentang cache konteks.
Perhatikan bahwa permintaan caching menggunakan Vertex AI API mengenakan biaya token input dengan diskon 75% yang sama dibandingkan dengan token input standar dan memberikan penghematan biaya yang terjamin. Ada juga biaya penyimpanan berdasarkan jangka waktu penyimpanan data.
Kapan harus menggunakan context caching
Context caching sangat cocok untuk skenario saat konteks awal yang besar dirujuk berulang kali oleh permintaan berikutnya.
Item konteks yang di-cache, seperti sejumlah besar teks, file audio, atau file video, dapat digunakan dalam permintaan perintah ke Gemini API untuk menghasilkan output. Permintaan yang menggunakan cache yang sama dalam perintah juga menyertakan teks unik untuk setiap perintah. Misalnya, setiap permintaan perintah yang membentuk percakapan chat dapat menyertakan cache konteks yang sama yang mereferensikan video bersama dengan teks unik yang membentuk setiap giliran dalam percakapan.
Pertimbangkan untuk menggunakan context caching untuk kasus penggunaan seperti:
- Chatbot dengan petunjuk sistem yang ekstensif
- Analisis berulang pada file video panjang
- Kueri berulang terhadap set dokumen besar
- Analisis repositori kode atau perbaikan bug yang sering
Efisiensi biaya melalui penyimpanan dalam cache
Caching konteks adalah fitur berbayar yang dirancang untuk mengurangi biaya operasional secara keseluruhan. Penagihan didasarkan pada faktor-faktor berikut:
- Jumlah token cache: Jumlah token input yang di-cache, ditagih dengan tarif yang lebih rendah jika disertakan dalam perintah berikutnya.
- Durasi penyimpanan: Durasi penyimpanan token yang di-cache, ditagih per jam. Token yang di-cache akan dihapus saat context cache berakhir.
- Faktor lain: Biaya lain berlaku, seperti untuk token input dan token output yang tidak di-cache.
Jumlah token di bagian input yang di-cache dapat ditemukan di kolom metadata respons Anda, di kolom cachedContentTokenCount
.
Dukungan caching konteks untuk Throughput yang Disediakan tersedia dalam Pratinjau untuk caching default. Caching konteks menggunakan Vertex AI API tidak didukung untuk Throughput yang Disediakan. Lihat Panduan throughput yang disediakan untuk mengetahui detail selengkapnya.
Model yang didukung
Model Gemini berikut mendukung penyiapan cache konteks:
- Gemini 2.5 Flash-Lite
Pratinjau - Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
Untuk mengetahui informasi selengkapnya, lihat Versi model stabil Gemini yang tersedia. Perhatikan bahwa penyiapan cache konteks mendukung semua jenis MIME untuk model yang didukung.
Ketersediaan
Caching konteks tersedia di region tempat AI Generatif di Vertex AI tersedia. Untuk mengetahui informasi selengkapnya, lihat Lokasi AI Generatif di Vertex AI.
Dukungan Kontrol Layanan VPC
Penyimpanan dalam cache konteks mendukung Kontrol Layanan VPC, yang berarti cache Anda tidak dapat diekstraksi di luar perimeter layanan Anda. Jika Anda menggunakan Cloud Storage untuk membangun cache, sertakan bucket Anda dalam perimeter layanan juga untuk melindungi konten cache Anda.
Untuk mengetahui informasi selengkapnya, lihat Kontrol Layanan VPC dengan Vertex AI dalam dokumentasi Vertex AI.
Langkah berikutnya
- Pelajari Gemini API.
- Pelajari cara menggunakan perintah multimodal.