Halaman ini diterjemahkan oleh Cloud Translation API.

Ringkasan penyimpanan cache konteks

Caching konteks membantu mengurangi biaya dan latensi permintaan ke Gemini yang berisi konten berulang. Vertex AI menawarkan dua jenis caching:

Caching implisit: Caching otomatis diaktifkan secara default yang memberikan penghematan biaya saat cache diakses.
Penyimpanan dalam cache eksplisit: Penyimpanan dalam cache manual diaktifkan menggunakan Vertex AI API, dengan Anda secara eksplisit mendeklarasikan konten yang ingin Anda simpan dalam cache dan apakah perintah Anda harus merujuk ke konten cache atau tidak.

Untuk caching implisit dan eksplisit, kolom cachedContentTokenCount dalam metadata respons Anda menunjukkan jumlah token di bagian input yang di-cache. Permintaan penyiapan cache harus berisi minimal 2.048 token.

Model yang didukung

Caching implisit dan eksplisit didukung saat menggunakan model berikut:

Untuk caching implisit dan eksplisit, tidak ada biaya tambahan untuk menulis ke cache selain biaya token input standar. Untuk penyimpanan eksplisit, ada biaya penyimpanan berdasarkan durasi penyimpanan cache. Tidak ada biaya penyimpanan untuk caching implisit. Untuk mengetahui informasi selengkapnya, lihat Harga Vertex AI.

Caching implisit

Semua Google Cloud project mengaktifkan caching implisit secara default. Caching implisit memberikan diskon 75% untuk token yang di-cache dibandingkan dengan token input standar.

Jika diaktifkan, penghematan biaya hit cache implisit akan otomatis diteruskan kepada Anda. Untuk meningkatkan peluang hit cache implisit:

Tempatkan konten yang besar dan umum di awal perintah Anda.
Mengirim permintaan dengan awalan yang serupa dalam waktu singkat.

Caching eksplisit

Penyimpanan dalam cache eksplisit menawarkan kontrol yang lebih besar dan memastikan diskon 75% saat cache eksplisit dirujuk.

Dengan menggunakan Vertex AI API, Anda dapat:

Buat context cache dan kontrol secara lebih efektif.
Gunakan cache konteks dengan mereferensikan kontennya dalam permintaan perintah dengan nama resource-nya.
Perbarui waktu habis masa berlaku context cache (Time to Live, atau TTL) setelah 60 menit default.
Hapus context cache jika tidak diperlukan lagi.

Anda juga dapat menggunakan Vertex AI API untuk mengambil informasi tentang cache konteks.

Cache eksplisit berinteraksi dengan caching implisit, yang berpotensi menyebabkan caching tambahan di luar konten yang ditentukan saat membuat cache. Untuk mencegah retensi data cache, nonaktifkan penyimpanan cache implisit dan hindari pembuatan cache eksplisit. Untuk mengetahui informasi selengkapnya, lihat Mengaktifkan dan menonaktifkan penyimpanan ke dalam cache.

Kapan harus menggunakan context caching

Context caching sangat cocok untuk skenario saat konteks awal yang besar dirujuk berulang kali oleh permintaan berikutnya.

Item konteks yang di-cache, seperti sejumlah besar teks, file audio, atau file video, dapat digunakan dalam permintaan perintah ke Gemini API untuk menghasilkan output. Permintaan yang menggunakan cache yang sama dalam perintah juga menyertakan teks yang unik untuk setiap perintah. Misalnya, setiap permintaan perintah yang membentuk percakapan chat dapat mencakup cache konteks yang sama yang mereferensikan video bersama dengan teks unik yang membentuk setiap giliran dalam percakapan chat.

Pertimbangkan untuk menggunakan context caching untuk kasus penggunaan seperti:

Chatbot dengan petunjuk sistem yang ekstensif
Analisis berulang pada file video panjang
Kueri berulang terhadap set dokumen besar
Analisis repositori kode atau perbaikan bug yang sering

Dukungan caching konteks untuk Throughput yang Disediakan tersedia dalam Pratinjau untuk caching implisit. Caching eksplisit tidak didukung untuk Throughput yang Disediakan. Lihat Panduan Throughput yang Disediakan untuk mengetahui detail selengkapnya.

Ketersediaan

Caching konteks tersedia di region tempat AI Generatif di Vertex AI tersedia. Untuk mengetahui informasi selengkapnya, lihat Lokasi AI Generatif di Vertex AI.

Batas

Konten yang Anda cache secara eksplisit harus mematuhi batas yang ditampilkan dalam tabel berikut:

Batas context caching
Jumlah token cache minimum	`2,048` untuk semua model
Ukuran maksimum konten yang dapat Anda simpan dalam cache menggunakan blob atau teks	10 MB
Waktu minimum sebelum cache berakhir setelah dibuat	1 menit
Waktu maksimum sebelum cache berakhir setelah dibuat	Tidak ada durasi cache maksimum

Dukungan Kontrol Layanan VPC

Penyimpanan dalam cache konteks mendukung Kontrol Layanan VPC, yang berarti cache Anda tidak dapat diekstraksi di luar perimeter layanan Anda. Jika Anda menggunakan Cloud Storage untuk membangun cache, sertakan bucket Anda dalam perimeter layanan juga untuk melindungi konten cache Anda.

Untuk mengetahui informasi selengkapnya, lihat Kontrol Layanan VPC dengan Vertex AI dalam dokumentasi Vertex AI.

Langkah berikutnya

Pelajari Gemini API.
Pelajari cara menggunakan perintah multimodal.