Mulai 29 April 2025, model Gemini 1.5 Pro dan Gemini 1.5 Flash tidak tersedia di project yang belum pernah menggunakan model ini, termasuk project baru. Untuk mengetahui detailnya, lihat Versi dan siklus proses model.

Halaman ini diterjemahkan oleh Cloud Translation API.

Penyimpanan dalam cache prompt

Model Anthropic Claude menawarkan penyimpanan sementara perintah untuk mengurangi latensi dan biaya saat menggunakan kembali konten yang sama dalam beberapa permintaan. Saat mengirim kueri, Anda dapat meng-cache semua atau bagian tertentu dari input sehingga kueri berikutnya dapat menggunakan hasil yang di-cache dari permintaan sebelumnya. Hal ini menghindari biaya komputasi dan jaringan tambahan. Cache unik untuk project Google Cloud Anda dan tidak dapat digunakan oleh project lain.

Untuk mengetahui detail tentang cara menyusun perintah, lihat dokumentasi Penyimpanan dalam cache perintah Anthropic.

Model Anthropic Claude yang didukung

Vertex AI mendukung penayangan cepat perintah untuk model Anthropic Claude berikut:

Pemrosesan data

Penyimpanan cache perintah eksplisit Anthropic adalah fitur model Anthropic Claude. Penawaran Vertex AI untuk model Anthropic ini berperilaku seperti yang dijelaskan dalam dokumentasi Anthropic.

Penyimpanan cache perintah adalah fitur opsional. Claude menghitung hash (sidik jari) permintaan untuk kunci penayangan cache. Hash ini hanya dihitung untuk permintaan yang mengaktifkan caching.

Meskipun penayangan cepat perintah adalah fitur yang diterapkan oleh model Claude, dari perspektif penanganan data, Google menganggap hash ini sebagai jenis "Metadata Pengguna". Data tersebut diperlakukan sebagai "Data Layanan" pelanggan berdasarkan Google Cloud Pemberitahuan Privasi dan bukan sebagai "Data Pelanggan" berdasarkan Adendum Pemrosesan Data Cloud (Pelanggan). Khususnya, perlindungan tambahan untuk "Data Pelanggan" tidak berlaku untuk hash ini. Google tidak menggunakan hash ini untuk tujuan lain.

Jika Anda ingin menonaktifkan sepenuhnya fitur caching perintah ini dan membuatnya tidak tersedia di project tertentu, Anda dapat memintanya dengan menghubungi dukungan pelanggan dan memberikan nomor project yang relevan. Google Cloud Setelah penayangan cache eksplisit dinonaktifkan untuk project, permintaan dari project dengan penayangan cache cepat diaktifkan akan ditolak.

Menggunakan cache perintah

Anda dapat menggunakan Anthropic Claude SDK atau Vertex AI REST API untuk mengirim permintaan ke endpoint Vertex AI.

Untuk mengetahui informasi selengkapnya, lihat Cara kerja caching perintah.

Untuk contoh tambahan, lihat Contoh penyimpanan dalam cache perintah di dokumentasi Anthropic.

Caching terjadi secara otomatis saat permintaan berikutnya berisi teks, gambar, dan parameter cache_control yang identik dengan permintaan pertama. Semua permintaan juga harus menyertakan parameter cache_control dalam blok yang sama.

Cache memiliki masa aktif lima menit. Data ini diperbarui setiap kali konten yang di-cache diakses.

Harga

Penyimpanan dalam cache perintah dapat memengaruhi biaya penagihan. Perhatikan bahwa:

Token penulisan cache 25% lebih mahal daripada token input dasar
Token baca cache 90% lebih murah daripada token input dasar
Token input dan output reguler dikenai harga dengan tarif standar

Untuk mengetahui informasi selengkapnya, lihat halaman Harga.

Penyimpanan dalam cache prompt Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Model Anthropic Claude yang didukung

Pemrosesan data

Menggunakan cache perintah

Harga

Penyimpanan dalam cache prompt