Halaman ini diterjemahkan oleh Cloud Translation API.

Memilih jenis endpoint

Untuk men-deploy model untuk inferensi online, Anda memerlukan endpoint. Endpoint dapat dibagi menjadi jenis berikut:

Endpoint publik dapat diakses melalui internet publik. API ini lebih mudah digunakan karena tidak memerlukan infrastruktur jaringan pribadi. Ada dua jenis endpoint publik: khusus dan bersama. Endpoint publik khusus adalah endpoint yang lebih cepat dan memberikan isolasi produksi, dukungan untuk ukuran payload yang lebih besar, dan waktu tunggu permintaan yang lebih lama daripada endpoint publik bersama. Selain itu, saat Anda mengirim permintaan inferensi ke endpoint publik khusus, permintaan tersebut diisolasi dari traffic pengguna lain. Karena alasan ini, endpoint publik khusus direkomendasikan sebagai praktik terbaik.
Endpoint pribadi khusus menggunakan Private Service Connect menyediakan koneksi yang aman untuk komunikasi pribadi antara lokal dan Google Cloud. Kebijakan ini dapat digunakan untuk mengontrol traffic Google API melalui penggunaan API Private Service Connect. Sebaiknya gunakan opsi ini sebagai praktik terbaik.
Endpoint pribadi juga menyediakan koneksi yang aman ke model Anda dan dapat juga digunakan untuk komunikasi pribadi antara lokal dan Google Cloud. Layanan ini menggunakan akses layanan pribadi melalui koneksi Peering Jaringan VPC.

Untuk mengetahui informasi selengkapnya tentang men-deploy model ke endpoint, lihat Men-deploy model ke endpoint.

Tabel berikut membandingkan jenis endpoint yang didukung untuk menyalurkan inferensi online Vertex AI.

	Endpoint publik khusus (direkomendasikan)	Endpoint publik bersama	Endpoint pribadi khusus menggunakan Private Service Connect (direkomendasikan)	Endpoint pribadi
Tujuan	Pengalaman jaringan default. Memungkinkan pengiriman permintaan dari internet publik.	Pengalaman jaringan default. Memungkinkan pengiriman permintaan dari internet publik.	Direkomendasikan untuk aplikasi perusahaan produksi. Meningkatkan latensi dan keamanan jaringan dengan memastikan permintaan dan respons dirutekan secara pribadi.	Direkomendasikan untuk aplikasi perusahaan produksi. Meningkatkan latensi dan keamanan jaringan dengan memastikan permintaan dan respons dirutekan secara pribadi.
Akses jaringan	Internet publik menggunakan bidang jaringan khusus	Internet publik menggunakan bidang jaringan bersama	Jaringan pribadi menggunakan endpoint Private Service Connect	Jaringan pribadi menggunakan Akses layanan pribadi (Peering Jaringan VPC)
Kontrol Layanan VPC	Tidak didukung. Gunakan endpoint pribadi khusus sebagai gantinya.	Didukung	Didukung	Didukung
Biaya	Inferensi Vertex AI	Inferensi Vertex AI	Inferensi Vertex AI + Endpoint Private Service Connect	Inferensi Vertex AI + Akses layanan pribadi (lihat: "Menggunakan endpoint Private Service Connect (aturan penerusan) untuk mengakses layanan yang dipublikasikan")
Latensi jaringan	Dioptimalkan	Tidak dioptimalkan	Dioptimalkan	Dioptimalkan
Enkripsi saat transit	TLS dengan sertifikat yang ditandatangani CA	TLS dengan sertifikat yang ditandatangani CA	TLS opsional dengan sertifikat yang ditandatangani sendiri	Tidak ada
Waktu tunggu inferensi	Dapat dikonfigurasi hingga 1 jam	60 detik	Dapat dikonfigurasi hingga 1 jam	60 detik
Batas ukuran payload	10 MB	1,5 MB	10 MB	10 MB
Kuota QPM	Tidak terbatas	30.000	Tidak terbatas	Tidak terbatas
Dukungan protokol	HTTP atau gRPC	HTTP	HTTP atau gRPC	HTTP
Dukungan streaming	Ya (SSE)	Tidak	Ya (SSE)	Tidak
Pembagian traffic	Ya	Ya	Ya	Tidak
Logging permintaan dan respons	Ya	Ya	Ya	Tidak
Logging akses	Ya	Ya	Ya	Tidak
Deployment model Gemini yang disesuaikan	Tidak	Ya	Tidak	Tidak
Model AutoML dan kemampuan penjelasan	Tidak	Ya	Tidak	Tidak
Library klien yang didukung	Vertex AI SDK untuk Python	Library klien Vertex AI, Vertex AI SDK untuk Python	Vertex AI SDK untuk Python	Vertex AI SDK untuk Python

Langkah berikutnya

Pelajari lebih lanjut cara men-deploy model ke endpoint.

Memilih jenis endpoint Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Langkah berikutnya

Memilih jenis endpoint