Halaman ini diterjemahkan oleh Cloud Translation API.

Mendapatkan inferensi dari model terlatih kustom

Inferensi adalah output dari model machine learning yang telah dilatih. Halaman ini menyediakan ringkasan alur kerja untuk mendapatkan inferensi dari model Anda di Vertex AI.

Vertex AI menawarkan dua metode untuk mendapatkan inferensi:

Inferensi online adalah permintaan sinkron yang dibuat ke model yang di-deploy ke Endpoint. Oleh karena itu, sebelum mengirim permintaan, Anda harus men-deploy resource Model ke endpoint terlebih dahulu. Hal ini mengaitkan resource komputasi dengan model sehingga model dapat menyalurkan inferensi online dengan latensi rendah. Gunakan inferensi online saat Anda membuat permintaan sebagai respons terhadap input aplikasi atau dalam situasi yang memerlukan inferensi tepat waktu.
Inferensi batch adalah permintaan asinkron yang dibuat ke model yang tidak di-deploy ke endpoint. Anda mengirim permintaan (sebagai resource BatchPredictionJob) langsung ke resource Model. Gunakan inferensi batch jika Anda tidak memerlukan respons langsung dan ingin memproses data yang terakumulasi menggunakan satu permintaan.

Menguji model Anda secara lokal

Sebelum mendapatkan inferensi, sebaiknya deploy model Anda ke endpoint lokal selama fase pengembangan dan pengujian. Hal ini memungkinkan Anda melakukan iterasi dengan lebih cepat dan menguji model tanpa men-deploy-nya ke endpoint online atau menimbulkan biaya inferensi. Deployment lokal ditujukan untuk pengembangan dan pengujian lokal, bukan untuk deployment produksi.

Untuk men-deploy model secara lokal, gunakan SDK Vertex AI untuk Python dan deploy LocalModel ke LocalEndpoint. Untuk demonstrasi, lihat notebook ini.

Meskipun klien Anda tidak ditulis dalam Python, Anda masih dapat menggunakan SDK Vertex AI untuk Python guna meluncurkan container dan server sehingga Anda dapat menguji permintaan dari klien.