Men-deploy model AI generatif

Halaman ini memberikan panduan untuk men-deploy model AI generatif ke endpoint untuk inferensi online.

Periksa Model Garden

Jika model ada di Model Garden, Anda dapat men-deploy-nya dengan mengklik Deploy (tersedia untuk beberapa model) atau Open Notebook.

Buka Model Garden

Atau, Anda dapat melakukan salah satu hal berikut:

Menayangkan inferensi dengan NVIDIA NIM

NVIDIA Inference Microservices (NIM) adalah model AI terlatih dan dioptimalkan yang dikemas sebagai microservice. API ini dirancang untuk menyederhanakan deployment AI berperforma tinggi dan siap produksi ke dalam aplikasi.

NVIDIA NIM dapat digunakan bersama dengan Artifact Registry dan Vertex AI untuk men-deploy model AI generatif untuk inferensi online.

Setelan untuk container kustom

Bagian ini menjelaskan kolom di containerSpec model yang mungkin perlu Anda tentukan saat mengimpor model AI generatif.

Anda dapat menentukan kolom ini menggunakan Vertex AI REST API atau perintah gcloud ai models upload. Untuk mengetahui informasi selengkapnya, lihat Kolom API terkait container.

sharedMemorySizeMb

Beberapa model AI generatif memerlukan lebih banyak memori bersama. Memori bersama adalah mekanisme komunikasi antarproses (IPC) yang memungkinkan beberapa proses mengakses dan memanipulasi blok memori umum. Ukuran memori bersama default adalah 64 MB.

Beberapa server model, seperti vLLM atau Nvidia Triton, menggunakan memori bersama untuk meng-cache data internal selama inferensi model. Tanpa memori bersama yang cukup, beberapa server model tidak dapat menyajikan inferensi untuk model generatif. Jumlah memori bersama yang diperlukan, jika ada, adalah detail penerapan penampung dan model Anda. Lihat dokumentasi server model Anda untuk mengetahui panduannya.

Selain itu, karena memori bersama dapat digunakan untuk komunikasi lintas GPU, penggunaan lebih banyak memori bersama dapat meningkatkan performa akselerator tanpa kemampuan NVLink (misalnya, L4), jika container model memerlukan komunikasi lintas GPU.

Untuk mengetahui informasi tentang cara menentukan nilai kustom untuk memori bersama, lihat Kolom API terkait container.

startupProbe

Pemeriksaan startup adalah pemeriksaan opsional yang digunakan untuk mendeteksi kapan container telah dimulai. Pemeriksaan ini digunakan untuk menunda pemeriksaan kondisi dan pemeriksaan keaktifan hingga container dimulai, yang membantu mencegah container yang dimulai dengan lambat dimatikan sebelum waktunya.

Untuk mengetahui informasi selengkapnya, lihat Health check.

healthProbe

Pemeriksaan kesehatan memeriksa apakah container siap menerima traffic. Jika pemeriksaan kondisi tidak disediakan, Vertex AI akan menggunakan pemeriksaan kondisi default yang mengeluarkan permintaan HTTP ke port container dan mencari respons 200 OK dari server model.

Jika server model Anda merespons dengan 200 OK sebelum model dimuat sepenuhnya, yang mungkin terjadi, terutama untuk model besar, pemeriksaan kondisi akan berhasil sebelum waktunya dan Vertex AI akan merutekan traffic ke container sebelum siap.

Dalam kasus ini, tentukan pemeriksaan kesehatan kustom yang berhasil hanya setelah model dimuat sepenuhnya dan siap menerima traffic.

Untuk mengetahui informasi selengkapnya, lihat Health check.

Batasan

Pertimbangkan batasan berikut saat men-deploy model AI generatif:

  • Model AI generatif hanya dapat di-deploy ke satu mesin. Deployment multi-host tidak didukung.
  • Untuk model yang sangat besar yang tidak sesuai dengan vRAM terbesar yang didukung, seperti Llama 3.1 405B, sebaiknya lakukan kuantisasi agar sesuai.