Menjalankan inferensi LLM di GPU Cloud Run dengan vLLM

Codelab berikut menunjukkan cara menjalankan layanan backend yang menjalankan vLLM, yang merupakan mesin inferensi untuk sistem produksi, bersama dengan Gemma 2 Google, yang merupakan model yang disesuaikan dengan petunjuk 2 miliar parameter.

Lihat seluruh codelab di Menjalankan inferensi LLM di GPU Cloud Run dengan vLLM.

Kecuali dinyatakan lain, konten di halaman ini dilisensikan berdasarkan Lisensi Creative Commons Attribution 4.0, sedangkan contoh kode dilisensikan berdasarkan Lisensi Apache 2.0. Untuk mengetahui informasi selengkapnya, lihat Kebijakan Situs Google Developers. Java adalah merek dagang terdaftar dari Oracle dan/atau afiliasinya.

Terakhir diperbarui pada 2025-10-19 UTC.