Menjalankan inferensi LLM di GPU Cloud Run dengan Hugging Face TGI

Contoh berikut menunjukkan cara menjalankan layanan backend yang menjalankan toolkit Hugging Face Text Generation Inference (TGI), yang merupakan toolkit untuk men-deploy dan menayangkan Large Language Model (LLM), menggunakan Llama 3.

Lihat seluruh contoh di Men-deploy Llama 3.1 8B dengan DLC TGI di Cloud Run.

Kecuali dinyatakan lain, konten di halaman ini dilisensikan berdasarkan Lisensi Creative Commons Attribution 4.0, sedangkan contoh kode dilisensikan berdasarkan Lisensi Apache 2.0. Untuk mengetahui informasi selengkapnya, lihat Kebijakan Situs Google Developers. Java adalah merek dagang terdaftar dari Oracle dan/atau afiliasinya.

Terakhir diperbarui pada 2025-10-19 UTC.