Inferensi Cloud TPU
Penayangan mengacu pada proses deployment model machine learning terlatih ke lingkungan produksi, yang dapat digunakan untuk inferensi. Inferensi didukung pada TPU v5e dan versi yang lebih baru. SLO Latensi merupakan prioritas untuk inferensi.
Dokumen ini membahas cara menyajikan model pada TPU host tunggal. Slice TPU dengan 8 chip atau kurang memiliki satu VM atau host TPU dan disebut TPU host tunggal.
Mulai
Anda memerlukan Google Cloud akun dan project untuk menggunakan Cloud TPU. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan lingkungan Cloud TPU.
Anda perlu meminta kuota berikut untuk menayangkan iklan di TPU:
- Resource v5e on-demand:
TPUv5 lite pod cores for serving per project per zone
- Resource v5e yang dapat dihentikan:
Preemptible TPU v5 lite pod cores for serving per project per zone
- Resource v6e on-demand:
TPUv6 cores per project per zone
- Resource v6e yang dapat dihentikan:
Preemptible TPUv6 cores per project per zone
Untuk mengetahui informasi selengkapnya tentang kuota TPU, lihat kuota TPU.
Menyajikan LLM menggunakan JetStream
JetStream adalah mesin yang dioptimalkan untuk memori dan throughput untuk inferensi model bahasa besar (LLM) pada perangkat XLA (TPU). Anda dapat menggunakan JetStream dengan model JAX dan PyTorch/XLA. Untuk contoh penggunaan JetStream guna menayangkan JAX LLM, lihat Inferensi JetStream MaxText pada TPU v6e.
Melayani model LLM dengan vLLM
vLLM adalah library open source yang dirancang untuk inferensi dan penyajian model bahasa besar (LLM) dengan cepat. Anda dapat menggunakan vLLM dengan PyTorch/XLA. Untuk contoh penggunaan vLLM guna menyalurkan LLM PyTorch, lihat Melayani LLM menggunakan TPU Trillium di GKE dengan vLLM.
Pembuatan profil
Setelah menyiapkan inferensi, Anda dapat menggunakan profiler untuk menganalisis performa dan penggunaan TPU. Untuk mengetahui informasi selengkapnya tentang pembuatan profil, lihat: