大規模言語モデル
-
v6e での JetStream MaxText 推論
v6e での推論用に MaxText で JetStream を設定して使用するためのガイド。
-
v6e での JetStream PyTorch 推論
v6e での推論用に PyTorch で JetStream を設定して使用するためのガイド。
-
v6e での vLLM 推論
v6e での推論用に vLLM を設定して使用するためのガイド。
-
GKE で vLLM を実行して TPU を使用して LLM をサービングする
vLLM を使用して Google Kubernetes Engine(GKE)で Tensor Processing Unit(TPU)を使用して大規模言語モデル(LLM)をサービングするためのガイド。