Pod에서 분산 처리
대규모 언어 모델은
-
v6e에서 JetStream MaxText 추론
v6e에서 추론을 위해 MaxText와 함께 JetStream을 설정하고 사용하는 방법을 안내하는 가이드
-
v6e에서 JetStream PyTorch 추론
v6e에서 추론을 위해 PyTorch와 함께 JetStream을 설정하고 사용하는 방법을 안내하는 가이드
-
v6e에서 MaxDiffusion 추론
v6e에서 추론을 위해 MaxDiffusion을 설정하고 사용하는 방법을 안내하는 가이드
-
v6e에서 vLLM 추론
v6e에서 추론을 위해 vLLM을 설정하고 사용하는 방법을 안내하는 가이드
-
vLLM을 사용하여 GKE에서 TPU를 사용하는 LLM 제공
vLLM을 사용하여 Google Kubernetes Engine (GKE)에서 Tensor Processing Unit (TPU)을 사용하는 대규모 언어 모델 (LLM)을 제공하는 방법을 안내하는 가이드입니다.