GKE 기반 AI/ML 조정 문서

Google Kubernetes Engine(GKE) 플랫폼 조정 기능으로 최적화된 AI/ML 워크로드를 실행하세요. Google Kubernetes Engine(GKE)을 사용하면 관리형 Kubernetes의 모든 이점과 다음 기능을 활용하여 프로덕션에 즉시 사용 가능한 강력한 AI/ML 플랫폼을 구현할 수 있습니다.

  • 규모에 맞게 워크로드를 학습시키고 제공할 수 있도록 GPU 및 TPU를 지원하는 인프라 조정
  • 분산형 계산 및 데이터 처리 프레임워크를 지원하는 유연한 통합
  • 동일한 인프라에서 여러 팀을 지원하여 리소스 활용 극대화
이 페이지에서는 GKE의 AI/ML 기능에 대한 개요를 설명하고 GPU, TPU 및 Hugging Face TGI, vLLM, JetStream과 같은 프레임워크를 사용하여 GKE에서 최적화된 AI/ML 워크로드를 실행하는 방법을 보여줍니다.
  • Gemini 2.0 Flash Thinking 이용
  • AI API 및 BigQuery를 포함하여 인기 제품 월별 무료 사용량
  • 자동 청구, 약정 없음
무료 제품 혜택 보기

20개가 넘는 항상 무료 제품을 계속 살펴보기

AI API, VM, 데이터 웨어하우스 등 일반적인 사용 사례에 20개가 넘는 무료 제품을 사용할 수 있습니다.

문서 리소스

빠른 시작 및 가이드를 찾고 주요 참조를 검토하며 일반적인 문제에 대한 도움을 받을 수 있습니다.
Google Cloud Skills Boost의 사용자 주도형 학습, 사용 사례, 참조 아키텍처, 코드 샘플을 통해 Google Cloud 서비스 사용 및 연결 방법의 예시를 살펴보세요.
training
교육 및 튜토리얼

Hugging Face의 Optimum TPU 서빙 프레임워크와 함께 GKE에서 Tensor Processing Unit(TPU)을 사용하여 LLM을 배포하는 방법을 알아봅니다.

튜토리얼 AI/ML 추론 TPU

training
교육 및 튜토리얼

완전 관리형 Parallelstore 인스턴스로 지원되는 스토리지를 만들고 볼륨으로 액세스하는 방법을 알아봅니다. CSI 드라이버는 작은 파일 크기와 무작위 읽기가 포함된 AI/ML 학습 워크로드에 최적화되어 있습니다.

튜토리얼 AI/ML 데이터 로드

training
교육 및 튜토리얼

Hyperdisk ML을 사용하여 GKE에서 AI/ML 모델 가중치 로드를 간소화하고 가속화하는 방법을 알아봅니다.

튜토리얼 AI/ML 데이터 로드

training
교육 및 튜토리얼

PyTorch를 통해 JetStream을 사용하여 GKE에서 Tensor Processing Unit(TPU)을 사용하여 LLM을 제공하는 방법을 알아봅니다.

튜토리얼 AI/ML 추론 TPU

training
교육 및 튜토리얼

vLLM 및 텍스트 생성 추론(TGI) 서빙 프레임워크를 사용하여 GKE에서 GPU로 LLM 추론 성능을 최적화하기 위한 권장사항을 알아봅니다.

튜토리얼 AI/ML 추론 GPU

training
교육 및 튜토리얼

NVIDIA GPU Operator를 사용해야 하는 경우와 GKE에서 NVIDIA GPU Operator를 사용 설정하는 방법을 알아봅니다.

튜토리얼 GPU

training
교육 및 튜토리얼

GKE 수평형 포드 자동 확장 처리(HPA)를 통해 단일 호스트 JetStream을 사용하여 Gemma LLM을 배포하여 자동 확장 인프라를 설정하는 방법을 알아봅니다.

튜토리얼 TPU

training
교육 및 튜토리얼

GKE에서 GPU를 Hugging Face Transformers 라이브러리와 함께 사용하여 Gemma LLM을 파인 튜닝하는 방법을 알아봅니다.

튜토리얼 AI/ML 추론 GPU

training
교육 및 튜토리얼

TPU, Ray Serve, Ray Operator 부가기능을 사용하여 GKE에서 Stable Diffusion 모델을 배포하고 제공하는 방법을 알아봅니다.

튜토리얼 AI/ML 추론 Ray TPU

training
교육 및 튜토리얼

GKE 수평형 포드 자동 확장 처리(HPA)를 사용하여 Hugging Face 텍스트 생성 인터페이스(TGI) 제공 프레임워크와 함께 Gemma LLM을 배포하여 자동 확장 인프라를 설정하는 방법을 알아봅니다.

튜토리얼 GPU

training
교육 및 튜토리얼

A3 Mega에서 컨테이너 기반 Megatron-LM PyTorch 워크로드를 실행하는 방법을 알아봅니다.

튜토리얼 AI/ML 학습 GPU

training
교육 및 튜토리얼

GKE Autopilot 워크로드에서 하드웨어 가속기(GPU)를 요청하는 방법을 알아봅니다.

튜토리얼 GPU

training
교육 및 튜토리얼

GKE에서 여러 NVIDIA L4 GPU를 사용해서 Llama 2 70B 또는 Falcon 40B를 제공하는 방법을 알아봅니다.

튜토리얼 AI/ML 추론 GPU

training
교육 및 튜토리얼

Ray 클러스터에서 워크로드를 실행하여 GKE에서 Ray를 손쉽게 시작하는 방법을 알아봅니다.

튜토리얼 레이

training
교육 및 튜토리얼

GKE에서 Ray 프레임워크를 사용해서 Falcon 7b, Llama2 7b, Falcon 40b, Llama2 70b를 제공하는 방법을 알아봅니다.

튜토리얼 AI/ML 추론 Ray GPU

training
교육 및 튜토리얼

JobSet 및 Kueue를 사용하여 GKE의 여러 TPU 슬라이스에서 Jax 워크로드를 조정하는 방법을 알아봅니다.

튜토리얼 TPU

training
교육 및 튜토리얼

NVIDIA Data Center GPU Manager(DCGM)를 사용하여 GKE에서 GPU 워크로드를 관찰하는 방법을 알아봅니다.

튜토리얼 AI/ML 관측 가능성 GPU

training
교육 및 튜토리얼

이 빠른 시작에서는 GKE에서 GPU를 사용하여 학습 모델을 배포하고 Cloud Storage에 예측을 저장하는 방법을 보여줍니다.

튜토리얼 AI/ML 학습 GPU

training
교육 및 튜토리얼

이 동영상은 GKE를 사용하여 대규모 AI 모델을 규모에 맞게 학습하는 데 따르는 일반적인 문제를 해결하는 방법과 GKE에서 대규모 머신러닝 모델을 학습시키고 제공하기 위한 권장사항을 보여줍니다.

동영상 AI/ML 학습 AI/ML 추론

training
교육 및 튜토리얼

이 블로그 게시물은 Tensorflow가 지원되는 Jupiter 노트북의 생성, 실행, 분해에 대한 단계별 안내입니다.

블로그 AI/ML 학습 AI ML 추론 GPU

training
교육 및 튜토리얼

이 튜토리얼에서는 Kueue를 사용하여 작업 큐 추가 시스템을 구현하고, 워크로드 리소스를 구성하고, GKE에서 다른 네임스페이스 간 워크로드 리소스 및 할당량 공유를 구성하는 방법을 보여줍니다.

튜토리얼 AI/ML 일괄 처리

training
교육 및 튜토리얼

이 튜토리얼에서는 검색 증강 생성을 기반으로 하는 대규모 언어 모델 애플리케이션을 Cloud Storage 버킷에 업로드하는 PDF 파일과 통합하는 방법을 보여줍니다.

튜토리얼 AI/ML 데이터 로드

training
교육 및 튜토리얼

이 튜토리얼에서는 데이터 저장소 및 처리를 위해 BigQuery를, 요청 처리를 위해 Cloud Run을, 데이터 분석 및 예측을 위해 Gemma LLM을 활용하여 GKE에서 대규모 데이터 세트를 분석하는 방법을 보여줍니다.

튜토리얼 AI/ML 데이터 로드

사용 사례
사용 사례

GKE와 Ray를 활용하여 머신러닝을 위한 대규모 데이터 세트를 효율적으로 사전 처리하는 방법을 알아보세요.

MLOps 학습 Ray

사용 사례
사용 사례

Google Kubernetes Engine에서 머신러닝 애플리케이션의 데이터 로드 시간을 단축하는 방법을 알아보세요.

추론 Hyperdisk ML Cloud Storage FUSE

사용 사례
사용 사례

최대 효율을 위해 GKE의 수평형 포드 자동 확장 처리를 미세 조정하여 GPU 추론 비용을 최적화하는 방법을 알아봅니다.

추론 GPU HPA

사용 사례
사용 사례

GKE에 최신 NVIDIA NIM 마이크로서비스를 쉽게 배포하고 AI 워크로드를 가속화하는 방법을 알아봅니다.

AI NVIDIA NIM

사용 사례
사용 사례

GKE의 Ray 연산자가 AI/ML 프로덕션 배포를 간소화하여 성능과 확장성을 개선하는 방법을 알아보세요.

AI TPU Ray

사용 사례
사용 사례

인프라 결정 및 모델 서버 최적화를 비롯하여 GKE에서 GPU의 대규모 언어 모델 (LLM) 서빙 처리량을 극대화하는 방법을 알아봅니다.

LLM GPU NVIDIA

사용 사례
사용 사례

Vertex AI Agent Builder, Vertex AI Search, GKE를 사용하여 Google Cloud로 검색엔진을 빌드하는 방법을 알아봅니다.

Search Agent Vertex AI

사용 사례
사용 사례

LiveX AI가 GKE를 사용하여 고객 만족도를 높이고 비용을 절감하는 AI 에이전트를 구축하는 방법

GenAI NVIDIA GPU

사용 사례
사용 사례

GKE, Cloud SQL, Ray, Hugging Face, LangChain을 사용하여 검색 증강 생성(RAG)으로 생성형 AI 애플리케이션을 실행하기 위한 참조 아키텍처입니다.

GenAI GenAI GenAI

사용 사례
사용 사례

IPRally가 GKE와 Ray를 사용해 확장 가능하고 효율적인 ML 플랫폼을 빌드하여 더 높은 정확도로 특허 검색을 신속하게 수행하는 방법을 알아봅니다.

AI Ray GPU

사용 사례
사용 사례

Cloud GPU 및 Cloud TPU에서 Gemma를 활용하여 GKE에서 추론 및 학습 효율성을 높입니다.

AI Gemma 성능

사용 사례
사용 사례

업계 최고의 Gemma 개방형 모델을 사용하여 휴대용으로 맞춤설정 가능한 AI 애플리케이션을 빌드하고 GKE에 배포하세요.

AI Gemma 성능

사용 사례
사용 사례

KubeRay 및 Kueue를 사용하여 GKE에서 Ray 애플리케이션을 조정합니다.

Kueue Ray KubeRay

사용 사례
사용 사례

GKE의 Ray를 사용하여 AI/ML 워크로드를 학습하기 위한 보안 통계 및 강화 기술을 적용합니다.

AI Ray 보안

사용 사례
사용 사례

Google Cloud의 AI 및 ML 워크로드를 위한 최적의 스토리지 옵션 조합을 선택하세요.

AI ML 스토리지

사용 사례
사용 사례

GKE에 Nvidia GPU 드라이버를 자동으로 설치합니다.

GPU NVIDIA 설치

사용 사례
사용 사례

GKE 및 NVIDIA NeMo 프레임워크를 사용하여 생성형 AI 모델을 학습시킵니다.

GenAI NVIDIA NeMo

사용 사례
사용 사례

Ray 워크로드에 GKE를 사용하여 확장성, 비용 효율성, 내결함성, 격리, 이동성을 개선합니다.

AI Ray 확장

사용 사례
사용 사례

GKE Autopilot으로 AI/ML 워크로드의 GPU 지원, 성능, 가격 인하 효과를 누리세요.

GPU Autopilot 성능

사용 사례
사용 사례

스타트업이 GKE를 사용하여 맞춤 동영상 출력을 확장합니다.

GPU 확장 컨테이너

사용 사례
사용 사례

Ray가 Spotify의 ML 개발을 혁신하는 방법

ML Ray 컨테이너

사용 사례
사용 사례

생물 의학 연구 및 발견을 위한 선도적인 AI 가속기 중 하나인 Ordaos Bio는 종양학 및 만성 염증 질환의 새로운 면역 치료를 위한 솔루션을 찾고 있습니다.

성능 TPU 비용 최적화

사용 사례
사용 사례

실리콘 밸리 스타트업인 Moloco가 GKE 및 Tensor Flow Enterprise를 활용해 머신러닝(ML) 인프라를 강화한 방법을 소개합니다.

ML 확장 비용 최적화

코드 샘플
코드 샘플

공식 GKE 제품 튜토리얼에 사용된 샘플 애플리케이션을 확인합니다.

코드 샘플
코드 샘플

GKE를 활용하여 AI/ML 이니셔티브를 가속화하기 위한 실험용 샘플을 확인하세요.

관련 동영상