Get started with AI model inference using GKE Gen AI capabilities!

이 페이지는 Cloud Translation API를 통해 번역되었습니다.

GKE 기반 AI/ML 조정 문서

Google Kubernetes Engine (GKE)은 전체 AI/ML 수명 주기를 오케스트레이션할 수 있는 단일 통합 플랫폼을 제공합니다. 학습, 추론, 에이전트 워크로드를 강화할 수 있는 강력한 기능과 유연성을 제공하므로 인프라를 간소화하고 결과를 제공할 수 있습니다. GKE의 최첨단 조정 기능은 다음을 제공합니다.

하드웨어 가속기: 학습과 추론 모두를 위해 필요한 강력한 GPU와 TPU에 액세스하고 이를 대규모로 관리합니다.
스택 유연성: 이미 알고 신뢰하는 분산 컴퓨팅, 데이터 처리, 모델 서빙 프레임워크와 통합합니다.
관리형 Kubernetes의 간편함: 관리형 플랫폼의 모든 이점을 활용하여 유연성을 유지하면서 전체 AI/ML 수명 주기를 자동화하고 확장하고 보안을 강화할 수 있습니다.

블로그, 튜토리얼, 권장사항을 살펴보고 GKE로 AI/ML 워크로드를 최적화하는 방법을 알아보세요. 이점 및 사용 가능한 기능에 대한 자세한 내용은 GKE의 AI/ML 워크로드 소개 개요를 참고하세요.

무료로 시작하기

무료 크레딧 $300로 개념 증명 시작

Gemini 2.0 Flash Thinking 이용
AI API 및 BigQuery를 포함하여 인기 제품 월별 무료 사용량
자동 청구, 약정 없음

무료 제품 혜택 보기

20개가 넘는 항상 무료 제품을 계속 살펴보기

AI API, VM, 데이터 웨어하우스 등 일반적인 사용 사례에 20개가 넘는 무료 제품을 사용할 수 있습니다.

문서 리소스

빠른 시작 및 가이드를 찾고 주요 참조를 검토하며 일반적인 문제에 대한 도움을 받을 수 있습니다.

Get started with AI model inference using GKE Gen AI capabilities!

GKE 기반 AI/ML 조정 문서

무료 크레딧 $300로 개념 증명 시작

20개가 넘는 항상 무료 제품을 계속 살펴보기

AI 인프라 및 가속기 관리

규모에 맞게 AI 모델 학습

추론을 위한 AI 모델 서빙

에이전트 개발 키트 (ADK) 및 자체 호스팅 LLM을 사용하여 GKE에 에이전트 AI 애플리케이션 배포

에이전트 개발 키트(ADK) 및 Vertex AI를 사용하여 GKE에 에이전트 AI 애플리케이션 배포

Optimum TPU와 함께 TPU를 GKE에서 사용하여 오픈소스 모델 제공

GKE에서 Parallelstore 인스턴스로 지원되는 볼륨 만들기 및 사용

비용 최적화 및 고가용성 GPU 프로비저닝 전략으로 GKE에서 LLM 서빙

TPU에서 KubeRay로 대규모 언어 모델 제공

Hyperdisk ML을 사용하여 AI/ML 데이터 로드 가속화

JetStream 및 PyTorch를 사용하여 GKE에서 TPU를 사용하는 LLM 제공

GKE에서 GPU를 사용하여 LLM 추론을 최적화하기 위한 권장사항

GKE에서 NVIDIA GPU Operator로 GPU 스택 관리

TPU에서 LLM 워크로드 자동 확장 구성

GKE에서 여러 GPU를 사용하여 Gemma 개방형 모델 파인 튜닝

TPU가 있는 GKE에 Stable Diffusion 모델이 있는 Ray Serve 애플리케이션 배포

GKE에서 GPU의 LLM 워크로드 자동 확장 구성

A3 Mega 가상 머신에서 Megatron-LM으로 Llama2 학습

Autopilot에서 GPU 워크로드 배포

GKE에서 여러 GPU로 LLM 서빙

GKE에서 Ray 시작하기

Ray를 사용하여 L4 GPU에 LLM 제공

JobSet 및 Kueue를 사용하여 TPU 멀티슬라이스 워크로드 조정

NVIDIA Data Center GPU Manager(DCGM)를 사용하여 GKE에서 GPU 워크로드 모니터링

빠른 시작: GKE Standard 클러스터에서 GPU를 사용하여 모델 학습

GKE에서 대규모 머신러닝 실행

GKE Autopilot의 TensorFlow와 GPU 가속

GKE에서 네임스페이스 간 할당량 공유로 작업 큐 추가 구현

GKE 및 Cloud Storage로 RAG 챗봇 빌드

BigQuery, Cloud Run, Gemma를 사용하여 GKE에서 데이터 분석

GKE 및 Ray를 사용한 분산 데이터 사전 처리: 엔터프라이즈를 위한 확장

GKE에서 AI/ML 추론을 위한 데이터 로드 권장사항

GPU 비용 절감: GKE 추론 워크로드의 더 스마트한 자동 확장

GKE 기반 NVIDIA NIM 마이크로서비스를 사용하여 최적화된 AI 모델을 효율적으로 제공

GKE의 새로운 Ray 연산자로 프로덕션 환경에서 Ray 가속화

GKE의 GPU를 위한 LLM 서빙 처리량 극대화하기: 실용적인 가이드

GKE에서 일괄 워크로드 실행을 위한 권장사항

GKE에서 로컬 SSD 지원을 통한 고성능 AI/ML 스토리지

NVIDIA GPU와 함께 Kubernetes에서 JAX를 사용한 머신러닝

간편한 검색엔진: GKE 및 Vertex AI Agent Builder를 사용한 로우 코드 접근 방식

LiveX AI는 GKE 및 NVIDIA AI에서 학습되고 제공되는 AI 에이전트를 통해 고객 지원 비용을 절감합니다.

GKE 및 Cloud SQL을 사용하는 RAG 지원 생성형 AI 애플리케이션을 위한 인프라

GKE의 일괄 처리 플랫폼에 대한 참조 아키텍처

특허 검색의 혁신: IPRally가 GKE 및 Ray로 AI를 활용하는 방법

Google Cloud에서 Gemma의 성능 심층 분석

GKE 기반 Gemma 심층 분석: 개방형 생성형 AI 모델을 제공하기 위한 새로운 혁신

Ray 및 Kueue를 사용한 AI/ML 고급 예약

Google Kubernetes Engine에서 Ray를 보호하는 방법

Google Cloud의 AI 및 ML 워크로드를 위한 스토리지 설계

자동 드라이버 설치로 GKE에서 NVIDIA GPU 사용 간소화

GKEE 기반 NVIDIA NeMo 프레임워크로 생성형 AI 여정 가속화

Ray AI 워크로드에 GKE를 사용하는 이유

Google Kubernetes Engine에서 가중치와 편향을 사용하여 MLOps 간소화

이제 새로운 컴퓨팅 옵션, 가격 책정, 리소스 예약 기능으로 완전 관리형 GKE에서 AI 실행

GKE를 사용하여 SEEN이 출력을 89배로 확장하고 GPU 비용을 66% 절감한 방법

Spotify가 Ray 및 GKE로 ML 혁신을 실현하는 방법

Ordaōs Bio가 GKE에서 생성형 AI를 활용하는 방법

ML을 기반으로 성장하는 스타트업의 GKE

GKE에서 Stable Diffusion 출시 시간을 4배 단축

Google Kubernetes Engine (GKE)샘플

GKE AI Labs 샘플

GKE 가속화된 플랫폼

관련 동영상