GKE 기반 AI/ML 조정 문서
Google Kubernetes Engine(GKE) 플랫폼 조정 기능으로 최적화된 AI/ML 워크로드를 실행하세요. Google Kubernetes Engine(GKE)을 사용하면 관리형 Kubernetes의 모든 이점과 다음 기능을 활용하여 프로덕션에 즉시 사용 가능한 강력한 AI/ML 플랫폼을 구현할 수 있습니다.
- 규모에 맞게 워크로드를 학습시키고 제공할 수 있도록 GPU 및 TPU를 지원하는 인프라 조정
- 분산형 계산 및 데이터 처리 프레임워크를 지원하는 유연한 통합
- 동일한 인프라에서 여러 팀을 지원하여 리소스 활용 극대화
무료 크레딧 $300로 개념 증명 시작
- Gemini 2.0 Flash Thinking 이용
- AI API 및 BigQuery를 포함하여 인기 제품 월별 무료 사용량
- 자동 청구, 약정 없음
20개가 넘는 항상 무료 제품을 계속 살펴보기
AI API, VM, 데이터 웨어하우스 등 일반적인 사용 사례에 20개가 넘는 무료 제품을 사용할 수 있습니다.
문서 리소스
GKE 생성형 AI 기능을 사용하여 개방형 모델 제공
- 신규!
- 신규!
- 신규!
- 튜토리얼
- 튜토리얼
- 튜토리얼
관련 리소스
Optimum TPU와 함께 TPU를 GKE에서 사용하여 오픈소스 모델 제공
Hugging Face의 Optimum TPU 서빙 프레임워크와 함께 GKE에서 Tensor Processing Unit(TPU)을 사용하여 LLM을 배포하는 방법을 알아봅니다.
GKE에서 Parallelstore 인스턴스로 지원되는 볼륨 만들기 및 사용
완전 관리형 Parallelstore 인스턴스로 지원되는 스토리지를 만들고 볼륨으로 액세스하는 방법을 알아봅니다. CSI 드라이버는 작은 파일 크기와 무작위 읽기가 포함된 AI/ML 학습 워크로드에 최적화되어 있습니다.
Hyperdisk ML을 사용하여 AI/ML 데이터 로드 가속화
Hyperdisk ML을 사용하여 GKE에서 AI/ML 모델 가중치 로드를 간소화하고 가속화하는 방법을 알아봅니다.
JetStream 및 PyTorch를 사용하여 GKE에서 TPU를 사용하는 LLM 제공
PyTorch를 통해 JetStream을 사용하여 GKE에서 Tensor Processing Unit(TPU)을 사용하여 LLM을 제공하는 방법을 알아봅니다.
GKE에서 GPU를 사용하여 LLM 추론을 최적화하기 위한 권장사항
vLLM 및 텍스트 생성 추론(TGI) 서빙 프레임워크를 사용하여 GKE에서 GPU로 LLM 추론 성능을 최적화하기 위한 권장사항을 알아봅니다.
GKE에서 NVIDIA GPU Operator로 GPU 스택 관리
NVIDIA GPU Operator를 사용해야 하는 경우와 GKE에서 NVIDIA GPU Operator를 사용 설정하는 방법을 알아봅니다.
TPU에서 LLM 워크로드 자동 확장 구성
GKE 수평형 포드 자동 확장 처리(HPA)를 통해 단일 호스트 JetStream을 사용하여 Gemma LLM을 배포하여 자동 확장 인프라를 설정하는 방법을 알아봅니다.
GKE에서 여러 GPU를 사용하여 Gemma 개방형 모델 파인 튜닝
GKE에서 GPU를 Hugging Face Transformers 라이브러리와 함께 사용하여 Gemma LLM을 파인 튜닝하는 방법을 알아봅니다.
TPU가 있는 GKE에 Stable Diffusion 모델이 있는 Ray Serve 애플리케이션 배포
TPU, Ray Serve, Ray Operator 부가기능을 사용하여 GKE에서 Stable Diffusion 모델을 배포하고 제공하는 방법을 알아봅니다.
GKE에서 GPU의 LLM 워크로드 자동 확장 구성
GKE 수평형 포드 자동 확장 처리(HPA)를 사용하여 Hugging Face 텍스트 생성 인터페이스(TGI) 제공 프레임워크와 함께 Gemma LLM을 배포하여 자동 확장 인프라를 설정하는 방법을 알아봅니다.
A3 Mega 가상 머신에서 Megatron-LM으로 Llama2 학습
A3 Mega에서 컨테이너 기반 Megatron-LM PyTorch 워크로드를 실행하는 방법을 알아봅니다.
Autopilot에서 GPU 워크로드 배포
GKE Autopilot 워크로드에서 하드웨어 가속기(GPU)를 요청하는 방법을 알아봅니다.
GKE에서 여러 GPU로 LLM 제공
GKE에서 여러 NVIDIA L4 GPU를 사용해서 Llama 2 70B 또는 Falcon 40B를 제공하는 방법을 알아봅니다.
GKE에서 Ray 시작하기
Ray 클러스터에서 워크로드를 실행하여 GKE에서 Ray를 손쉽게 시작하는 방법을 알아봅니다.
Ray를 사용하여 L4 GPU에 LLM 제공
GKE에서 Ray 프레임워크를 사용해서 Falcon 7b, Llama2 7b, Falcon 40b, Llama2 70b를 제공하는 방법을 알아봅니다.
JobSet 및 Kueue를 사용하여 TPU 멀티슬라이스 워크로드 조정
JobSet 및 Kueue를 사용하여 GKE의 여러 TPU 슬라이스에서 Jax 워크로드를 조정하는 방법을 알아봅니다.
NVIDIA Data Center GPU Manager(DCGM)를 사용하여 GKE에서 GPU 워크로드 모니터링
NVIDIA Data Center GPU Manager(DCGM)를 사용하여 GKE에서 GPU 워크로드를 관찰하는 방법을 알아봅니다.
빠른 시작: GKE Standard 클러스터에서 GPU를 사용하여 모델 학습
이 빠른 시작에서는 GKE에서 GPU를 사용하여 학습 모델을 배포하고 Cloud Storage에 예측을 저장하는 방법을 보여줍니다.
GKE에서 대규모 머신러닝 실행
이 동영상은 GKE를 사용하여 대규모 AI 모델을 규모에 맞게 학습하는 데 따르는 일반적인 문제를 해결하는 방법과 GKE에서 대규모 머신러닝 모델을 학습시키고 제공하기 위한 권장사항을 보여줍니다.
GKE Autopilot의 TensorFlow와 GPU 가속
이 블로그 게시물은 Tensorflow가 지원되는 Jupiter 노트북의 생성, 실행, 분해에 대한 단계별 안내입니다.
GKE에서 네임스페이스 간 할당량 공유로 작업 큐 추가 구현
이 튜토리얼에서는 Kueue를 사용하여 작업 큐 추가 시스템을 구현하고, 워크로드 리소스를 구성하고, GKE에서 다른 네임스페이스 간 워크로드 리소스 및 할당량 공유를 구성하는 방법을 보여줍니다.
GKE 및 Cloud Storage로 RAG 챗봇 빌드
이 튜토리얼에서는 검색 증강 생성을 기반으로 하는 대규모 언어 모델 애플리케이션을 Cloud Storage 버킷에 업로드하는 PDF 파일과 통합하는 방법을 보여줍니다.
BigQuery, Cloud Run, Gemma를 사용하여 GKE에서 데이터 분석
이 튜토리얼에서는 데이터 저장소 및 처리를 위해 BigQuery를, 요청 처리를 위해 Cloud Run을, 데이터 분석 및 예측을 위해 Gemma LLM을 활용하여 GKE에서 대규모 데이터 세트를 분석하는 방법을 보여줍니다.
GKE 및 Ray를 통한 분산 데이터 사전 처리: 기업을 위한 확장
GKE와 Ray를 활용하여 머신러닝을 위한 대규모 데이터 세트를 효율적으로 사전 처리하는 방법을 알아보세요.
GKE에서 AI/ML 추론을 위한 데이터 로드 권장사항
Google Kubernetes Engine에서 머신러닝 애플리케이션의 데이터 로드 시간을 단축하는 방법을 알아보세요.
GPU 절약: GKE 추론 워크로드의 스마트 자동 확장
최대 효율을 위해 GKE의 수평형 포드 자동 확장 처리를 미세 조정하여 GPU 추론 비용을 최적화하는 방법을 알아봅니다.
GKE 기반 NVIDIA NIM 마이크로서비스를 사용하여 최적화된 AI 모델을 효율적으로 제공
GKE에 최신 NVIDIA NIM 마이크로서비스를 쉽게 배포하고 AI 워크로드를 가속화하는 방법을 알아봅니다.
GKE의 새로운 Ray 연산자로 프로덕션에서 Ray 가속화
GKE의 Ray 연산자가 AI/ML 프로덕션 배포를 간소화하여 성능과 확장성을 개선하는 방법을 알아보세요.
GKE의 GPU에 대한 LLM 서빙 처리량 극대화 - 실용적인 가이드
인프라 결정 및 모델 서버 최적화를 비롯하여 GKE에서 GPU의 대규모 언어 모델 (LLM) 서빙 처리량을 극대화하는 방법을 알아봅니다.
간편한 검색엔진: GKE 및 Vertex AI Agent Builder를 사용한 로우 코드 접근 방식
Vertex AI Agent Builder, Vertex AI Search, GKE를 사용하여 Google Cloud로 검색엔진을 빌드하는 방법을 알아봅니다.
LiveX AI는 GKE 및 NVIDIA AI에서 학습되고 제공되는 AI 에이전트를 통해 고객 지원 비용을 절감합니다.
LiveX AI가 GKE를 사용하여 고객 만족도를 높이고 비용을 절감하는 AI 에이전트를 구축하는 방법
GKE 및 Cloud SQL을 사용하는 RAG 지원 생성형 AI 애플리케이션을 위한 인프라
GKE, Cloud SQL, Ray, Hugging Face, LangChain을 사용하여 검색 증강 생성(RAG)으로 생성형 AI 애플리케이션을 실행하기 위한 참조 아키텍처입니다.
특허 검색 혁신: IPRally가 GKE 및 Ray를 통해 AI를 활용하는 방법
IPRally가 GKE와 Ray를 사용해 확장 가능하고 효율적인 ML 플랫폼을 빌드하여 더 높은 정확도로 특허 검색을 신속하게 수행하는 방법을 알아봅니다.
Google Cloud에서의 Gemma 성능 심층 분석
Cloud GPU 및 Cloud TPU에서 Gemma를 활용하여 GKE에서 추론 및 학습 효율성을 높입니다.
GKE 기반 Gemma 심층 분석: 개방형 생성형 AI 모델을 제공하기 위한 새로운 혁신
업계 최고의 Gemma 개방형 모델을 사용하여 휴대용으로 맞춤설정 가능한 AI 애플리케이션을 빌드하고 GKE에 배포하세요.
Ray 및 Kueue를 사용한 AI/ML 고급 예약
KubeRay 및 Kueue를 사용하여 GKE에서 Ray 애플리케이션을 조정합니다.
Google Kubernetes Engine에서 Ray를 보호하는 방법
GKE의 Ray를 사용하여 AI/ML 워크로드를 학습하기 위한 보안 통계 및 강화 기술을 적용합니다.
Google Cloud의 AI 및 ML 워크로드를 위한 스토리지 설계
Google Cloud의 AI 및 ML 워크로드를 위한 최적의 스토리지 옵션 조합을 선택하세요.
자동 드라이버 설치로 GKE에서 NVIDIA GPU 사용 간소화
GKE에 Nvidia GPU 드라이버를 자동으로 설치합니다.
GKEE 기반 NVIDIA NeMo 프레임워크로 생성형 AI 여정 가속화
GKE 및 NVIDIA NeMo 프레임워크를 사용하여 생성형 AI 모델을 학습시킵니다.
Ray AI 워크로드에 GKE를 사용하는 이유는 무엇인가요?
Ray 워크로드에 GKE를 사용하여 확장성, 비용 효율성, 내결함성, 격리, 이동성을 개선합니다.
이제 새로운 컴퓨팅 옵션, 가격 책정, 리소스 예약 기능으로 완전 관리형 GKE에서 AI 실행
GKE Autopilot으로 AI/ML 워크로드의 GPU 지원, 성능, 가격 인하 효과를 누리세요.
SEEN이 GKE를 사용하여 출력을 89배 확장하고 GPU 비용을 66% 절감한 방법
스타트업이 GKE를 사용하여 맞춤 동영상 출력을 확장합니다.
Spotify가 Ray 및 GKE를 통해 ML 혁신을 실현하는 방법
Ray가 Spotify의 ML 개발을 혁신하는 방법
Ordaōs Bio가 GKE에서 생성형 AI를 활용하는 방법
생물 의학 연구 및 발견을 위한 선도적인 AI 가속기 중 하나인 Ordaos Bio는 종양학 및 만성 염증 질환의 새로운 면역 치료를 위한 솔루션을 찾고 있습니다.
ML을 기반으로 성장하는 스타트업의 GKE
실리콘 밸리 스타트업인 Moloco가 GKE 및 Tensor Flow Enterprise를 활용해 머신러닝(ML) 인프라를 강화한 방법을 소개합니다.
Google Kubernetes Engine (GKE)샘플
공식 GKE 제품 튜토리얼에 사용된 샘플 애플리케이션을 확인합니다.
GKE AI 실습 샘플
GKE를 활용하여 AI/ML 이니셔티브를 가속화하기 위한 실험용 샘플을 확인하세요.