Google Cloud는 다양한 세그먼트에서 가장 까다로운 GPU 가속 워크로드를 처리할 수 있는 세계적 수준의 인공지능(AI) 인프라를 제공하는 데 집중하고 있습니다. Google Cloud에서 GPU를 사용하여 AI, 머신러닝(ML), 과학, 분석, 엔지니어링, 소비자, 엔터프라이즈 애플리케이션을 실행할 수 있습니다.
Google Cloud는 NVIDIA와의 파트너십을 통해 최신 GPU를 제공하는 동시에 다양한 스토리지 및 네트워킹 옵션을 사용하여 소프트웨어 스택을 최적화합니다. 사용 가능한 GPU의 전체 목록은 GPU 플랫폼을 참조하세요.
다음 섹션에서는 Google Cloud에서 GPU의 이점을 간략히 설명합니다.
GPU 가속 VM
Google Cloud에서는 니즈에 가장 적합한 방식으로 GPU에 액세스하고 프로비저닝할 수 있습니다. 성능을 극대화하는 데 이상적인 GPU와 네트워킹 기능이 사전 연결된 특수 가속기 최적화된 머신 계열을 사용할 수 있습니다. A3, A2, G2 머신 시리즈에서 사용할 수 있습니다.
다양한 프로비저닝 옵션
다음 오픈소스 또는 Google Cloud 제품과 함께 가속기 최적화된 머신 계열을 사용하여 클러스터를 프로비저닝할 수 있습니다.
Vertex AI
Vertex AI는 ML 모델 및 AI 애플리케이션을 학습 및 배포하는 데 사용할 수 있는 완전 관리형 머신 러닝(ML) 플랫폼입니다. Vertex AI 애플리케이션에서 GPU 가속 VM을 사용하여 애플리케이션의 성능을 향상할 수 있는 방법은 다음과 같습니다.
- 커스텀 학습 GKE 작업자 풀에서 GPU 지원 VM을 사용합니다.
- Vertex AI Model Garden에서 오픈소스 LLM 모델을 사용합니다.
- 예측 지연 시간을 줄입니다.
- Vertex AI Workbench 노트북 코드의 성능을 개선합니다.
- Colab Enterprise 런타임의 성능을 개선합니다.
GKE 및 Slurm
GKE와 같은 대규모 조정 플랫폼은 대규모 ML 모델을 학습하고 미세 조정하는 데 사용할 수 있는 대규모 클러스터를 프로비저닝하는 데 이상적입니다. 대규모 ML 모델은 방대한 양의 데이터를 사용하는 모델입니다.
Google Cloud에서 사용할 수 있는 조정 플랫폼은 다음과 같습니다.
Google Kubernetes Engine(GKE): Google의 인프라를 사용하여 컨테이너화된 애플리케이션을 대규모로 배포하고 운영하는 데 사용할 수 있는 서비스입니다.
Slurm: 오픈소스 클러스터 관리 및 작업 일정 예약 도구입니다. Google Cloud에서는 Cluster Toolkit을 사용하여 Slurm 클러스터를 배포할 수 있습니다.
대규모 모델 학습 및 미세 조정 실행
대규모 모델을 학습하거나 미세 조정하려면 a3-megagpu-8g
머신 클러스터를 사용하고 GKE 또는 Slurm과 같은 스케줄러를 사용하여 배포하는 것이 좋습니다.
배포 옵션 |
배포 가이드 |
Slurm |
|
GKE |
주류 모델 학습 및 미세 조정 실행
주류 모델을 학습시키고 미세 조정하려면 표준 a3-highgpu-8g
또는 A2 또는 G2 머신 유형을 사용하고 GKE 또는 Slurm과 같은 스케줄러를 사용하여 배포하는 것이 좋습니다.
배포 옵션 |
배포 가이드 |
워크로드 |
GKE |
추론: GKE에서 모델 서빙 학습: GKE에서 모델 학습 |
|
Slurm |
Compute Engine
Compute Engine에서 GPU가 연결된 단일 VM 또는 더 작은 VM 클러스터를 생성하고 관리할 수도 있습니다. 이 방법은 그래픽 집약적인 워크로드를 실행하는데 이상적입니다.
배포 옵션 |
배포 가이드 |
관리형 인스턴스 그룹(MIG) 만들기 |
|
VM 일괄 생성 |
|
단일 VM 만들기 |
|
가상 워크스테이션 만들기 |
Cloud Run
Cloud Run 서비스에 GPU를 구성할 수 있습니다. GPU는 Cloud Run에서 대규모 언어 모델을 사용하여 AI 추론 워크로드를 실행하는 데 이상적입니다.
Cloud Run의 GPU에서 AI 워크로드를 실행하려면 다음 리소스를 참조하세요.
- Cloud Run 서비스에 GPU 구성
- GPU를 사용하여 Cloud Run에 대규모 ML 모델 로드
- 튜토리얼: Ollama를 사용하여 Cloud Run GPU에서 LLM 추론 실행