AI 및 ML 관점: 운영 우수성

Well-Architected Framework: AI and ML perspective의 이 문서에서는 Google Cloud에서 견고한 AI 및 ML 시스템을 빌드하고 운영하기 위한 원칙 및 권장사항을 간략히 설명합니다. 이러한 권장사항을 통해 관측 가능성, 자동화, 확장성과 같은 기본적인 요소를 설정할 수 있습니다. 이 문서의 권장사항은 Google Cloud Well-Architected Framework의 운영 우수성 요소에 따라 작성되었습니다.

AI 및 ML 도메인 내의 운영 우수성은 조직의 전략적 목표를 달성하는 데 도움이 되는 AI 및 ML 시스템과 파이프라인을 원활하게 배포, 관리, 제어하는 능력입니다. 운영 우수성을 통해 변화에 효율적으로 대응하고, 운영 복잡성을 줄이며, 운영이 비즈니스 목표와 계속 일치하도록 할 수 있습니다.

이 문서의 권장사항은 다음과 같은 핵심 원칙에 매핑됩니다.

모델 개발을 위한 견고한 기반 구축

비즈니스 목표를 달성하는 데 도움이 되는 확장 가능하고 안정적인 AI 시스템을 개발하고 배포하려면 강력한 모델 개발 기반이 필요합니다. 이러한 기반을 통해 일관된 워크플로를 지원하고, 오류를 줄이기 위해 중요한 단계를 자동화하며, 수요에 따라 모델을 확장할 수 있습니다. 강력한 모델 개발 기반을 사용하면 ML 시스템을 원활하게 업데이트, 개선, 재학습할 수 있습니다. 또한 이 프레임워크를 사용하면 모델의 성능을 비즈니스 요구사항에 맞추고, 효과적인 AI 솔루션을 빠르게 배포하고, 변화하는 요구사항에 적응할 수 있습니다.

AI 모델을 개발할 수 있는 강력한 기반을 구축하려면 다음 권장사항을 고려하세요.

문제 및 필요한 결과 정의

AI 또는 ML 프로젝트를 시작하기 전에 해결하려는 비즈니스 문제와 필요한 결과를 명확하게 이해해야 합니다. 비즈니스 목표의 개요로 시작하여 목표를 측정 가능한 핵심성과지표 (KPI)로 분류합니다. Jupyter 노트북 환경에서 문제 정의 및 가설을 구성하고 문서화하려면 Vertex AI Workbench와 같은 도구를 사용하세요. 코드 및 문서에 버전 관리를 구현하고 프로젝트, 목표, 가정을 문서화하려면 Git과 같은 도구를 사용하세요. 생성형 AI 애플리케이션의 프롬프트를 개발하고 관리하려면 Vertex AI Studio를 사용하세요.

필요한 데이터 수집 및 사전 처리

데이터 사전 처리 및 변환을 구현하려면 Dataflow(Apache Beam용), Dataproc(Apache Spark용) 또는 SQL 기반 프로세스가 적절한 경우 BigQuery를 사용하면 됩니다. 스키마를 검사하고 이상치를 감지하려면 TensorFlow Data Validation (TFDV)을 사용하고 해당하는 경우 BigQuery에서 자동화된 데이터 품질 스캔을 활용하세요.

생성형 AI의 경우 데이터 품질에는 정확성, 관련성, 다양성, 필수 출력 특성과의 일치가 포함됩니다. 실제 데이터가 불충분하거나 불균형한 경우 합성 데이터를 생성하여 모델의 견고성과 일반화를 개선할 수 있습니다. 기존 패턴을 기반으로 합성 데이터 세트를 만들거나 모델 성능을 개선하기 위해 학습 데이터를 보강하려면 BigQuery DataFrames 및 Gemini를 사용하세요. 합성 데이터는 프롬프트 다양성과 전반적인 모델 견고성을 개선하는 데 도움이 되므로 생성형 AI에 특히 유용합니다. 생성형 AI 모델을 미세 조정하기 위한 데이터 세트를 빌드할 때는 Vertex AI의 합성 데이터 생성 기능을 사용하는 것이 좋습니다.

세부 조정 또는 인간 피드백 기반 강화 학습 (RLHF)과 같은 생성형 AI 작업의 경우 라벨이 생성된 출력의 품질, 관련성, 안전성을 정확하게 반영하는지 확인합니다.

적절한 ML 접근 방식 선택

모델과 매개변수를 설계할 때는 모델의 복잡도와 계산 요구사항을 고려하세요. 태스크 (예: 분류, 회귀, 생성)에 따라 커스텀 모델 빌드에는 Vertex AI 커스텀 학습을, 간단한 ML 태스크에는 AutoML을 사용하는 것이 좋습니다. 일반적인 애플리케이션의 경우 Vertex AI Model Garden을 통해 사전 학습된 모델에 액세스할 수도 있습니다. 텍스트, 이미지, 코드 생성과 같은 다양한 사용 사례에 최신 기반 모델을 실험해 볼 수 있습니다.

특정 사용 사례에 최적의 성능을 달성하기 위해 사전 학습된 기반 모델을 미세 조정하는 것이 좋습니다. 맞춤 학습의 고성능 요구사항의 경우 Cloud 텐서 처리 장치 (TPU) 또는 GPU 리소스를 구성하여 대규모 언어 모델 (LLM) 및 확산 모델과 같은 딥 러닝 모델의 학습 및 추론 속도를 높입니다.

코드, 모델, 데이터의 버전 관리 설정

코드 버전을 효과적으로 관리하고 배포하려면 GitHub 또는 GitLab과 같은 도구를 사용하세요. 이러한 도구는 강력한 공동작업 기능, 브랜치 전략, CI/CD 파이프라인과의 통합을 제공하여 개발 프로세스를 간소화합니다.

다음 예와 같이 적절한 솔루션을 사용하여 ML 시스템의 각 아티팩트를 관리합니다.

  • 컨테이너 이미지 및 파이프라인 구성요소와 같은 코드 아티팩트의 경우 Artifact Registry는 보안을 개선하는 데 도움이 되는 확장 가능한 스토리지 솔루션을 제공합니다. Artifact Registry에는 버전 관리도 포함되어 있으며 Cloud BuildCloud Deploy와 통합할 수 있습니다.
  • 학습 및 평가에 사용되는 데이터 세트와 같은 데이터 아티팩트를 관리하려면 스토리지 및 버전 관리에 BigQuery 또는 Cloud Storage와 같은 솔루션을 사용하세요.
  • 메타데이터와 데이터 위치 포인터를 저장하려면 버전 관리 시스템 또는 별도의 데이터 카탈로그를 사용하세요.

특성 데이터의 일관성과 버전 관리를 유지하려면 Vertex AI Feature Store를 사용하세요. 바이너리 및 메타데이터를 비롯한 모델 아티팩트를 추적하고 관리하려면 Vertex AI Model Registry를 사용하세요. 이 레지스트리를 사용하면 모델 버전을 원활하게 저장, 구성, 배포할 수 있습니다.

모델 안정성을 보장하려면 Vertex AI Model Monitoring을 구현하세요. 프로덕션에서 데이터 드리프트를 감지하고, 성능을 추적하며, 이상치를 식별합니다. 생성형 AI 시스템의 경우 출력 품질 및 안전 규정 준수의 변화를 모니터링합니다.

모델 개발 수명 주기 자동화

자동화를 사용하면 AI 및 ML 수명 주기의 모든 단계를 간소화할 수 있습니다. 자동화하면 수동 작업이 줄고 프로세스가 표준화되어 운영 효율성이 향상되고 오류 위험이 줄어듭니다. 자동화된 워크플로를 사용하면 더 빠른 반복, 여러 환경에서 일관된 배포, 더 안정적인 결과를 얻을 수 있으므로 시스템을 원활하게 확장하고 조정할 수 있습니다.

AI 및 ML 시스템의 개발 수명 주기를 자동화하려면 다음 권장사항을 고려하세요.

관리형 파이프라인 조정 시스템 사용

Vertex AI Pipelines를 사용하여 데이터 준비부터 모델 학습, 평가, 배포에 이르기까지 ML 수명 주기의 모든 단계를 자동화하세요. 배포를 가속화하고 프로젝트 전반에서 일관성을 높이려면 예약된 파이프라인 실행으로 반복 작업을 자동화하고, 실행 측정항목으로 워크플로를 모니터링하고, 표준화된 워크플로를 위해 재사용 가능한 파이프라인 템플릿을 개발하세요. 이러한 기능은 생성형 AI 모델에도 적용되며, 생성형 AI 모델에는 프롬프트 엔지니어링, 응답 필터링, 휴먼 인 더 루프 평가와 같은 전문적인 단계가 종종 필요합니다. 생성형 AI의 경우 Vertex AI Pipelines는 품질 측정항목 및 안전 가이드라인에 대한 생성된 출력 평가를 비롯한 이러한 단계를 자동화할 수 있습니다. 프롬프트 다양성과 모델 견고성을 개선하기 위해 자동화된 워크플로에 데이터 증강 기법을 포함할 수도 있습니다.

CI/CD 파이프라인 구현

ML 모델의 빌드, 테스트, 배포를 자동화하려면 Cloud Build를 사용하세요. 이 서비스는 애플리케이션 코드의 테스트 모음을 실행할 때 특히 효과적입니다. 이를 통해 인프라, 종속 항목, 모델 패키징이 배포 요구사항을 충족하는지 확인할 수 있습니다.

ML 시스템에는 코드 테스트 외에도 추가 단계가 필요한 경우가 많습니다. 예를 들어 재학습하기 전에 다양한 부하에서 모델을 스트레스 테스트하고 일괄 평가를 통해 다양한 데이터 세트에서 모델 성능을 평가하고 데이터 무결성을 검사해야 합니다. 스트레스 테스트를 위해 실제 워크로드를 시뮬레이션하려면 Locust, Grafana k6 또는 Apache JMeter와 같은 도구를 사용하면 됩니다. 병목 현상을 식별하려면 Cloud Monitoring을 통해 지연 시간, 오류율, 리소스 사용률과 같은 주요 측정항목을 모니터링하세요. 생성형 AI의 경우 텍스트 품질, 이미지 충실도, 코드 기능과 같이 생성된 콘텐츠 유형에 관한 평가도 테스트에 포함되어야 합니다. 이러한 평가에는 언어 모델의 혼동도와 같은 자동화된 측정항목이나 창의성 및 안전과 같은 더 미묘한 측면에 대한 사람의 평가가 포함될 수 있습니다.

테스트 및 평가 작업을 구현하려면 Cloud Build를 다른 Google Cloud 서비스와 통합하면 됩니다. 예를 들어 Vertex AI Pipelines를 자동화된 모델 평가에, BigQuery를 대규모 데이터 분석에, Dataflow 파이프라인 검증을 기능 검증에 사용할 수 있습니다.

지속적 학습을 위한 Vertex AI를 사용하여 새 데이터에 관한 모델의 자동 재학습을 사용 설정하여 CI/CD 파이프라인을 더욱 개선할 수 있습니다. 특히 생성형 AI의 경우 생성된 출력을 관련성 있고 다양하게 유지하기 위해 재학습 시 새로운 학습 데이터 또는 프롬프트로 모델을 자동 업데이트해야 할 수 있습니다. Vertex AI Model Garden을 사용하여 조정할 수 있는 최신 기본 모델을 선택할 수 있습니다. 이렇게 하면 모델이 최신 상태로 유지되고 변화하는 비즈니스 요구사항에 맞게 최적화됩니다.

안전하고 제어된 모델 출시 구현

위험을 최소화하고 안정적인 배포를 보장하려면 문제를 조기에 감지하고, 성능을 검증하고, 필요한 경우 빠르게 롤백할 수 있는 모델 출시 접근 방식을 구현하세요.

ML 모델과 애플리케이션을 컨테이너 이미지로 패키징하고 배포하려면 Cloud Deploy를 사용하세요. 모델을 Vertex AI 엔드포인트에 배포할 수 있습니다.

카나리아 출시와 같은 전략을 사용하여 AI 애플리케이션 및 시스템에 제어된 출시를 구현합니다. Gemini와 같은 관리형 모델을 사용하는 애플리케이션의 경우 전체 배포 전에 일부 사용자에게 새 애플리케이션 버전을 점진적으로 출시하는 것이 좋습니다. 이 접근 방식을 사용하면 특히 출력이 달라질 수 있는 생성형 AI 모델을 사용할 때 잠재적인 문제를 조기에 감지할 수 있습니다.

미세 조정된 모델을 출시하려면 Cloud Deploy를 사용하여 모델 버전의 배포를 관리하고 카나리아 출시 전략을 사용하여 위험을 최소화할 수 있습니다. 관리형 모델과 미세 조정된 모델을 사용하면 제어된 출시의 목표는 애플리케이션과 모델을 모든 사용자에게 출시하기 전에 제한된 사용자를 대상으로 변경사항을 테스트하는 것입니다.

강력한 검증을 위해 Vertex AI Experiments를 사용하여 새 모델을 기존 모델과 비교하고 Vertex AI 모델 평가를 사용하여 모델 성능을 평가합니다. 특히 생성형 AI의 경우 의도한 사용 사례 및 잠재적 위험에 맞는 평가 측정항목을 정의합니다. Vertex AI의 Gen AI Evaluation Service를 사용하여 독성, 일관성, 사실 정확성, 안전 가이드라인 준수와 같은 측정항목을 평가할 수 있습니다.

배포 안정성을 보장하려면 강력한 롤백 계획이 필요합니다. 기존 ML 시스템의 경우 Vertex AI Model Monitoring을 사용하여 데이터 드리프트 및 성능 저하를 감지합니다. 생성형 AI 모델의 경우 Cloud Logging 및 Cloud Monitoring과 함께 Vertex AI 모델 평가를 사용하여 관련 측정항목을 추적하고 출력 품질의 변화 또는 유해 콘텐츠의 출현에 대한 알림을 설정할 수 있습니다. 생성형 AI 관련 측정항목을 기반으로 알림을 구성하여 필요할 때 롤백 절차를 트리거합니다. 모델 계보를 추적하고 최신 안정화 버전으로 되돌리려면 Vertex AI Model Registry의 통계를 사용하세요.

관측 가능성 구현

AI 및 ML 시스템의 동작은 데이터 또는 환경의 변화와 모델 업데이트로 인해 시간이 지남에 따라 변경될 수 있습니다. 이러한 동적 특성으로 인해 성능 문제, 편향 또는 예상치 못한 동작을 감지하려면 관측 가능성을 확보하는 것이 중요합니다. 이는 생성형 AI 모델에 특히 해당합니다. 출력이 매우 다양하고 주관적일 수 있기 때문입니다. 관찰 가능성을 사용하면 예기치 않은 동작을 사전에 해결하고 AI 및 ML 시스템이 안정적이고 정확하며 공정하게 유지되도록 할 수 있습니다.

AI 및 ML 시스템의 관측성을 구현하려면 다음 권장사항을 고려하세요.

지속적으로 실적 모니터링

배포 후 모델을 지속적으로 평가하는 데 측정항목과 성공 기준을 사용합니다.

Vertex AI Model Monitoring을 사용하여 모델 성능을 사전에 추적하고, 학습-게재 편향 및 예측 드리프트를 파악하고, 알림을 수신하여 필요한 모델 재학습 또는 기타 개입을 트리거할 수 있습니다. 학습-서빙 편향을 효과적으로 모니터링하려면 이상적인 데이터 분포를 나타내는 골드 데이터 세트를 구성하고 TFDV를 사용하여 학습 데이터를 분석하고 기준 스키마를 설정합니다.

자동 편향 감지를 위해 입력 데이터의 분포를 골드 데이터 세트와 비교하도록 모델 모니터링을 구성합니다. 기존 ML 모델의 경우 정확성, 정밀도, 재현율, F1 점수, AUC-ROC, 로그 손실과 같은 측정항목에 중점을 둡니다. 모델 모니터링에서 알림의 맞춤 기준을 정의합니다. 생성형 AI의 경우 Gen AI 평가 서비스를 사용하여 프로덕션에서 모델 출력을 지속적으로 모니터링합니다. 응답 품질, 안전, 안내 준수, 근거, 작문 스타일, 상세성의 자동 평가 측정항목을 사용 설정할 수도 있습니다. 생성된 출력의 품질, 관련성, 안전성, 가이드라인 준수 여부를 평가하려면 휴먼 인 더 루프 평가를 통합하면 됩니다.

모델 모니터링에서 알림을 트리거할 때 Vertex AI Pipelines로 모델을 자동으로 재학습하는 피드백 루프를 만듭니다. 이러한 통계를 사용하여 모델을 지속적으로 개선하세요.

개발 중 모델 평가

LLM 및 기타 생성형 AI 모델을 배포하기 전에 개발 단계에서 철저히 평가하세요. Vertex AI 모델 평가를 사용하여 최적의 성능을 달성하고 위험을 완화하세요. Vertex AI 빠른 평가를 사용하여 Google Cloud 제공한 데이터 세트와 프롬프트를 기반으로 평가를 자동으로 실행할 수 있습니다.

사용 사례에 맞는 맞춤 측정항목을 정의하고 통합할 수도 있습니다. 생성된 콘텐츠에 대한 피드백을 얻으려면 Vertex AI 모델 평가를 사용하여 인간이 참여하는 워크플로를 통합하세요.

적대적 테스트를 사용하여 취약점과 잠재적 오류 모드를 식별합니다. 잠재적 편향을 식별하고 완화하려면 하위 그룹 분석 및 대안 가정 생성과 같은 기법을 사용하세요. 개발 단계에서 완료된 평가에서 수집한 통계를 사용하여 프로덕션에서 모델 모니터링 전략을 정의합니다. 이 문서의 성능 지속적 모니터링 섹션에 설명된 대로 지속적 모니터링을 위한 솔루션을 준비합니다.

사용 가능 여부 모니터링

배포된 엔드포인트와 인프라의 상태와 성능을 파악하려면 Cloud Monitoring을 사용하세요. Vertex AI 엔드포인트의 요청 비율, 오류율, 지연 시간, 리소스 사용률과 같은 주요 측정항목을 추적하고 이상치에 대한 알림을 설정합니다. 자세한 내용은 Vertex AI의 Cloud Monitoring 측정항목을 참고하세요.

Compute Engine 인스턴스, Google Kubernetes Engine (GKE) 클러스터, TPU, GPU를 포함할 수 있는 기본 인프라의 상태를 모니터링합니다. Active Assist에서 자동 최적화 추천을 받으세요. 자동 확장을 사용하는 경우 확장 동작을 모니터링하여 자동 확장이 트래픽 패턴의 변경사항에 적절하게 반응하는지 확인합니다.

Cloud Deploy를 Cloud Monitoring과 통합하여 카나리아 출시 및 롤백을 비롯한 모델 배포 상태를 추적합니다. 또한 Security Command Center를 사용하여 잠재적인 보안 위협 및 취약점을 모니터링합니다.

비즈니스별 기준점에 맞게 맞춤 알림 설정

이상치와 문제를 시의적절하게 식별하고 해결하려면 비즈니스 목표에 맞는 기준을 기반으로 맞춤 알림을 설정하세요. 맞춤 알림 시스템을 구현하는 데 사용할 수 있는 Google Cloud 제품의 예는 다음과 같습니다.

  • Cloud Logging: AI 및 ML 시스템의 모든 구성요소에서 로그를 수집, 저장, 분석합니다.
  • Cloud Monitoring: 맞춤 대시보드를 만들어 주요 측정항목과 동향을 시각화하고 필요에 따라 맞춤 측정항목을 정의합니다. 중요한 문제에 대한 알림을 받도록 알림을 구성하고 PagerDuty 또는 Slack과 같은 사고 관리 도구와 알림을 통합하세요.
  • Error Reporting: 오류 및 예외를 자동으로 캡처하고 분석합니다.
  • Cloud Trace: 분산 시스템의 성능을 분석하고 병목 현상을 식별합니다. 추적은 특히 AI 및 ML 파이프라인의 여러 구성요소 간의 지연 시간을 파악하는 데 유용합니다.
  • Cloud Profiler: 프로덕션에서 코드의 성능을 지속적으로 분석하고 CPU 또는 메모리 사용량의 성능 병목 현상을 파악합니다.

운영 우수성 문화 구축

모델 빌드에만 집중하지 말고 지속 가능하고 신뢰할 수 있으며 영향력 있는 AI 솔루션을 빌드하는 데 중점을 두세요. 팀이 지속적으로 학습, 혁신, 개선할 수 있도록 지원하여 개발 주기를 단축하고 오류를 줄이며 효율성을 높입니다. 자동화, 표준화, 윤리적 고려사항을 우선시하면 AI 및 ML 이니셔티브가 일관되게 가치를 제공하고, 위험을 완화하며, 책임감 있는 AI 개발을 촉진할 수 있습니다.

AI 및 ML 시스템을 위한 운영 우수성 문화를 구축하려면 다음 권장사항을 고려하세요.

자동화 및 표준화 옹호

효율성과 일관성을 강조하려면 AI 및 ML 수명 주기의 모든 단계에 자동화와 표준화된 관행을 삽입하세요. 자동화하면 수동 오류가 줄고 팀이 혁신에 집중할 수 있습니다. 표준화를 통해 팀과 프로젝트 전반에서 프로세스를 반복하고 확장할 수 있습니다.

지속적인 학습 및 개선에 우선순위 두기

지속적인 교육과 실험이 핵심 원칙인 환경을 조성하세요. 팀이 AI 및 ML의 발전에 관한 최신 정보를 파악하도록 독려하고 이전 프로젝트에서 배울 수 있는 기회를 제공하세요. 호기심과 적응의 문화는 혁신을 주도하고 팀이 새로운 도전을 해결할 수 있도록 합니다.

책임성 및 소유권 함양

명확하게 정의된 역할, 책임, 성공 측정항목을 통해 신뢰와 협력을 구축합니다. 팀이 이러한 경계 내에서 정보에 입각한 결정을 내릴 수 있도록 지원하고 진행 상황을 측정하는 투명한 방법을 수립하세요. 소유 의식은 팀의 동기를 부여하고 결과에 대한 공동 책임을 보장합니다.

AI 윤리 및 안전 고려사항 삽입

개발의 모든 단계에서 윤리적 고려사항을 우선시합니다. 팀이 AI 솔루션의 영향에 대해 비판적으로 생각하고 공정성, 편향, 사회적 영향에 관한 토론을 장려하도록 합니다. 명확한 원칙과 책임 메커니즘을 통해 AI 시스템이 조직의 가치에 부합하고 신뢰를 증진할 수 있습니다.

확장성을 고려한 설계

증가하는 데이터 양과 사용자 수요를 수용하고 AI 투자의 가치를 극대화하려면 AI 및 ML 시스템을 확장할 수 있어야 합니다. 시스템은 효과를 저해하는 성능 병목 현상을 방지하기 위해 최적으로 적응하고 실행해야 합니다. 확장성을 고려한 설계를 하면 AI 인프라가 성장을 처리하고 응답성을 유지할 수 있습니다. 확장 가능한 인프라를 사용하고, 용량을 계획하고, 수평 확장 및 관리 서비스와 같은 전략을 활용합니다.

확장성을 고려하여 AI 및 ML 시스템을 설계하려면 다음 권장사항을 고려하세요.

용량 및 할당량 계획

향후 성장을 평가하고 그에 따라 인프라 용량과 리소스 할당량을 계획합니다. 비즈니스 이해관계자와 협력하여 예상 성장률을 파악한 후 그에 따라 인프라 요구사항을 정의합니다.

Cloud Monitoring을 사용하여 이전 리소스 사용량을 분석하고, 추세를 파악하고, 향후 요구사항을 예측합니다. 정기적으로 부하 테스트를 실행하여 워크로드를 시뮬레이션하고 병목 현상을 식별합니다.

Compute Engine, Vertex AI, Cloud Storage와 같이 사용하는 서비스의 Google Cloud 할당량을 숙지하세요. Google Cloud 콘솔을 통해 할당량 증대를 사전에 요청하고 예측 및 부하 테스트의 데이터를 사용하여 증대를 정당화합니다. 할당량 사용량을 모니터링하고 사용량이 할당량 한도에 가까워지면 알림을 받을 수 있도록 알림을 설정합니다.

수요에 따라 리소스 사용량을 최적화하려면 리소스 크기를 조정하고, 내결함성 일괄 워크로드에 스팟 VM을 사용하고, 자동 확장을 구현하세요.

최대 이벤트에 대비

시스템이 최대 이벤트 중에 트래픽 또는 워크로드의 급증을 처리할 수 있는지 확인합니다. 최대 이벤트 전략을 문서화하고 정기적인 훈련을 실시하여 시스템의 증가된 부하를 처리하는 기능을 테스트합니다.

수요가 급증할 때 리소스를 공격적으로 확장하려면 Compute EngineGKE에서 자동 확장 정책을 구성하세요. 예측 가능한 최대 패턴의 경우 예측 자동 확장을 사용하는 것이 좋습니다. 애플리케이션별 신호를 기반으로 자동 확장을 트리거하려면 Cloud Monitoring에서 커스텀 측정항목을 사용하세요.

Cloud Load Balancing을 사용하여 여러 애플리케이션 인스턴스에 트래픽을 분산합니다. 애플리케이션의 요구사항에 따라 적절한 부하 분산기 유형을 선택합니다. 지리적으로 분산된 사용자의 경우 전역 부하 분산을 사용하여 가장 가까운 사용 가능한 인스턴스로 트래픽을 라우팅할 수 있습니다. 복잡한 마이크로서비스 기반 아키텍처의 경우 Cloud Service Mesh를 사용하는 것이 좋습니다.

Cloud CDN을 사용하여 Google 네트워크의 에지에 정적 콘텐츠를 캐시합니다. 자주 액세스하는 데이터를 캐시하려면 Redis, Valkey 또는 Memcached용 완전 관리형 인메모리 서비스를 제공하는 Memorystore를 사용하면 됩니다.

실시간 메시징에는 Pub/Sub를, 비동기 태스크 실행에는 Cloud Tasks를 사용하여 시스템 구성요소를 분리합니다.

프로덕션용 애플리케이션 확장

프로덕션에서 확장 가능한 서빙을 보장하려면 Vertex AI 분산 학습Vertex AI 예측과 같은 관리형 서비스를 사용하면 됩니다. Vertex AI 예측을 사용하면 모델을 엔드포인트에 배포하거나 일괄 예측을 요청할 때 예측 노드의 머신 유형을 구성할 수 있습니다. 일부 구성의 경우 GPU를 추가할 수 있습니다. 대기 시간, 처리량, 비용을 최적화할 적절한 머신 유형과 가속기를 선택합니다.

분산 컴퓨팅 리소스에서 복잡한 AI 및 Python 애플리케이션과 맞춤 워크로드를 확장하려면 Vertex AI 기반 Ray를 사용하면 됩니다. 이 기능을 사용하면 성능을 최적화하고Google Cloud 서비스와 원활하게 통합할 수 있습니다. Vertex AI의 Ray는 클러스터 관리, 작업 예약, 데이터 전송을 처리하여 분산 컴퓨팅을 간소화합니다. 학습, 예측, 파이프라인과 같은 다른 Vertex AI 서비스와 통합됩니다. Ray는 내결함성 및 자동 확장을 제공하며, 인프라를 변화하는 워크로드에 맞게 조정하는 데 도움이 됩니다. 분산 학습, 하이퍼파라미터 조정, 강화 학습, 모델 서빙을 위한 통합 프레임워크를 제공합니다. Dataflow 또는 Dataproc를 사용한 분산 데이터 사전 처리, 가속화된 모델 학습, 확장 가능한 하이퍼파라미터 조정, 강화 학습, 병렬화된 일괄 예측에 Ray를 사용하세요.

참여자

저자:

기타 참여자: