이 페이지는 Cloud Translation API를 통해 번역되었습니다.

AI 및 ML 관점: 운영 우수성

Last reviewed 2025-04-28 UTC

Well-Architected Framework: AI 및 ML 관점의 이 문서에서는 Google Cloud에서 강력한 AI 및 ML 시스템을 빌드하고 운영하기 위한 원칙과 권장사항을 개략적으로 설명합니다. 이러한 권장사항은 관측 가능성, 자동화, 확장성과 같은 기본적인 요소를 설정하는 데 도움이 됩니다. 이 문서의 권장사항은 Google Cloud Well-Architected 프레임워크의 운영 우수성 분야와 일치합니다.

AI 및 ML 도메인 내 운영 우수성은 조직의 전략적 목표를 달성하는 데 도움이 되는 AI 및 ML 시스템과 파이프라인을 원활하게 배포, 관리, 제어하는 능력입니다. 운영 우수성을 통해 변화에 효율적으로 대응하고, 운영 복잡성을 줄이며, 운영이 비즈니스 목표와 일치하도록 할 수 있습니다.

이 문서의 권장사항은 다음 핵심 원칙에 매핑됩니다.

모델 개발을 위한 강력한 기반 구축
모델 개발 수명 주기 자동화
관측 가능성 구현
운영 우수성 문화 구축
확장성을 고려한 설계

모델 개발을 위한 강력한 기반 구축

비즈니스 목표를 달성하는 데 도움이 되는 확장 가능하고 안정적인 AI 시스템을 개발하고 배포하려면 강력한 모델 개발 기반이 필수적입니다. 이러한 기반을 통해 일관된 워크플로를 지원하고, 오류를 줄이기 위해 중요한 단계를 자동화하며, 수요에 따라 모델을 확장할 수 있습니다. 강력한 모델 개발 기반을 통해 ML 시스템을 원활하게 업데이트, 개선, 재학습할 수 있습니다. 이 토대를 통해 모델의 성능을 비즈니스 요구사항에 맞추고, 영향력 있는 AI 솔루션을 신속하게 배포하고, 변화하는 요구사항에 적응할 수 있습니다.

AI 모델을 개발하기 위한 강력한 기반을 구축하려면 다음 권장사항을 고려하세요.

문제 및 필요한 결과 정의

AI 또는 ML 프로젝트를 시작하기 전에 해결해야 하는 비즈니스 문제와 필요한 결과를 명확하게 이해해야 합니다. 비즈니스 목표의 개요부터 시작하여 목표를 측정 가능한 핵심성과지표 (KPI)로 세분화합니다. Jupyter 노트북 환경에서 문제 정의와 가설을 정리하고 문서화하려면 Vertex AI Workbench와 같은 도구를 사용하세요. 코드와 문서의 버전 관리를 구현하고 프로젝트, 목표, 가정을 문서화하려면 Git과 같은 도구를 사용하세요. 생성형 AI 애플리케이션의 프롬프트를 개발하고 관리하려면 Vertex AI Studio를 사용하면 됩니다.

필요한 데이터 수집 및 전처리

데이터 사전 처리 및 변환을 구현하려면 Dataflow(Apache Beam용), Dataproc(Apache Spark용) 또는 SQL 기반 프로세스가 적합한 경우 BigQuery를 사용하면 됩니다. 스키마를 검증하고 이상치를 감지하려면 TensorFlow Data Validation (TFDV)을 사용하고 해당하는 경우 BigQuery의 자동 데이터 품질 스캔을 활용하세요.

생성형 AI의 경우 데이터 품질에는 정확성, 관련성, 다양성, 필수 출력 특성과의 정렬이 포함됩니다. 실제 데이터가 불충분하거나 불균형한 경우 합성 데이터를 생성하여 모델의 견고성과 일반화를 개선할 수 있습니다. 기존 패턴을 기반으로 합성 데이터 세트를 만들거나 모델 성능을 개선하기 위해 학습 데이터를 보강하려면 BigQuery DataFrames 및 Gemini를 사용하세요. 합성 데이터는 프롬프트 다양성과 전반적인 모델 견고성을 개선하는 데 도움이 되므로 생성형 AI에 특히 유용합니다. 생성형 AI 모델을 미세 조정하기 위한 데이터 세트를 빌드할 때는 Vertex AI의 합성 데이터 생성 기능을 사용하는 것이 좋습니다.

파인 튜닝 또는 인간 피드백 기반 강화 학습 (RLHF)과 같은 생성형 AI 작업의 경우 라벨이 생성된 출력의 품질, 관련성, 안전성을 정확하게 반영하는지 확인하세요.

적절한 ML 접근 방식 선택

모델과 파라미터를 설계할 때는 모델의 복잡성과 컴퓨팅 요구사항을 고려하세요. 분류, 회귀, 생성과 같은 작업에 따라 맞춤 모델 빌드에는 Vertex AI 커스텀 학습을 사용하고 간단한 ML 작업에는 AutoML을 사용하는 것이 좋습니다. 일반적인 애플리케이션의 경우 Vertex AI Model Garden을 통해 사전 학습된 모델에 액세스할 수도 있습니다. 텍스트, 이미지, 코드 생성과 같은 다양한 사용 사례에 최첨단 파운데이션 모델을 실험해 볼 수 있습니다.

특정 사용 사례에 최적의 성능을 달성하기 위해 사전 학습된 기반 모델을 미세 조정하는 것이 좋습니다. 맞춤 학습에서 고성능이 필요한 경우 Cloud 텐서 처리 장치 (TPU) 또는 GPU 리소스를 구성하여 대규모 언어 모델 (LLM) 및 확산 모델과 같은 딥 러닝 모델의 학습 및 추론을 가속화합니다.

코드, 모델, 데이터의 버전 관리 설정

코드 버전을 효과적으로 관리하고 배포하려면 GitHub 또는 GitLab과 같은 도구를 사용하세요. 이러한 도구는 강력한 공동작업 기능, 브랜치 전략, CI/CD 파이프라인과의 통합을 제공하여 간소화된 개발 프로세스를 보장합니다.

다음 예와 같이 적절한 솔루션을 사용하여 ML 시스템의 각 아티팩트를 관리합니다.

컨테이너 이미지 및 파이프라인 구성요소와 같은 코드 아티팩트의 경우 Artifact Registry는 보안을 개선하는 데 도움이 되는 확장 가능한 스토리지 솔루션을 제공합니다. Artifact Registry에는 버전 관리 기능도 포함되어 있으며 Cloud Build 및 Cloud Deploy와 통합할 수 있습니다.
학습 및 평가에 사용되는 데이터 세트와 같은 데이터 아티팩트를 관리하려면 스토리지 및 버전 관리를 위해 BigQuery 또는 Cloud Storage와 같은 솔루션을 사용하세요.
메타데이터와 데이터 위치 포인터를 저장하려면 버전 관리 시스템이나 별도의 데이터 카탈로그를 사용하세요.

특성 데이터의 일관성과 버전 관리를 유지하려면 Vertex AI Feature Store를 사용하세요. 바이너리 및 메타데이터를 비롯한 모델 아티팩트를 추적하고 관리하려면 Vertex AI Model Registry를 사용하세요. 이를 통해 모델 버전을 원활하게 저장, 정리, 배포할 수 있습니다.

모델 안정성을 보장하려면 Vertex AI Model Monitoring을 구현하세요. 프로덕션에서 데이터 드리프트를 감지하고, 성능을 추적하고, 이상치를 식별합니다. 생성형 AI 시스템의 경우 출력 품질 및 안전 규정 준수의 변화를 모니터링합니다.

모델 개발 수명 주기 자동화

자동화를 사용하면 AI 및 ML 수명 주기의 모든 단계를 간소화할 수 있습니다. 자동화는 수동 작업을 줄이고 프로세스를 표준화하여 운영 효율성을 높이고 오류 위험을 낮춥니다. 자동화된 워크플로를 사용하면 반복 속도가 빨라지고, 환경 전반에서 일관된 배포가 가능하며, 결과의 신뢰성이 높아지므로 시스템을 원활하게 확장하고 적응시킬 수 있습니다.

AI 및 ML 시스템의 개발 수명 주기를 자동화하려면 다음 권장사항을 고려하세요.

관리형 파이프라인 조정 시스템 사용

Vertex AI Pipelines를 사용하여 데이터 준비부터 모델 학습, 평가, 배포에 이르기까지 머신러닝 수명 주기의 모든 단계를 자동화하세요. 배포를 가속화하고 프로젝트 전반에서 일관성을 유지하려면 예약된 파이프라인 실행으로 반복 작업을 자동화하고, 실행 측정항목으로 워크플로를 모니터링하고, 표준화된 워크플로를 위한 재사용 가능한 파이프라인 템플릿을 개발하세요. 이러한 기능은 생성형 AI 모델로 확장되며, 생성형 AI 모델에는 프롬프트 엔지니어링, 응답 필터링, human-in-the-loop 평가와 같은 전문적인 단계가 필요한 경우가 많습니다. 생성형 AI의 경우 Vertex AI Pipelines는 생성된 출력을 품질 측정항목 및 안전 가이드라인과 비교하는 평가를 비롯한 이러한 단계를 자동화할 수 있습니다. 프롬프트 다양성과 모델 견고성을 개선하기 위해 자동화된 워크플로에 데이터 증강 기법을 포함할 수도 있습니다.

CI/CD 파이프라인 구현

ML 모델의 빌드, 테스트, 배포를 자동화하려면 Cloud Build를 사용하세요. 이 서비스는 애플리케이션 코드의 테스트 모음을 실행할 때 특히 효과적이며, 이를 통해 인프라, 종속 항목, 모델 패키징이 배포 요구사항을 충족하는지 확인할 수 있습니다.

ML 시스템에는 코드 테스트 외에 추가 단계가 필요한 경우가 많습니다. 예를 들어 다양한 부하에서 모델의 스트레스 테스트를 실행하고, 다양한 데이터 세트에서 모델 성능을 평가하기 위해 대량 평가를 실행하고, 재학습 전에 데이터 무결성을 검증해야 합니다. 스트레스 테스트를 위해 실제 워크로드를 시뮬레이션하려면 Locust, Grafana k6, Apache JMeter와 같은 도구를 사용하면 됩니다. 병목 현상을 식별하려면 Cloud Monitoring을 통해 지연 시간, 오류율, 리소스 사용률과 같은 주요 측정항목을 모니터링하세요. 생성형 AI의 경우 테스트에는 텍스트 품질, 이미지 충실도, 코드 기능과 같이 생성된 콘텐츠 유형에 특화된 평가도 포함되어야 합니다. 이러한 평가에는 언어 모델의 혼란도와 같은 자동화된 측정항목이나 창의성, 안전과 같은 미묘한 측면을 위한 사람 참여 평가가 포함될 수 있습니다.

테스트 및 평가 작업을 구현하려면 Cloud Build를 다른 Google Cloud 서비스와 통합하면 됩니다. 예를 들어 자동화된 모델 평가에는 Vertex AI Pipelines를 사용하고, 대규모 데이터 분석에는 BigQuery를 사용하고, 기능 검증에는 Dataflow 파이프라인 검증을 사용할 수 있습니다.

Vertex AI를 사용한 지속적 학습을 사용하여 새 데이터에 대한 모델의 자동 재학습을 지원하면 CI/CD 파이프라인을 더욱 개선할 수 있습니다. 특히 생성형 AI의 경우 생성된 출력이 관련성이 있고 다양하도록 재학습에는 새로운 학습 데이터 또는 프롬프트로 모델을 자동으로 업데이트하는 작업이 포함될 수 있습니다. Vertex AI Model Garden을 사용하여 조정에 사용할 수 있는 최신 기본 모델을 선택할 수 있습니다. 이 방법을 사용하면 모델이 최신 상태로 유지되고 변화하는 비즈니스 요구사항에 맞게 최적화됩니다.

안전하고 관리된 모델 출시 구현

위험을 최소화하고 안정적인 배포를 보장하려면 문제를 조기에 감지하고, 성능을 검증하고, 필요한 경우 빠르게 롤백할 수 있는 모델 출시 접근 방식을 구현하세요.

ML 모델과 애플리케이션을 컨테이너 이미지로 패키징하고 배포하려면 Cloud Deploy를 사용하세요. 모델을 Vertex AI 엔드포인트에 배포할 수 있습니다.

카나리아 출시와 같은 전략을 사용하여 AI 애플리케이션 및 시스템의 관리형 출시를 구현합니다. Gemini와 같은 관리형 모델을 사용하는 애플리케이션의 경우 전체 배포 전에 일부 사용자에게 새 애플리케이션 버전을 점진적으로 출시하는 것이 좋습니다. 이 접근 방식을 사용하면 특히 출력이 달라질 수 있는 생성형 AI 모델을 사용하는 경우 잠재적인 문제를 조기에 감지할 수 있습니다.

미세 조정된 모델을 출시하려면 Cloud Deploy를 사용하여 모델 버전의 배포를 관리하고 카나리아 릴리스 전략을 사용하여 위험을 최소화하면 됩니다. 관리형 모델과 미세 조정된 모델을 사용하면 제어된 출시의 목표는 모든 사용자에게 애플리케이션과 모델을 출시하기 전에 제한된 잠재고객을 대상으로 변경사항을 테스트하는 것입니다.

강력한 검증을 위해 Vertex AI Experiments를 사용하여 새 모델을 기존 모델과 비교하고 Vertex AI 모델 평가를 사용하여 모델 성능을 평가하세요. 특히 생성형 AI의 경우 의도한 사용 사례 및 잠재적 위험과 일치하는 평가 지표를 정의합니다. Vertex AI의 Gen AI Evaluation Service를 사용하여 유해성, 일관성, 사실 정확성, 안전 가이드라인 준수와 같은 측정항목을 평가할 수 있습니다.

배포 안정성을 보장하려면 강력한 롤백 계획이 필요합니다. 기존 ML 시스템의 경우 Vertex AI Model Monitoring을 사용하여 데이터 드리프트 및 성능 저하를 감지합니다. 생성형 AI 모델의 경우 Vertex AI 모델 평가를 Cloud Logging 및 Cloud Monitoring과 함께 사용하여 관련 측정항목을 추적하고 출력 품질의 변화 또는 유해 콘텐츠의 출현에 대한 알림을 설정할 수 있습니다. 생성형 AI 관련 측정항목을 기반으로 알림을 구성하여 필요한 경우 롤백 절차를 트리거합니다. 모델 계보를 추적하고 가장 최근의 안정적인 버전으로 되돌리려면 Vertex AI Model Registry의 통계를 사용하세요.

모니터링 가능성 구현

데이터 또는 환경의 변화와 모델 업데이트로 인해 AI 및 ML 시스템의 동작이 시간이 지남에 따라 변경될 수 있습니다. 이러한 동적인 특성으로 인해 성능 문제, 편향 또는 예상치 못한 동작을 감지하는 데 관측 가능성이 중요합니다. 특히 생성형 AI 모델의 경우 출력이 매우 가변적이고 주관적일 수 있으므로 더욱 그렇습니다. 관찰 기능을 사용하면 예기치 않은 동작을 사전 대응하고 AI 및 ML 시스템이 안정적이고 정확하며 공정하게 유지되도록 할 수 있습니다.

AI 및 ML 시스템의 관측 가능성을 구현하려면 다음 권장사항을 고려하세요.

지속적으로 실적 모니터링

배포 후 모델을 지속적으로 평가하기 위해 측정항목과 성공 기준을 사용합니다.

Vertex AI Model Monitoring을 사용하여 모델 성능을 사전 대응 방식으로 추적하고, 학습-제공 편향 및 예측 드리프트를 식별하고, 필요한 모델 재학습 또는 기타 개입을 트리거하는 알림을 받을 수 있습니다. 학습-서빙 편향을 효과적으로 모니터링하려면 이상적인 데이터 분포를 나타내는 골든 데이터 세트를 구성하고 TFDV를 사용하여 학습 데이터를 분석하고 기준 스키마를 설정하세요.

자동 편향 감지를 위해 입력 데이터의 분포를 골든 데이터 세트와 비교하도록 모델 모니터링을 구성합니다. 기존 ML 모델의 경우 정확도, 정밀도, 재현율, F1 점수, AUC-ROC, 로그 손실과 같은 측정항목에 집중하세요. Model Monitoring에서 알림의 맞춤 기준을 정의합니다. 생성형 AI의 경우 Gen AI Evaluation Service를 사용하여 프로덕션에서 모델 출력을 지속적으로 모니터링합니다. 응답 품질, 안전성, 요청 준수, 그라운딩, 글쓰기 스타일, 상세성에 대한 자동 평가 측정항목을 사용 설정할 수도 있습니다. 생성된 출력의 품질, 관련성, 안전성, 가이드라인 준수 여부를 평가하기 위해 human-in-the-loop 평가를 통합할 수 있습니다.

모델 모니터링에서 알림을 트리거할 때 Vertex AI Pipelines로 모델을 자동으로 재학습하는 피드백 루프를 만듭니다. 이러한 통계를 사용하여 모델을 지속적으로 개선하세요.

개발 중 모델 평가

LLM 및 기타 생성형 AI 모델을 배포하기 전에 개발 단계에서 철저히 평가하세요. Vertex AI 모델 평가를 사용하여 최적의 성능을 달성하고 위험을 완화하세요. Vertex AI 빠른 평가를 사용하여 제공한 데이터 세트와 프롬프트에 따라 평가를 자동으로 실행할 수 있습니다. Google Cloud

사용 사례에 특정한 맞춤 측정항목을 정의하고 통합할 수도 있습니다. 생성된 콘텐츠에 대한 의견을 받으려면 Vertex AI 모델 평가를 사용하여 인간 참여 워크플로를 통합하세요.

적대적 테스트를 사용하여 취약점과 잠재적인 실패 모드를 식별합니다. 잠재적인 편향을 식별하고 완화하려면 하위 그룹 분석 및 반사실적 생성과 같은 기법을 사용하세요. 개발 단계에서 완료된 평가에서 수집한 통계를 사용하여 프로덕션에서 모델 모니터링 전략을 정의합니다. 이 문서의 성능 지속적으로 모니터링 섹션에 설명된 대로 지속적인 모니터링을 위해 솔루션을 준비합니다.

사용 가능 여부 모니터링

배포된 엔드포인트와 인프라의 상태 및 성능을 파악하려면 Cloud Monitoring을 사용하세요. Vertex AI 엔드포인트의 경우 요청률, 오류율, 지연 시간, 리소스 사용률과 같은 주요 측정항목을 추적하고 비정상에 대한 알림을 설정합니다. 자세한 내용은 Vertex AI용 Cloud Monitoring 측정항목을 참고하세요.

Compute Engine 인스턴스, Google Kubernetes Engine (GKE) 클러스터, TPU 및 GPU를 포함할 수 있는 기본 인프라의 상태를 모니터링합니다. Active Assist에서 자동 최적화 추천을 받으세요. 자동 확장을 사용하는 경우 확장 동작을 모니터링하여 자동 확장이 트래픽 패턴의 변화에 적절하게 대응하는지 확인하세요.

Cloud Deploy를 Cloud Monitoring과 통합하여 카나리아 출시 및 롤백을 비롯한 모델 배포 상태를 추적합니다. 또한 Security Command Center를 사용하여 잠재적인 보안 위협과 취약점을 모니터링합니다.

비즈니스별 기준에 대한 맞춤 알림 설정

이상치와 문제를 적시에 식별하고 수정하려면 비즈니스 목표에 맞는 기준을 기반으로 맞춤 알림을 설정하세요. 맞춤 알림 시스템을 구현하는 데 사용할 수 있는 Google Cloud 제품의 예는 다음과 같습니다.

Cloud Logging: AI 및 ML 시스템의 모든 구성요소에서 로그를 수집, 저장, 분석합니다.
Cloud Monitoring: 주요 측정항목과 추세를 시각화하는 맞춤 대시보드를 만들고 필요에 따라 맞춤 측정항목을 정의합니다. 중요한 문제에 대한 알림을 받도록 알림을 구성하고 PagerDuty 또는 Slack과 같은 사고 관리 도구와 알림을 통합하세요.
Error Reporting: 오류 및 예외를 자동으로 캡처하고 분석합니다.
Cloud Trace: 분산 시스템의 성능을 분석하고 병목 현상을 식별합니다. 추적은 AI 및 ML 파이프라인의 여러 구성요소 간 지연 시간을 이해하는 데 특히 유용합니다.
Cloud Profiler: 프로덕션에서 코드의 성능을 지속적으로 분석하고 CPU 또는 메모리 사용량의 성능 병목 현상을 파악합니다.

운영 우수성 문화 구축

단순히 모델을 빌드하는 데서 벗어나 지속 가능하고 신뢰할 수 있으며 영향력 있는 AI 솔루션을 빌드하는 데 집중하세요. 팀이 지속적으로 학습하고, 혁신하고, 개선할 수 있도록 지원하여 개발 주기를 단축하고, 오류를 줄이고, 효율성을 높입니다. 자동화, 표준화, 윤리적 고려사항을 우선시하면 AI 및 ML 이니셔티브가 지속적으로 가치를 제공하고, 위험을 완화하며, 책임감 있는 AI 개발을 촉진할 수 있습니다.

AI 및 ML 시스템의 운영 우수성 문화를 구축하려면 다음 권장사항을 고려하세요.

자동화 및 표준화 옹호

효율성과 일관성을 강조하려면 AI 및 ML 수명 주기의 모든 단계에 자동화 및 표준화된 관행을 포함하세요. 자동화를 통해 수동 오류를 줄이고 팀이 혁신에 집중할 수 있습니다. 표준화를 통해 팀과 프로젝트 전반에서 프로세스를 반복하고 확장할 수 있습니다.

지속적인 학습과 개선 우선시

지속적인 교육과 실험이 핵심 원칙인 환경을 조성합니다. 팀이 AI 및 ML 발전에 대한 최신 정보를 파악하도록 장려하고 과거 프로젝트에서 학습할 기회를 제공합니다. 호기심과 적응의 문화는 혁신을 주도하고 팀이 새로운 과제에 대처할 수 있도록 지원합니다.

책임감과 주인의식 함양

명확하게 정의된 역할, 책임, 성공 측정항목을 통해 신뢰와 조화를 구축합니다. 팀이 이러한 경계 내에서 정보에 입각한 결정을 내릴 수 있도록 지원하고 진행 상황을 측정하는 투명한 방법을 마련하세요. 주인의식은 팀에 동기를 부여하고 결과에 대한 집단적 책임을 보장합니다.

AI 윤리 및 안전 고려사항 포함

개발의 모든 단계에서 윤리적 고려사항을 우선시합니다. 팀이 AI 솔루션의 영향에 대해 비판적으로 생각하도록 장려하고 공정성, 편향, 사회적 영향에 관한 토론을 촉진합니다. 명확한 원칙과 책임 메커니즘을 통해 AI 시스템이 조직의 가치에 부합하고 신뢰를 증진할 수 있습니다.

확장성을 고려하여 설계하기

증가하는 데이터 볼륨과 사용자 요구를 수용하고 AI 투자의 가치를 극대화하려면 AI 및 ML 시스템이 확장 가능해야 합니다. 시스템은 효과를 저해하는 성능 병목 현상을 방지하기 위해 적응하고 최적으로 작동해야 합니다. 확장성을 고려하여 설계하면 AI 인프라가 성장을 처리하고 응답성을 유지할 수 있습니다. 확장 가능한 인프라를 사용하고, 용량을 계획하고, 수평 확장 및 관리형 서비스와 같은 전략을 활용하세요.

확장성을 고려하여 AI 및 ML 시스템을 설계하려면 다음 권장사항을 고려하세요.

용량 및 할당량 계획

미래 성장을 평가하고 그에 따라 인프라 용량과 리소스 할당량을 계획합니다. 비즈니스 이해관계자와 협력하여 예상되는 성장률을 파악한 다음 그에 따라 인프라 요구사항을 정의합니다.

Cloud Monitoring을 사용하여 이전 리소스 사용률을 분석하고, 추세를 파악하고, 향후 요구사항을 예측합니다. 정기적으로 부하 테스트를 실행하여 워크로드를 시뮬레이션하고 병목 현상을 식별합니다.

Compute Engine, Vertex AI, Cloud Storage와 같이 사용하는 서비스의 Google Cloud 할당량을 숙지합니다. Google Cloud 콘솔을 통해 선제적으로 할당량 증가를 요청하고 예측 및 부하 테스트의 데이터를 사용하여 증가를 정당화합니다. 할당량 사용량을 모니터링하고 사용량이 할당량 한도에 가까워지면 알림을 받도록 알림을 설정합니다.

수요에 따라 리소스 사용량을 최적화하려면 리소스의 크기를 적절하게 조정하고, 내결함성 일괄 워크로드에 스팟 VM을 사용하고, 자동 확장을 구현하세요.

최고 이벤트 대비

시스템이 피크 이벤트 중에 트래픽이나 워크로드의 갑작스러운 급증을 처리할 수 있는지 확인합니다. 최고조 이벤트 전략을 문서화하고 정기적으로 훈련을 실시하여 시스템의 부하 증가 처리 능력을 테스트합니다.

수요가 급증할 때 리소스를 적극적으로 확장하려면 Compute Engine 및 GKE에서 자동 확장 정책을 구성하세요. 예측 가능한 피크 패턴의 경우 예측 자동 확장을 사용하는 것이 좋습니다. 애플리케이션별 신호를 기반으로 자동 확장을 트리거하려면 Cloud Monitoring에서 커스텀 측정항목을 사용하세요.

Cloud Load Balancing을 사용하여 여러 애플리케이션 인스턴스에 트래픽을 분산합니다. 애플리케이션의 요구사항에 따라 적절한 부하 분산기 유형을 선택합니다. 지리적으로 분산된 사용자의 경우 전역 부하 분산을 사용하여 트래픽을 사용 가능한 가장 가까운 인스턴스로 라우팅할 수 있습니다. 복잡한 마이크로서비스 기반 아키텍처의 경우 Cloud Service Mesh를 사용하는 것이 좋습니다.

Cloud CDN을 사용하여 Google 네트워크의 에지에서 정적 콘텐츠를 캐시합니다. 자주 액세스하는 데이터를 캐시하려면 Redis, Valkey 또는 Memcached용 완전 관리형 인메모리 서비스를 제공하는 Memorystore를 사용하면 됩니다.

실시간 메시징에는 Pub/Sub를 사용하고 비동기 작업 실행에는 Cloud Tasks를 사용하여 시스템 구성요소를 분리합니다.

프로덕션을 위한 애플리케이션 확장

프로덕션에서 확장 가능한 서빙을 보장하려면 Vertex AI 분산 학습 및 Vertex AI 추론과 같은 관리형 서비스를 사용하면 됩니다. Vertex AI 추론을 사용하면 모델을 엔드포인트에 배포하거나 배치 예측을 요청할 때 예측 노드의 머신 유형을 구성할 수 있습니다. 일부 구성의 경우 GPU를 추가할 수 있습니다. 적절한 머신 유형과 가속기를 선택하여 지연 시간, 처리량, 비용을 최적화합니다.

분산 컴퓨팅 리소스에서 복잡한 AI 및 Python 애플리케이션과 맞춤 워크로드를 확장하려면 Vertex AI 기반 Ray를 사용하면 됩니다. 이 기능을 사용하면 성능을 최적화하고Google Cloud 서비스와 원활하게 통합할 수 있습니다. Vertex AI의 Ray는 클러스터 관리, 작업 예약, 데이터 전송을 처리하여 분산 컴퓨팅을 간소화합니다. 학습, 예측, 파이프라인과 같은 다른 Vertex AI 서비스와 통합됩니다. Ray는 내결함성 및 자동 확장을 제공하며 변화하는 워크로드에 인프라를 적응시키는 데 도움이 됩니다. 분산 학습, 하이퍼파라미터 조정, 강화 학습, 모델 서빙을 위한 통합 프레임워크를 제공합니다. Dataflow 또는 Dataproc을 사용한 분산 데이터 사전 처리, 가속화된 모델 학습, 확장 가능한 하이퍼파라미터 조정, 강화 학습, 병렬화된 배치 예측에 Ray를 사용합니다.

참여자

저자:

샬럿 지스텔링크, PhD | 파트너 엔지니어
산야 당 | AI 솔루션 설계자
필리페 그라시오, 박사 | 고객 엔지니어

기타 참여자:

게리 하름슨 | 수석 설계자
저자: 쿠마르 다나고팔 | 크로스 프로덕트 솔루션 개발자
마르완 알 샤위 | 파트너 고객 엔지니어
라이언 콕스 | 수석 설계자
스테프 루이나드 | 생성형 AI 현장 솔루션 설계자

개요

보안

AI 및 ML 관점: 운영 우수성 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.