Well-Architected Framework: AI 및 ML 관점의 이 문서에서는 ML 수명 주기 전반에서 AI 시스템의 비용을 최적화하기 위한 원칙과 권장사항을 간략하게 설명합니다. 선제적이고 정보에 입각한 비용 관리 접근 방식을 채택하면 조직에서 AI 및 ML 시스템의 잠재력을 최대한 실현하고 재정 규율을 유지할 수 있습니다. 이 문서의 권장사항은 Google Cloud Well-Architected Framework의 비용 최적화 필러와 일치합니다.
AI 및 ML 시스템은 데이터에서 유용한 통계와 예측 기능을 확보하는 데 도움이 됩니다. 예를 들어 내부 프로세스의 어려움을 줄이고, 사용자 환경을 개선하고, 고객에 대한 더 깊은 통계를 얻을 수 있습니다. 클라우드는 AI 및 ML 워크로드에 대한 대규모 선행 투자 없이도 방대한 리소스와 빠른 가치 창출 시간을 제공합니다. 비즈니스 가치를 극대화하고 지출을 비즈니스 목표에 맞추려면 비용 동인을 파악하고, 비용을 사전 대응적으로 최적화하고, 지출 관리를 설정하고, FinOps 관행을 채택해야 합니다.
이 문서의 권장사항은 다음 핵심 원칙에 매핑됩니다.
비용 및 수익 정의 및 측정
Google Cloud에서 AI 및 ML 비용을 효과적으로 관리하려면 클라우드 리소스 비용과 AI 및 ML 이니셔티브의 비즈니스 가치를 정의하고 측정해야 합니다. 세부적으로 비용을 추적할 수 있도록 Google Cloud 에서는 다음과 같은 포괄적인 결제 및 비용 관리 도구를 제공합니다.
- Cloud Billing 보고서 및 표
- Looker Studio 대시보드, 예산, 알림
- Cloud Monitoring
- Cloud Logging
리소스 할당 및 최적화에 대해 정보에 입각한 결정을 내리려면 다음 권장사항을 고려하세요.
비즈니스 목표 및 KPI 설정
AI 및 ML 프로젝트의 기술적 선택을 비즈니스 목표 및 핵심성과지표 (KPI)와 일치시킵니다.
전략적 목표와 ROI 중심 KPI 정의
AI 및 ML 프로젝트가 수익 증대, 비용 절감, 고객 만족도, 효율성과 같은 전략적 목표와 일치하는지 확인합니다. 비즈니스 우선순위를 파악하기 위해 이해관계자와 소통합니다. 구체적이고, 측정 가능하며, 달성 가능하고, 관련성이 있으며, 기한이 정해진 (SMART) AI 및 ML 목표를 정의합니다. 예를 들어 SMART 목표는 'AI 챗봇을 사용하여 6개월 내에 고객 지원 채팅 처리 시간을 15% 단축'입니다.
비즈니스 목표를 달성하고 투자수익 (ROI)을 측정하려면 다음 카테고리의 측정항목에 대한 KPI를 정의하세요.
- 특정 단위 비용 (예: 추론, 데이터 포인트 또는 작업당 비용)을 포함한 학습, 추론, 스토리지, 네트워크 리소스 비용 이러한 측정항목은 효율성 및 비용 최적화 기회에 대한 유용한 정보를 얻는 데 도움이 됩니다. Cloud Billing 보고서 및 Cloud Monitoring 대시보드를 사용하여 이러한 비용을 추적할 수 있습니다.
- 수익 성장, 비용 절감, 고객 만족도, 효율성, 정확성, 채택과 같은 비즈니스 가치 측정항목 BigQuery 분석 및 Looker 대시보드를 사용하여 이러한 측정항목을 추적할 수 있습니다.
다음과 같은 업종별 측정항목
- 소매업: 수익 상승도 및 이탈 측정
- 의료 업계: 환자 시간 및 환자 치료 결과 측정
- 금융 업계: 사기 감소 측정
프로젝트별 측정항목입니다. Vertex AI Experiments 및 평가를 사용하여 이러한 측정항목을 추적할 수 있습니다.
- 예측 AI: 정확도 및 정밀도 측정
- 생성형 AI: 도입, 만족도, 콘텐츠 품질 측정
- 컴퓨터 비전 AI: 정확도 측정
비용 인식 및 지속적인 최적화 문화 조성
FinOps 원칙을 채택하여 각 AI 및 ML 프로젝트에 예상 비용이 있고 수명 주기 전반에 걸쳐 실제 비용을 측정하고 추적할 수 있는 방법을 마련합니다. 프로젝트의 비용과 비즈니스 이점에 소유자가 할당되어 있고 책임이 명확한지 확인합니다.
자세한 내용은 Google Cloud Well-Architected 프레임워크의 비용 최적화 필라에 있는 비용 인식 문화 조성을 참고하세요.
반복과 피드백을 통해 가치를 창출하고 지속적으로 최적화
AI 및 ML 애플리케이션을 비즈니스 목표에 직접 매핑하고 ROI를 측정합니다.
ROI 가설을 검증하려면 파일럿 프로젝트를 시작하고 다음 반복 최적화 주기를 사용하세요.
- 지속적으로 모니터링하고 데이터 분석: KPI와 비용을 모니터링하여 편차와 최적화 기회를 파악합니다.
- 데이터 기반 조정: 데이터 통계를 기반으로 전략, 모델, 인프라, 리소스 할당을 최적화합니다.
- 반복적으로 개선: 학습한 내용과 변화하는 비즈니스 요구사항에 따라 비즈니스 목표와 KPI를 조정합니다. 이 반복을 통해 관련성과 전략적 일관성을 유지할 수 있습니다.
- 피드백 루프 설정: 이해관계자와 함께 실적, 비용, 가치를 검토하여 지속적인 최적화 및 향후 프로젝트 계획에 반영합니다.
Cloud Billing 및 라벨로 결제 데이터 관리
효과적인 비용 최적화를 위해서는 각 비용 요소의 소스를 파악할 수 있어야 합니다. 이 섹션의 권장사항을 따르면 Google Cloud도구를 사용하여 AI 및 ML 비용에 대한 세부정보를 파악할 수 있습니다. 특정 AI 및 ML 프로젝트, 팀, 활동에 비용을 귀속시킬 수도 있습니다. 이러한 통계는 비용 최적화를 위한 기반을 마련합니다.
Google Cloud 리소스 정리 및 라벨 지정
- 조직 구조와 AI 및 ML 워크플로를 반영하는 계층 구조로 프로젝트와 리소스를 구성합니다. 다양한 수준에서 비용을 추적하고 분석하려면 조직, 폴더, 프로젝트를 사용하여 Google Cloud 리소스를 구성하세요. 자세한 내용은 Google Cloud 시작 영역의 리소스 계층 구조 결정을 참고하세요.
- 리소스에 의미 있는 라벨을 적용합니다. 프로젝트, 팀, 환경, 모델 이름, 데이터 세트, 사용 사례, 성능 요구사항을 나타내는 라벨을 사용할 수 있습니다. 라벨은 결제 데이터에 유용한 컨텍스트를 제공하고 세분화된 비용 분석을 지원합니다.
- 모든 AI 및 ML 프로젝트에서 라벨 지정 규칙의 일관성을 유지합니다. 일관된 라벨 지정 규칙을 사용하면 청구 데이터가 정리되어 쉽게 분석할 수 있습니다.
결제 관련 도구 사용
- 자세한 분석 및 보고를 위해 결제 데이터를 BigQuery로 내보내기 BigQuery에는 비용을 파악하는 데 도움이 되는 청구 데이터를 분석할 수 있는 강력한 쿼리 기능이 있습니다.
- 라벨, 프로젝트 또는 특정 기간별로 비용을 집계하려면 BigQuery에서 맞춤 SQL 쿼리를 작성하면 됩니다. 이러한 쿼리를 사용하면 모델 학습, 하이퍼파라미터 조정 또는 추론과 같은 특정 AI 및 ML 활동에 비용을 귀속시킬 수 있습니다.
- 비용 이상치 또는 예상치 못한 지출 급증을 파악하려면 BigQuery의 분석 기능을 사용하세요. 이 접근 방식을 사용하면 AI 및 ML 워크로드의 잠재적인 문제나 비효율성을 감지할 수 있습니다.
- 예상치 못한 비용을 파악하고 관리하려면 Cloud Billing의 이상 감지 대시보드를 사용하세요.
- 리소스 사용량을 기준으로 여러 팀 또는 부서에 비용을 분배하려면 Google Cloud의 비용 할당 기능을 사용하세요. 비용 할당은 책임성과 투명성을 증진합니다.
- 지출 패턴을 파악하려면 사전 빌드된 Cloud Billing 보고서를 살펴보세요. 이러한 보고서를 필터링하고 맞춤설정하여 특정 AI 및 ML 프로젝트 또는 서비스에 집중할 수 있습니다.
대시보드, 알림, 보고서로 리소스를 지속적으로 모니터링
비용을 추적하는 확장 가능하고 탄력적인 방법을 만들려면 지속적인 모니터링과 보고가 필요합니다. 대시보드, 알림, 보고서는 효과적인 비용 추적의 기반을 구성합니다. 이 기반을 통해 비용 정보에 지속적으로 액세스하고, 최적화 영역을 파악하고, 비즈니스 목표와 비용 간의 일관성을 유지할 수 있습니다.
신고 시스템 만들기
예약된 보고서를 만들어 적절한 이해관계자와 공유합니다.
Cloud Monitoring을 사용하여 애플리케이션, 인프라, Google Cloud Compute Engine, Google Kubernetes Engine (GKE), Cloud Run 함수와 같은 서비스 등 다양한 소스에서 측정항목을 수집합니다. 측정항목과 로그를 실시간으로 시각화하려면 사전 빌드된 Cloud Monitoring 대시보드를 사용하거나 맞춤 대시보드를 만들면 됩니다. 맞춤 대시보드를 사용하면 모델 성능, API 호출, 비즈니스 수준 KPI와 같은 시스템의 특정 측면을 추적하는 측정항목을 정의하고 추가할 수 있습니다.
Cloud Logging을 사용하여 애플리케이션, 시스템, Google Cloud 서비스의 로그를 중앙에서 수집하고 저장합니다. 다음과 같은 목적으로 로그를 사용합니다.
- CPU, 메모리, 스토리지, 네트워크와 같은 리소스의 비용과 사용률을 추적합니다.
- 과도한 프로비저닝 (리소스가 완전히 활용되지 않음) 및 부족한 프로비저닝 (리소스가 부족함) 사례를 식별합니다. 과도한 프로비저닝은 불필요한 비용을 발생시킵니다. 프로비저닝 부족은 학습 시간을 늦추고 성능 문제를 일으킬 수 있습니다.
- VM, GPU와 같은 유휴 리소스 또는 사용률이 낮은 리소스를 식별하고 비용을 최적화하기 위해 이러한 리소스를 종료하거나 크기를 조정하는 단계를 따릅니다.
- 비용 급증을 식별하여 리소스 사용량 또는 비용의 갑작스럽고 예상치 못한 증가를 감지합니다.
Looker 또는 Looker Studio를 사용하여 대화형 대시보드와 보고서를 만드세요. 대시보드와 보고서를 BigQuery, Cloud Monitoring 등 다양한 데이터 소스에 연결합니다.
주요 KPI를 기반으로 알림 기준 설정
KPI에 대해 알림을 트리거해야 하는 기준을 결정합니다. 의미 있는 알림 기준을 사용하면 알림 피로를 방지할 수 있습니다. Cloud Monitoring에서 알림 정책을 만들어 KPI와 관련된 알림을 받습니다. 예를 들어 정확도가 특정 기준 미만으로 떨어지거나 지연 시간이 정의된 한도를 초과할 때 알림을 받을 수 있습니다. 로그 데이터를 기반으로 하는 알림은 잠재적인 비용 문제를 실시간으로 알려줍니다. 이러한 알림을 통해 즉시 수정 조치를 취하고 추가적인 금전적 손실을 방지할 수 있습니다.
리소스 할당 최적화
Google Cloud에서 AI 및 ML 워크로드의 비용 효율성을 달성하려면 리소스 할당을 최적화해야 합니다. 불필요한 비용을 방지하고 워크로드가 최적으로 실행하는 데 필요한 리소스를 확보하려면 리소스 할당을 워크로드의 요구사항에 맞추세요.
AI 및 ML 워크로드에 클라우드 리소스 할당을 최적화하려면 다음 권장사항을 고려하세요.
자동 확장을 사용하여 리소스를 동적으로 조정
자동 확장을 지원하는 Google Cloud 서비스를 사용하여 현재 수요에 맞게 리소스 할당을 자동으로 조정합니다. 자동 확장은 다음과 같은 이점을 제공합니다.
- 비용 및 성능 최적화: 유휴 리소스에 대한 비용을 지불하지 않습니다. 동시에 자동 확장 기능을 사용하면 최대 부하에서도 시스템이 최적으로 작동하는 데 필요한 리소스를 확보할 수 있습니다.
- 효율성 향상: 팀이 다른 작업에 집중할 수 있습니다.
- 민첩성 향상: 변화하는 요구사항에 신속하게 대응하고 애플리케이션의 고가용성을 유지할 수 있습니다.
다음 표에는 AI 프로젝트의 다양한 단계에서 자동 확장 기능을 구현하는 데 사용할 수 있는 기법이 요약되어 있습니다.
단계 | 자동 확장 기법 |
---|---|
학습 | |
추론 |
|
소규모 모델 및 데이터 세트로 시작
비용을 절감하려면 가능할 때 소규모로 ML 가설을 테스트하고 반복적 접근 방식을 사용하세요. 이 접근 방식은 더 작은 모델과 데이터 세트를 사용하여 다음과 같은 이점을 제공합니다.
- 처음부터 비용 절감: 컴퓨팅 성능, 스토리지, 처리 시간이 줄어 초기 실험 및 개발 단계에서 비용이 절감될 수 있습니다.
- 더 빠른 반복: 학습 시간이 적게 필요하므로 더 빠르게 반복하고, 대체 접근 방식을 탐색하고, 유망한 방향을 더 효율적으로 식별할 수 있습니다.
- 복잡성 감소: 디버깅, 분석, 결과 해석이 간소화되어 개발 주기가 단축됩니다.
- 효율적인 리소스 활용: 리소스 오버 프로비저닝 가능성 감소 현재 워크로드에 필요한 리소스만 프로비저닝합니다.
다음 권장사항을 고려하세요.
- 먼저 샘플 데이터 사용: 데이터의 대표 하위 집합으로 모델을 학습시킵니다. 이 접근 방식을 사용하면 전체 데이터 세트를 처리하지 않고도 모델의 성능을 평가하고 잠재적인 문제를 식별할 수 있습니다.
- 노트북을 사용하여 실험: 작은 인스턴스로 시작하여 필요에 따라 확장합니다. 다양한 모델 아키텍처와 데이터 세트를 실험하는 데 적합한 관리형 Jupyter 노트북 환경인 Vertex AI Workbench를 사용할 수 있습니다.
더 간단하거나 선행 학습된 모델로 시작: Vertex AI Model Garden을 사용하여 선행 학습된 모델을 살펴봅니다. 이러한 모델은 컴퓨팅 리소스가 적게 필요합니다. 성능 요구사항에 따라 필요에 따라 복잡성을 점진적으로 높입니다.
- 이미지 분류, 자연어 처리와 같은 작업에 선행 학습된 모델을 사용합니다. 학습 비용을 절감하려면 처음에는 더 작은 데이터 세트로 모델을 미세 조정하면 됩니다.
- 구조화된 데이터에는 BigQuery ML을 사용합니다. BigQuery ML을 사용하면 BigQuery 내에서 직접 모델을 만들고 배포할 수 있습니다. BigQuery의 쿼리당 지불 가격 책정 모델을 활용할 수 있으므로 이 접근 방식은 초기 실험에 비용 효율적일 수 있습니다.
리소스 최적화를 위한 확장: Google Cloud의 유연한 인프라를 사용하여 필요에 따라 리소스를 확장합니다. 작은 인스턴스로 시작하고 필요한 경우 크기나 수를 조정합니다.
실험을 통해 리소스 요구사항 파악
AI 및 ML 워크로드의 리소스 요구사항은 크게 다를 수 있습니다. 리소스 할당과 비용을 최적화하려면 체계적인 실험을 통해 워크로드의 구체적인 요구사항을 파악해야 합니다. 모델에 가장 효율적인 구성을 파악하려면 다양한 구성을 테스트하고 성능을 분석하세요. 그런 다음 요구사항에 따라 학습 및 서빙에 사용한 리소스의 크기를 적절하게 조정합니다.
실험에는 다음 접근 방식을 사용하는 것이 좋습니다.
- 기준으로 시작: 워크로드 요구사항의 초기 추정치를 기반으로 기준 구성으로 시작합니다. 기준을 만들려면 새 워크로드의 비용 추정기를 사용하거나 기존 청구 보고서를 사용하면 됩니다. 자세한 내용은 Google Cloud에서 엔터프라이즈 AI의 실제 비용 알아보기를 참고하세요.
- 할당량 파악: 광범위한 실험을 시작하기 전에 사용할 리소스 및 API의 Google Cloud 프로젝트할당량을 숙지하세요. 할당량에 따라 실제로 테스트할 수 있는 구성 범위가 결정됩니다. 할당량을 숙지하면 실험 단계에서 사용 가능한 리소스 한도 내에서 작업할 수 있습니다.
- 체계적으로 실험: CPU 수, 메모리 양, GPU 및 TPU 수와 유형, 스토리지 용량과 같은 매개변수를 조정합니다. Vertex AI 학습 및 Vertex AI 예측을 사용하면 다양한 머신 유형과 구성을 실험할 수 있습니다.
사용률, 비용, 성능 모니터링: 실험하는 각 구성에 대해 리소스 사용률, 비용, 주요 성능 측정항목(예: 학습 시간, 추론 지연 시간, 모델 정확도)을 추적합니다.
- 리소스 사용량과 성능 측정항목을 추적하려면 Vertex AI 콘솔을 사용하면 됩니다.
- 자세한 성능 측정항목을 수집하고 분석하려면 Cloud Monitoring을 사용하세요.
- 비용을 확인하려면 Cloud Billing 보고서 및 Cloud Monitoring 대시보드를 사용하세요.
- 모델의 성능 병목 현상을 식별하고 리소스 사용률을 최적화하려면 Vertex AI TensorBoard와 같은 프로파일링 도구를 사용하세요.
비용 분석: 각 구성의 비용과 성능을 비교하여 가장 비용 효율적인 옵션을 파악합니다.
할당량을 기반으로 리소스 한계 및 개선 목표 설정: 상당한 비용 증가에 비해 학습 시간이나 지연 시간이 최소한으로 감소하는 등 확장으로 인해 성능이 감소하는 시점을 나타내는 한계를 정의합니다. 이러한 기준점을 설정할 때는 프로젝트 할당량을 고려하세요. 추가 확장으로 인한 비용과 잠재적인 할당량 영향이 더 이상 실적 향상으로 정당화되지 않는 지점을 파악합니다.
반복적으로 개선: 실험 결과를 바탕으로 개선된 구성으로 실험 과정을 반복합니다. 항상 리소스 사용량이 할당된 할당량 내에 있고 설정된 비용 편익 기준과 일치하는지 확인하세요.
MLOps를 사용하여 비효율성 줄이기
조직에서 혁신과 효율성을 높이기 위해 ML을 사용하는 사례가 늘면서 ML 수명 주기를 효과적으로 관리하는 것이 중요해졌습니다. ML 작업 (MLOps)은 모델 개발부터 배포 및 모니터링에 이르기까지 ML 수명 주기를 자동화하고 간소화하는 일련의 방식입니다.
비용 요인에 MLOps 맞추기
비용 효율성을 위해 MLOps를 활용하려면 ML 수명 주기의 주요 비용 동인을 파악하세요. 그런 다음 비용 동인에 맞는 MLOps 관행을 채택하고 구현할 수 있습니다. 가장 큰 영향을 미치는 비용 동인을 해결하는 MLOps 기능을 우선적으로 채택합니다. 이 접근 방식을 사용하면 상당한 비용 절감을 달성하기 위한 관리 가능하고 성공적인 경로를 확보할 수 있습니다.
비용 최적화를 위한 MLOps 구현
다음은 비용을 절감하는 데 도움이 되는 일반적인 MLOps 사례입니다.
- 버전 관리: Git과 같은 도구를 사용하면 코드, 데이터, 모델의 버전을 추적할 수 있습니다. 버전 관리는 재현성을 보장하고, 공동작업을 촉진하며, 버전 관리 문제로 인해 발생할 수 있는 비용이 많이 드는 재작업을 방지합니다.
- 지속적 통합 및 지속적 배포 (CI/CD): Cloud Build 및 Artifact Registry를 사용하면 CI/CD 파이프라인을 구현하여 ML 모델의 빌드, 테스트, 배포를 자동화할 수 있습니다. CI/CD 파이프라인은 효율적인 리소스 활용을 보장하고 수동 개입과 관련된 비용을 최소화합니다.
- 관측 가능성: Cloud Monitoring 및 Cloud Logging을 사용하면 프로덕션 환경에서 모델 성능을 추적하고, 문제를 식별하고, 사전 개입을 위한 알림을 트리거할 수 있습니다. 관측 가능성을 통해 모델 정확도를 유지하고, 리소스 할당을 최적화하고, 비용이 많이 드는 다운타임이나 성능 저하를 방지할 수 있습니다.
- 모델 재학습: Vertex AI Pipelines는 모델을 주기적으로 또는 성능이 저하될 때 재학습하는 프로세스를 간소화합니다. Vertex AI Pipelines를 재학습에 사용하면 모델의 정확성과 효율성을 유지할 수 있어 불필요한 리소스 소비를 방지하고 최적의 성능을 유지할 수 있습니다.
- 자동화된 테스트 및 평가: Vertex AI를 사용하면 모델 평가를 가속화하고 표준화할 수 있습니다. ML 수명 주기 전반에 걸쳐 자동화된 테스트를 구현하여 모델의 품질과 신뢰성을 보장합니다. 이러한 테스트는 오류를 조기에 포착하고, 프로덕션에서 비용이 많이 드는 문제를 방지하며, 광범위한 수동 테스트의 필요성을 줄이는 데 도움이 됩니다.
자세한 내용은 MLOps: 머신러닝의 지속적 배포 및 자동화 파이프라인을 참고하세요.
데이터 관리 및 거버넌스 관행 시행
효과적인 데이터 관리 및 거버넌스 관행은 비용 최적화에 매우 중요합니다. 데이터가 잘 정리되어 있으면 팀에서 데이터 세트를 재사용하고, 불필요한 중복을 피하고, 고품질 데이터를 얻기 위한 노력을 줄일 수 있습니다. 데이터를 사전 대응 방식으로 관리하면 스토리지 비용을 절감하고 데이터 품질을 개선하며 ML 모델이 가장 관련성 있고 가치 있는 데이터로 학습되도록 할 수 있습니다.
데이터 관리 및 거버넌스 관행을 구현하려면 다음 권장사항을 고려하세요.
데이터 거버넌스 프레임워크 수립 및 채택
AI와 ML의 중요성이 커짐에 따라 디지털 혁신을 진행하는 조직에서 데이터가 가장 가치 있는 자산이 되었습니다. 데이터 거버넌스를 위한 강력한 프레임워크는 대규모로 AI 및 ML 워크로드를 비용 효율적으로 관리하는 데 중요한 요구사항입니다. 정책, 절차, 역할이 명확하게 정의된 데이터 거버넌스 프레임워크는 수명 주기 전반에 걸쳐 데이터를 관리하는 구조화된 접근 방식을 제공합니다. 이러한 프레임워크는 데이터 품질을 개선하고, 보안을 강화하며, 활용도를 높이고, 중복을 줄이는 데 도움이 됩니다.
데이터 거버넌스 프레임워크 설정
EDM Council에서 게시한 프레임워크와 같이 데이터 거버넌스를 위한 기존 프레임워크가 많이 있으며, 다양한 업계와 조직 규모에 맞는 옵션을 사용할 수 있습니다. 특정 요구사항과 우선순위에 맞는 프레임워크를 선택하고 적용하세요.
데이터 거버넌스 프레임워크 구현
Google Cloud 는 강력한 데이터 거버넌스 프레임워크를 구현하는 데 도움이 되는 다음과 같은 서비스와 도구를 제공합니다.
Dataplex 범용 카탈로그는 분산된 데이터를 통합하고 한곳에 데이터 세트를 통합하지 않고도 데이터 거버넌스를 자동화할 수 있도록 지원하는 지능형 데이터 패브릭입니다. 이렇게 하면 데이터를 배포하고 유지하는 비용을 줄이고, 데이터 검색을 용이하게 하며, 재사용을 촉진할 수 있습니다.
- 데이터를 정리하려면 Dataplex 범용 카탈로그 추상화를 사용하고 논리 데이터 레이크 및 영역을 설정합니다.
- 데이터 레이크 및 영역에 대한 액세스를 관리하려면 Google 그룹 및 Dataplex 범용 카탈로그 역할을 사용하세요.
- 데이터 품질 프로세스를 간소화하려면 자동 데이터 품질을 사용 설정하세요.
Dataplex 범용 카탈로그는 완전 관리형의 확장 가능한 메타데이터 관리 서비스이기도 합니다. 카탈로그는 데이터 애셋에 액세스할 수 있고 재사용할 수 있도록 하는 기반을 제공합니다.
- 지원되는 Google Cloud 소스의 메타데이터는 범용 카탈로그에 자동으로 수집됩니다. Google Cloud외부의 데이터 소스의 경우 맞춤 항목을 만듭니다.
- 데이터 애셋의 검색 가능성과 관리 기능을 개선하려면 관점을 사용하여 비즈니스 메타데이터로 기술 메타데이터를 보강하세요.
- 데이터 과학자와 ML 실무자가 Dataplex 범용 카탈로그에 액세스하고 검색 기능을 사용할 수 있는 충분한 권한이 있는지 확인합니다.
BigQuery 공유를 사용하면 조직 전체에서 데이터 애셋을 효율적이고 안전하게 교환하여 데이터 안정성과 비용 문제를 해결할 수 있습니다.
ML 수명 주기 전반에서 데이터 세트와 기능을 재사용할 수 있도록 지원
효율성과 비용을 크게 절감하려면 여러 ML 프로젝트에서 데이터 세트와 기능을 재사용하세요. 중복된 데이터 엔지니어링 및 기능 개발 노력을 피하면 조직에서 모델 개발을 가속화하고, 인프라 비용을 절감하고, 다른 중요한 작업을 위해 귀중한 리소스를 확보할 수 있습니다.
Google Cloud 는 데이터 세트와 기능을 재사용하는 데 도움이 되는 다음과 같은 서비스와 도구를 제공합니다.
- 데이터 및 ML 실무자는 데이터 제품을 게시하여 여러 팀에서 재사용할 수 있도록 극대화할 수 있습니다. 그러면 Dataplex 범용 카탈로그 및 BigQuery 공유를 통해 데이터 제품을 검색하고 사용할 수 있습니다.
- 표 형식 및 구조화된 데이터 세트의 경우 Vertex AI Feature Store를 사용하여 재사용성을 높이고 BigQuery를 통해 특성 관리를 간소화할 수 있습니다.
- Cloud Storage에 비정형 데이터를 저장하고 BigQuery 객체 테이블 및 서명된 URL을 사용하여 데이터를 관리할 수 있습니다.
- 벡터 검색 색인에 메타데이터를 포함하여 벡터 임베딩을 관리할 수 있습니다.
MLOps로 자동화 및 간소화
MLOps 관행을 도입하면 기술 및 인력 비용을 절감할 수 있습니다. 자동화를 사용하면 ML 활동의 중복을 방지하고 데이터 과학자와 ML 엔지니어의 워크로드를 줄일 수 있습니다.
MLOps로 ML 개발을 자동화하고 간소화하려면 다음 권장사항을 고려하세요.
데이터 수집 및 처리 자동화 및 표준화
ML 개발 노력과 시간을 줄이려면 데이터 수집 및 처리 기술을 자동화하고 표준화하세요.
데이터 수집 및 처리 자동화
이 섹션에서는 데이터 수집 및 처리를 자동화하는 데 사용할 수 있는 제품, 도구, 기법을 간략하게 설명합니다.
AI 및 ML 작업에 적합한 데이터 소스를 식별하고 선택합니다.
- Cloud SQL, Spanner, PostgreSQL용 AlloyDB, Firestore, BigQuery와 같은 데이터베이스 옵션 선택은 쓰기 액세스(정적 또는 동적)의 지연 시간, 데이터 볼륨 (높음 또는 낮음), 데이터 형식(구조화, 구조화되지 않음 또는 반구조화)과 같은 요구사항에 따라 달라집니다. 자세한 내용은 Google Cloud 데이터베이스를 참고하세요.
- BigLake가 있는 Cloud Storage와 같은 데이터 레이크
- Dataplex 범용 카탈로그: 여러 소스의 데이터를 관리합니다.
- Pub/Sub, Dataflow 또는 Apache Kafka와 같은 스트리밍 이벤트 플랫폼
- 외부 API
각 데이터 소스에 대해 수집 도구를 선택합니다.
- Dataflow: 다양한 소스의 데이터를 일괄 및 스트림 처리하고 ML 구성요소를 통합합니다. 이벤트 기반 아키텍처의 경우 Dataflow를 Eventarc와 결합하여 ML 데이터를 효율적으로 처리할 수 있습니다. MLOps 및 ML 작업 효율성을 향상하려면 GPU 및 적합 맞춤 기능을 사용하세요.
- Cloud Run 함수: 실시간 애플리케이션의 데이터 소스 변경으로 트리거되는 이벤트 기반 데이터 수집에 사용됩니다.
- BigQuery: 자주 액세스하는 기존 표 형식 데이터 수집에 적합합니다.
데이터 변환 및 로드 도구를 선택합니다.
- Dataflow 또는 Dataform과 같은 도구를 사용하여 특성 스케일링, 범주형 변수 인코딩, 일괄, 스트리밍 또는 실시간으로 새 특성 생성과 같은 데이터 변환을 자동화합니다. 선택하는 도구는 요구사항과 선택한 서비스에 따라 달라집니다.
- Vertex AI Feature Store를 사용하여 특성 생성 및 관리를 자동화합니다. 여러 모델과 프로젝트에서 재사용할 수 있도록 기능을 중앙 집중화할 수 있습니다.
데이터 수집 및 처리 표준화
데이터 애셋을 검색, 파악, 관리하려면 Dataplex 범용 카탈로그와 같은 메타데이터 관리 서비스를 사용하세요. 데이터 정의를 표준화하고 조직 전체에서 일관성을 유지하는 데 도움이 됩니다.
표준화를 적용하고 여러 맞춤 구현을 유지하는 비용을 방지하려면 자동화된 학습 파이프라인과 오케스트레이션을 사용하세요. 자세한 내용은 다음 섹션을 참고하세요.
학습 파이프라인 자동화 및 기존 애셋 재사용
MLOps의 효율성과 생산성을 높이려면 자동화된 학습 파이프라인이 중요합니다. Google Cloud 는 기존 애셋 재사용을 중점적으로 고려하여 학습 파이프라인을 빌드하고 배포할 수 있는 강력한 도구 및 서비스 세트를 제공합니다. 자동화된 학습 파이프라인은 모델 개발을 가속화하고, 일관성을 보장하며, 중복된 노력을 줄이는 데 도움이 됩니다.
학습 파이프라인 자동화
다음 표에서는 학습 파이프라인의 다양한 기능을 자동화하는 데 사용할 수 있는 Google Cloud 서비스와 기능을 설명합니다.
함수 | Google Cloud 서비스 및 기능 |
---|---|
조정: 여러 단계와 종속 항목으로 구성된 복잡한 ML 워크플로를 정의합니다. 각 단계를 별도의 컨테이너화된 작업으로 정의할 수 있으므로 개별 작업을 쉽게 관리하고 확장할 수 있습니다. |
|
버전 관리: 파이프라인과 구성요소의 다양한 버전을 추적하고 관리하여 재현성과 감사 가능성을 보장합니다. | Artifact Registry의 Kubeflow Pipelines 저장소에 Kubeflow 파이프라인 템플릿을 저장합니다. |
재사용성: 준비된 데이터 세트와 학습된 모델과 같은 기존 파이프라인 구성요소와 아티팩트를 재사용하여 개발 속도를 높입니다. | Cloud Storage에 파이프라인 템플릿을 저장하고 조직 전체에서 공유합니다. |
모니터링: 파이프라인 실행을 모니터링하여 문제를 식별하고 해결합니다. | Cloud Logging 및 Cloud Monitoring 사용 자세한 내용은 대시보드, 알림, 보고서로 리소스 지속적으로 모니터링을 참고하세요. |
파이프라인을 넘어 재사용성 확장
학습 파이프라인을 넘어 재사용성을 확장할 기회를 찾습니다. 다음은 ML 기능, 데이터 세트, 모델, 코드를 재사용할 수 있는 Google Cloud 기능의 예입니다.
- Vertex AI Feature Store는 ML 특성을 구성, 저장, 제공할 수 있는 중앙 집중식 저장소를 제공합니다. 이를 통해 여러 프로젝트와 모델에서 기능을 재사용할 수 있으므로 일관성을 개선하고 특성 추출 노력을 줄일 수 있습니다. 온라인 및 오프라인 사용 사례 모두에 대해 기능을 저장, 공유, 액세스할 수 있습니다.
- Vertex AI 데이터 세트를 사용하면 팀에서 데이터 세트를 중앙에서 생성하고 관리할 수 있으므로 조직에서 재사용성을 극대화하고 데이터 중복을 줄일 수 있습니다. 팀에서 Dataplex 범용 카탈로그를 사용하여 데이터 세트를 검색하고 탐색할 수 있습니다.
- Vertex AI Model Registry를 사용하면 학습된 모델을 저장, 관리, 배포할 수 있습니다. 모델 레지스트리를 사용하면 후속 파이프라인이나 온라인 예측에서 모델을 재사용할 수 있으므로 이전 학습 노력을 활용할 수 있습니다.
- 커스텀 컨테이너를 사용하면 학습 코드와 종속 항목을 컨테이너에 패키징하고 컨테이너를 Artifact Registry에 저장할 수 있습니다. 커스텀 컨테이너를 사용하면 다양한 파이프라인과 프로젝트에서 일관되고 재현 가능한 학습 환경을 제공할 수 있습니다.
모델 평가 및 조정에 Google Cloud 서비스 사용
Google Cloud 은 모델 평가 및 조정을 간소화하고 자동화하는 강력한 도구 및 서비스 모음을 제공합니다. 이러한 도구와 서비스를 사용하면 프로덕션까지 걸리는 시간을 줄이고 지속적인 학습 및 모니터링에 필요한 리소스를 줄일 수 있습니다. 이러한 서비스를 사용하면 AI 및 ML 팀이 비용이 많이 드는 반복을 줄여 모델 성능을 개선하고, 더 빠른 결과를 얻고, 낭비되는 컴퓨팅 리소스를 최소화할 수 있습니다.
리소스 효율적인 모델 평가 및 실험 사용
솔루션을 확장하기 전에 실험을 통해 AI 프로젝트를 시작하세요. 실험에서 데이터 세트 버전, 모델 매개변수, 모델 유형과 같은 다양한 메타데이터를 추적합니다. 결과의 재현성과 비교를 높이려면 Git의 기능과 유사한 코드 버전 관리 외에 메타데이터 추적을 사용하세요. 정보가 누락되거나 프로덕션에 잘못된 버전이 배포되지 않도록 하려면 대규모 배포 또는 학습 작업을 구현하기 전에 Vertex AI 실험을 사용하세요.
Vertex AI Experiments를 사용하면 다음 작업을 할 수 있습니다.
- 프로덕션 준비가 완료된 워크로드를 위해 사용자 친화적인 UI와 API를 통해 메타데이터 추적 및 검색을 간소화하고 자동화합니다.
- 모델의 성능 측정항목을 분석하고 여러 모델의 측정항목을 비교합니다.
모델을 학습시킨 후에는 시간이 지남에 따라 수신 데이터의 성능과 데이터 드리프트를 지속적으로 모니터링합니다. 이 프로세스를 간소화하려면 Vertex AI Model Monitoring을 사용하여 Model Registry에서 생성된 모델에 직접 액세스하세요. Model Monitoring은 온라인 및 일괄 예측을 통해 데이터와 결과에 대한 모니터링도 자동화합니다. 결과를 BigQuery로 내보내 추가 분석 및 추적을 할 수 있습니다.
학습을 자동화하기 위한 최적의 전략 선택
초매개변수 조정에는 다음 방법을 사용하는 것이 좋습니다.
- 모델에 최적의 초매개변수를 찾는 프로세스를 자동화하려면 Vertex AI 초매개변수 조정을 사용하세요. Vertex AI는 고급 알고리즘을 사용하여 초매개변수 공간을 탐색하고 최적의 구성을 식별합니다.
- 효율적인 하이퍼파라미터 미세 조정을 위해 특히 복잡한 모델과 대규모 데이터 세트를 다룰 때는 베이지안 최적화 기법을 사용하는 것이 좋습니다.
분산 학습의 경우 다음 방법을 사용하는 것이 좋습니다.
대규모 데이터 세트와 복잡한 모델의 경우 Vertex AI의 분산 학습 인프라를 사용하세요. 이 방법을 사용하면 여러 머신에서 모델을 학습할 수 있으므로 학습 시간과 관련 비용을 크게 줄일 수 있습니다. 다음과 같은 도구를 사용합니다.
- Vertex AI 조정을 사용하여 Gemini, Imagen 및 기타 모델의 지도 미세 조정을 실행합니다.
- 커스텀 분산 학습을 위한 Vertex AI 학습 또는 Vertex AI의 Ray
분산 학습과 효율적인 리소스 활용을 지원하는 최적화된 ML 프레임워크(예: Keras 및 PyTorch)를 선택합니다.
설명 가능한 AI 사용
모델이 특정 결정을 내리는 이유를 이해하고 잠재적인 편향이나 개선의 여지가 있는 부분을 파악하는 것이 중요합니다. Vertex Explainable AI를 사용하여 모델의 예측에 대한 유용한 정보를 얻습니다. Vertex Explainable AI는 Vertex AI 실험에 연결된 기능 기반 및 예시 기반 설명을 자동화하는 방법을 제공합니다.
- 특성 기반: 모델의 예측에 가장 큰 영향을 미치는 특성을 파악하려면 특성 기여도를 분석하세요. 이러한 이해는 특성 추출 노력을 안내하고 모델 해석 가능성을 개선할 수 있습니다.
- 예시 기반: 입력과 가장 유사한 예시 목록 (일반적으로 학습 세트)을 반환하기 위해 Vertex AI는 최근접 이웃 검색을 사용합니다. 유사한 입력은 일반적으로 유사한 예측을 생성하므로 이러한 설명을 사용하여 모델의 동작을 탐색하고 설명할 수 있습니다.
관리형 서비스 및 사전 학습된 모델 사용
모델 선택 및 모델 개발에 점진적 접근 방식을 채택합니다. 이 방법을 사용하면 매번 새로 시작하는 데 드는 과도한 비용을 방지할 수 있습니다. 비용을 관리하려면 ML 프레임워크, 관리형 서비스, 사전 학습된 모델을 사용하세요.
관리형 서비스와 사전 학습된 모델을 최대한 활용하려면 다음 권장사항을 고려하세요.
탐색 및 실험에 노트북 사용
Notebook 환경은 비용 효율적인 ML 실험에 매우 중요합니다. 노트북은 데이터 과학자와 엔지니어가 데이터를 탐색하고, 모델을 개발하고, 지식을 공유하고, 효율적으로 반복할 수 있는 대화형 공동작업 공간을 제공합니다. 노트북을 통한 공동작업과 지식 공유는 개발, 코드 검토, 지식 이전을 크게 가속화합니다. 노트북은 워크플로를 간소화하고 중복된 노력을 줄이는 데 도움이 됩니다.
개발 환경을 위해 값비싼 하드웨어를 조달하고 관리하는 대신 Vertex AI Workbench 및 Colab Enterprise의 확장 가능하고 주문형 인프라를 사용할 수 있습니다.
Vertex AI Workbench는 전체 데이터 과학 워크플로에 사용되는 Jupyter 노트북 개발 환경입니다. 인스턴스의 Jupyter 노트북 내에서 Vertex AI 및 기타 Google Cloud서비스와 상호작용할 수 있습니다. Vertex AI Workbench 통합 및 기능을 사용하면 다음 작업을 할 수 있습니다.
- BigQuery 및 Cloud Storage 통합을 사용하여 Jupyter 노트북에서 데이터에 액세스하고 탐색합니다.
- Vertex AI에서 실행되는 코드의 예약된 실행을 사용하여 모델의 반복 업데이트를 자동화합니다.
- Dataproc 클러스터에서 노트북을 실행하여 데이터를 빠르게 처리합니다.
- Vertex AI 파이프라인을 사용하여 파이프라인에서 노트북을 단계로 실행합니다.
Colab Enterprise는 Google Cloud의 보안 및 규정 준수 기능이 포함된 공동작업을 위한 관리형 노트북 환경입니다. 프로젝트의 우선순위에 공동 개발과 인프라 관리 노력 감소가 포함된다면 Colab Enterprise가 적합합니다. Colab Enterprise는Google Cloud 서비스 및 Gemini를 사용하는 AI 기반 지원과 통합됩니다. Colab Enterprise를 사용하면 다음 작업을 할 수 있습니다.
- 인프라를 관리할 필요 없이 노트북에서 작업할 수 있습니다.
- 단일 사용자, Google 그룹 또는 Google Workspace 도메인과 노트북을 공유합니다. Identity and Access Management (IAM)를 통해 노트북 액세스를 제어할 수 있습니다.
- Vertex AI 및 BigQuery에 내장된 기능과 상호작용합니다.
변경사항을 추적하고 필요한 경우 이전 버전으로 되돌리려면 노트북을 Git과 같은 버전 관리 도구와 통합하면 됩니다.
기존 모델 및 사전 학습된 모델로 시작
특히 딥 러닝 모델과 같은 복잡한 모델을 처음부터 학습시키려면 상당한 컴퓨팅 리소스와 시간이 필요합니다. 모델 선택 및 개발 프로세스를 가속화하려면 기존 모델과 사전 학습된 모델로 시작하세요. 방대한 데이터 세트로 학습된 이러한 모델을 사용하면 모델을 처음부터 학습할 필요가 없으므로 비용과 개발 시간을 크게 줄일 수 있습니다.
교육 및 개발 비용 절감
각 ML 작업에 적합한 모델이나 API를 선택하고 이를 결합하여 엔드 투 엔드 ML 개발 프로세스를 만듭니다.
Vertex AI Model Garden은 이미지 분류, 객체 감지, 자연어 처리와 같은 작업을 위한 다양한 선행 학습된 모델을 제공합니다. 모델은 다음 카테고리로 그룹화됩니다.
- Google 모델(예: Gemini 모델 제품군 및 이미지 생성을 위한 Imagen)
- Gemma, Llama와 같은 오픈소스 모델
- Anthropic, Mistral AI와 같은 파트너의 서드 파티 모델
Google Cloud 는 개발자가 처음부터 모델을 빌드하지 않고도 강력한 AI 기능을 애플리케이션에 통합할 수 있는 AI 및 ML API를 제공합니다.
- Cloud Vision API를 사용하면 이미지에서 유용한 정보를 도출할 수 있습니다. 이 API는 이미지 분석, 콘텐츠 조정, 자동 데이터 입력과 같은 애플리케이션에 유용합니다.
- Cloud Natural Language API를 사용하면 텍스트를 분석하여 구조와 의미를 파악할 수 있습니다. 이 API는 고객 의견 분석, 콘텐츠 분류, 소셜 미디어 트렌드 파악과 같은 작업에 유용합니다.
- Speech-to-Text API는 오디오를 텍스트로 변환합니다. 이 API는 다양한 언어와 방언을 지원합니다.
- Video Intelligence API는 동영상 콘텐츠를 분석하여 객체, 장면, 동작을 식별합니다. 동영상 콘텐츠 분석, 콘텐츠 검토, 동영상 검색에 이 API를 사용하세요.
- Document AI API는 문서를 처리하여 데이터를 추출, 분류, 이해합니다. 이 API를 사용하면 문서 처리 워크플로를 자동화할 수 있습니다.
- Dialogflow API를 사용하면 챗봇, 음성 어시스턴트와 같은 대화형 인터페이스를 만들 수 있습니다. 이 API를 사용하여 고객 서비스 봇과 가상 어시스턴트를 만들 수 있습니다.
- Vertex AI의 Gemini API는 Google의 가장 강력한 범용 AI 모델에 대한 액세스를 제공합니다.
튜닝 비용 절감
광범위한 데이터와 컴퓨팅 시간의 필요성을 줄이려면 특정 데이터 세트에서 사전 학습된 모델을 미세 조정하세요. 다음 방법을 권장합니다.
- 학습 전이: 처음부터 시작하는 대신 사전 학습된 모델의 지식을 새 작업에 사용합니다. 이 접근 방식은 데이터와 컴퓨팅 시간이 적게 필요하므로 비용을 절감하는 데 도움이 됩니다.
- 어댑터 조정 (파라미터 효율적 조정): 전체 미세 조정 없이 모델을 새로운 작업이나 도메인에 적응시킵니다. 이 접근 방식은 훨씬 적은 컴퓨팅 리소스와 더 작은 데이터 세트가 필요합니다.
- 지도 미세 조정: 라벨이 지정된 데이터 세트를 사용하여 모델 동작을 조정합니다. 이 접근 방식을 사용하면 기본 인프라 관리와 맞춤 학습 작업에 필요한 개발 노력이 간소화됩니다.
Vertex AI Studio를 사용하여 살펴보고 실험하기
Vertex AI Studio를 사용하면 생성형 AI 애플리케이션을 신속하게 테스트하고, 프로토타입으로 제작하고, 배포할 수 있습니다.
- Model Garden과의 통합: 최신 모델에 빠르게 액세스하고 모델을 효율적으로 배포하여 시간과 비용을 절약할 수 있습니다.
- 특수 모델에 대한 통합 액세스: 채팅, 텍스트, 미디어, 번역, 음성용 모델을 비롯한 다양한 사전 학습된 모델과 API에 대한 액세스를 통합합니다. 이 통합 액세스를 사용하면 개별 서비스를 검색하고 통합하는 데 소요되는 시간을 줄일 수 있습니다.
관리형 서비스를 사용하여 모델 학습 또는 서빙
관리형 서비스를 사용하면 모델 학습 비용을 줄이고 인프라 관리를 간소화하여 모델 개발 및 최적화에 집중할 수 있습니다. 이 접근 방식을 사용하면 비용을 크게 절감하고 효율성을 높일 수 있습니다.
운영 오버헤드 감소
인프라 관리의 복잡성과 비용을 줄이려면 다음 관리 서비스를 사용하세요.
- Vertex AI 학습은 모델을 대규모로 학습시키기 위한 완전 관리형 환경을 제공합니다. 널리 사용되는 ML 프레임워크가 포함된 다양한 사전 빌드 컨테이너 중에서 선택하거나 자체 맞춤 컨테이너를 사용할 수 있습니다. Google Cloud 는 인프라 프로비저닝, 확장, 유지보수를 처리하므로 운영 오버헤드가 줄어듭니다.
- Vertex AI 예측은 인프라 확장, 부하 분산, 요청 라우팅을 처리합니다. 수동 개입 없이 고가용성과 고성능을 얻을 수 있습니다.
- Vertex AI의 Ray는 완전 관리형 Ray 클러스터를 제공합니다. 클러스터를 사용하여 자체 인프라를 관리할 필요 없이 많은 계산 (하이퍼파라미터 조정, 모델 미세 조정, 분산 모델 학습, 인간 피드백 기반 강화 학습)을 실행하는 복잡한 맞춤 AI 워크로드를 실행할 수 있습니다.
관리형 서비스를 사용하여 리소스 사용률 최적화
효율적인 리소스 사용에 관한 자세한 내용은 리소스 사용 최적화를 참고하세요.
참여자
저자:
- 아이작 로 | AI 비즈니스 개발 관리자
- 아나스타시아 프로카에바 | 생성형 AI 부문 현장 솔루션 설계자
- Amy Southwood | 기술 솔루션 컨설턴트, 데이터 분석 및 AI
기타 참여자:
- 필리페 그라시오, 박사 | 고객 엔지니어
- 저자: 쿠마르 다나고팔 | 크로스 프로덕트 솔루션 개발자
- 마르완 알 샤위 | 파트너 고객 엔지니어
- 니콜라스 핀토 | 고객 엔지니어, 애플리케이션 현대화 전문가