Well-Architected Framework: AI 및 ML 관점의 이 문서는 ML 수명 주기 전반에서 AI 시스템 비용을 최적화하기 위한 원칙과 권장사항을 간략히 설명합니다. 사전 예방적이고 정보에 입각한 비용 관리 접근 방식을 채택하면 조직은 AI 및 ML 시스템의 잠재력을 최대한 실현하고 재정적 규율을 유지할 수 있습니다. 이 문서의 권장사항은 Google Cloud Well-Architected Framework의 비용 최적화 요소와 일치합니다.
AI 및 ML 시스템을 사용하면 데이터에서 유용한 정보와 예측 기능을 얻을 수 있습니다 예를 들어 내부 프로세스의 장애를 줄이고, 사용자 환경을 개선하고, 고객에 대한 보다 심층적인 정보를 얻을 수 있습니다. 클라우드는 AI 및 ML 워크로드에 대한 대규모 사전 투자 없이 방대한 양의 리소스와 신속한 가치 실현 시간을 제공합니다. 비즈니스 가치를 극대화하고 비즈니스 목표에 맞게 지출을 조정하려면 비용 요인을 이해하고, 비용을 사전에 최적화하고, 지출 제어를 설정하고, FinOps 관행을 채택해야 합니다.
비용 및 반품의 정의 및 측정
AI 및 ML 비용을 효과적으로 관리하려면 Google Cloud클라우드 리소스 비용과 AI 및 ML 이니셔티브의 비즈니스 가치를 정의하고 측정해야 합니다. Google Cloud 비용을 세부적으로 추적할 수 있도록 청구 및 비용 관리를 위한 포괄적인 도구를 제공합니다. 측정할 수 있는 비즈니스 가치 측정항목으로는 고객 만족도, 수익, 운영 비용이 있습니다. 비용과 비즈니스 가치에 대한 구체적인 측정항목을 설정하면 리소스 할당 및 최적화에 대해 정보에 입각한 결정을 내릴 수 있습니다.
다음 권장사항을 고려하세요.
- AI 및 ML 프로젝트의 명확한 비즈니스 목표와 핵심성과지표(KPI)를 설정합니다.
- Google Cloud 에서 제공하는 결제 정보를 사용하여 특정 AI 및 ML 활동에 비용 기여도를 부여하는 데 도움이 되는 비용 모니터링 및 보고 프로세스를 구현합니다.
- 대시보드, 알림, 보고 시스템을 구축하여 KPI에 대한 비용과 수익을 추적합니다.
리소스 할당 최적화
Google Cloud에서 AI 및 ML 워크로드의 비용 효율성을 달성하려면 리소스 할당을 최적화해야 합니다. 워크로드의 요구사항에 맞게 리소스 할당을 신중하게 조정하면 불필요한 비용을 피하고 AI 및 ML 시스템이 최적의 성능을 발휘하는 데 필요한 리소스를 확보할 수 있습니다.
다음 권장사항을 고려하세요.
- 자동 확장을 사용하여 학습 및 추론을 위한 리소스를 동적으로 조정합니다.
- 작은 모델과 데이터로 시작합니다. 가능한 경우 더 작은 규모로 가설을 테스트하여 비용을 절감합니다.
- 실험을 통해 컴퓨팅 요구사항을 파악합니다. ML 요구사항에 따라 학습 및 제공에 사용되는 리소스의 크기를 조정합니다.
- MLOps 방식을 도입하여 중복, 수동 프로세스, 비효율적인 리소스 할당을 줄입니다.
데이터 관리 및 거버넌스 관행 적용
효과적인 데이터 관리 및 거버넌스 관행은 비용 최적화에 중요한 역할을 합니다. 데이터를 잘 정리하면 조직에서 불필요한 중복을 방지하고, 고품질 데이터를 가져오는 데 필요한 노력을 줄이며, 팀이 데이터 세트를 재사용하도록 유도할 수 있습니다. 데이터를 사전에 관리하면 스토리지 비용을 절감하고 데이터 품질을 향상시키며 가장 관련성이 높고 가치 있는 데이터를 기반으로 ML 모델을 학습시키고 운영할 수 있습니다.
다음 권장사항을 고려하세요.
- 잘 정의된 데이터 거버넌스 프레임워크를 수립하고 채택합니다.
- 데이터 수집 시점에 데이터 세트에 라벨 및 관련 메타데이터를 적용합니다.
- 조직 전체에서 데이터 세트를 검색하고 액세스할 수 있는지 확인합니다.
- 가능한 경우 ML 수명 주기 전반에서 데이터 세트와 기능을 재사용할 수 있도록 합니다.
MLOps를 사용한 자동화 및 간소화
MLOps 방식을 도입할 때 얻을 수 있는 주요 이점은 기술 측면과 직원 활동 측면에서 모두 비용이 절감된다는 것입니다. 자동화는 ML 활동의 중복을 방지하고 데이터 과학자와 ML 엔지니어의 생산성을 개선하는 데 도움이 됩니다.
다음 권장사항을 고려하세요.
- 데이터 수집 및 처리 기술의 자동화 및 표준화 수준을 높여 개발에 드는 노력과 시간을 절감하세요.
- 자동화된 학습 파이프라인을 개발하여 수동 개입의 필요성을 줄이고 엔지니어 생산성을 높입니다. 준비된 데이터 세트 및 학습된 모델과 같은 기존 애셋을 재사용하는 파이프라인의 메커니즘을 구현합니다.
- Google Cloud 에서 모델 평가 및 조정 서비스를 사용하면 반복 횟수를 줄여 모델 성능을 높일 수 있습니다. 이를 통해 AI팀과 ML팀이 단시간 내에 더 많은 목표를 달성할 수 있습니다.
관리형 서비스와 선행 학습된 모델 또는 기존 모델 사용
AI와 ML을 사용하여 비즈니스 목표를 달성하는 방법에는 여러 가지가 있습니다. 모델 선택 및 모델 개발에 점진적인 접근 방식을 채택하세요. 이렇게 하면 매번 새로 시작하는 것과 관련된 과도한 비용을 피할 수 있습니다. 비용을 제어하려면 ML 프레임워크, 관리형 서비스, 선행 학습된 모델을 사용하는 간단한 접근 방식부터 시작하세요.
다음 권장사항을 고려하세요.
- 노트북 환경을 사용하여 탐색적이고 빠른 ML 실험을 지원합니다.
- 기존 모델과 선행 학습된 모델을 출발점으로 사용하여 모델 선택 및 개발 프로세스를 가속화하세요.
- 관리형 서비스를 사용하여 모델을 학습시키거나 서빙합니다. AutoML과 관리형 커스텀 모델 학습 서비스 모두 모델 학습 비용을 절감하는 데 도움이 될 수 있습니다. 관리형 서비스는 모델 제공 인프라의 비용을 절감하는 데도 도움이 될 수 있습니다.
비용 인식 및 지속적인 최적화 문화 조성
커뮤니케이션과 정기적인 검토를 장려하는 공동작업 환경을 조성하세요. 이 접근 방식을 통해 팀은 ML 수명 주기 전반에서 비용 절감 기회를 식별하고 구현할 수 있습니다.
다음 권장사항을 고려하세요.
- ML 수명 주기 전반에 FinOps 원칙을 채택합니다.
- AI 및 ML 프로젝트의 모든 비용과 비즈니스 이점에 명확한 책임이 있는 소유자가 할당되었는지 확인합니다.
참여자
저자:
- 아이작 로 | AI BD/계약 담당 관리자
- 필리페 그라시오, 박사 | 고객 엔지니어
기타 참여자: