아키텍처 프레임워크: AI 및 ML 관점의 이 문서에서는 ML 수명 주기 전반에서 AI 시스템의 비용을 최적화하기 위한 원칙 및 권장사항을 간략히 설명합니다. 조직은 선제적이고 정보에 입각한 비용 관리 접근 방식을 채택하여 AI 및 ML 시스템의 잠재력을 최대한 발휘하고 재무 규율을 유지할 수 있습니다. 이 문서의 권장사항은 아키텍처 프레임워크의 비용 최적화 요소에 따라 작성되었습니다.
AI 및 ML 시스템을 사용하면 데이터에서 가치 있는 통계와 예측 기능을 활용할 수 있습니다. 예를 들어 내부 프로세스의 불편을 줄이고 사용자 환경을 개선하며 고객에 대한 심층적인 통계를 얻을 수 있습니다. 클라우드는 AI 및 ML 워크로드에 대한 대규모 선행 투자 없이도 방대한 리소스와 빠른 가치 창출 시간을 제공합니다. 비즈니스 가치를 극대화하고 지출을 비즈니스 목표에 맞추려면 비용 요인을 파악하고, 비용을 사전에 최적화하고, 지출 관리를 설정하고, FinOps 관행을 채택해야 합니다.
비용 및 수익 정의 및 측정
Google Cloud에서 AI 및 ML 비용을 효과적으로 관리하려면 클라우드 리소스의 비용과 AI 및 ML 이니셔티브의 비즈니스 가치를 정의하고 측정해야 합니다. Google Cloud는 비용을 세부적으로 추적하는 데 도움이 되는 포괄적인 결제 및 비용 관리 도구를 제공합니다. 측정할 수 있는 비즈니스 가치 측정항목에는 고객 만족도, 수익, 운영 비용이 포함됩니다. 비용과 비즈니스 가치에 관한 구체적인 측정항목을 설정하면 리소스 할당 및 최적화에 관해 정보에 입각한 결정을 내릴 수 있습니다.
다음 권장사항을 고려하세요.
- AI 및 ML 프로젝트에 대한 명확한 비즈니스 목표와 핵심성과지표(KPI)를 수립합니다.
- Google Cloud에서 제공하는 결제 정보를 사용하여 특정 AI 및 ML 활동에 비용을 부과하는 데 도움이 되는 비용 모니터링 및 보고 프로세스를 구현하세요.
- 대시보드, 알림, 보고 시스템을 설정하여 KPI에 따른 비용과 수익을 추적합니다.
리소스 할당 최적화
Google Cloud에서 AI 및 ML 워크로드의 비용 효율성을 달성하려면 리소스 할당을 최적화해야 합니다. 리소스 할당을 워크로드의 요구사항에 맞게 신중하게 조정하면 불필요한 비용을 피하고 AI 및 ML 시스템에 최적의 성능을 발휘하는 데 필요한 리소스를 제공할 수 있습니다.
다음 권장사항을 고려하세요.
- 자동 확장을 사용하여 학습 및 추론을 위한 리소스를 동적으로 조정합니다.
- 소규모 모델과 데이터로 시작합니다. 가능하다면 소규모로 가설을 테스트하여 비용을 절약하세요.
- 실험을 통해 컴퓨팅 요구사항을 파악하세요. ML 요구사항에 따라 학습 및 제공에 사용되는 리소스의 크기를 조정합니다.
- MLOps 관행을 채택하여 중복, 수동 프로세스, 비효율적인 리소스 할당을 줄입니다.
데이터 관리 및 거버넌스 관행 시행
효과적인 데이터 관리 및 거버넌스 관행은 비용 최적화에서 중요한 역할을 합니다. 잘 정리된 데이터는 조직에서 불필요한 중복을 방지하고, 고품질 데이터를 얻는 데 필요한 노력을 줄이며, 팀에서 데이터 세트를 재사용하도록 유도합니다. 데이터를 사전에 관리하면 스토리지 비용을 줄이고, 데이터 품질을 개선하고, ML 모델이 가장 관련성 높고 가치 있는 데이터를 기반으로 학습하고 작동하도록 할 수 있습니다.
다음 권장사항을 고려하세요.
- 잘 정의된 데이터 거버넌스 프레임워크를 수립하고 채택합니다.
- 데이터 처리 시점에 데이터 세트에 라벨과 관련 메타데이터를 적용합니다.
- 조직 전체에서 데이터 세트를 검색하고 액세스할 수 있는지 확인합니다.
- 가능한 경우 ML 수명 주기 전반에서 데이터 세트와 기능을 재사용할 수 있도록 합니다.
MLOps로 자동화 및 간소화
MLOps 관행을 채택하는 주요 이점은 기술 관점에서나 인력 활동 측면에서 모두 비용을 절감할 수 있다는 것입니다. 자동화를 사용하면 ML 활동의 중복을 방지하고 데이터 과학자와 ML 엔지니어의 생산성을 개선할 수 있습니다.
다음 권장사항을 고려하세요.
- 데이터 수집 및 처리 기술의 자동화 및 표준화 수준을 높여 개발 노력과 시간을 줄입니다.
- 자동화된 학습 파이프라인을 개발하여 수동 개입의 필요성을 줄이고 엔지니어의 생산성을 높입니다. 준비된 데이터 세트 및 학습된 모델과 같은 기존 애셋을 파이프라인에서 재사용할 수 있는 메커니즘을 구현합니다.
- Google Cloud의 모델 평가 및 조정 서비스를 사용하여 반복 횟수를 줄여 모델 성능을 높입니다. 이를 통해 AI 및 ML팀은 더 짧은 시간에 더 많은 목표를 달성할 수 있습니다.
관리형 서비스 및 선행 학습된 모델 또는 기존 모델 사용
AI와 ML을 사용하여 비즈니스 목표를 달성하는 방법에는 여러 가지가 있습니다. 모델 선택 및 모델 개발에 점진적 접근 방식을 채택합니다. 이렇게 하면 매번 새로 시작할 때 발생하는 과도한 비용을 피할 수 있습니다. 비용을 관리하려면 간단한 접근 방식으로 시작해 보세요. ML 프레임워크, 관리형 서비스, 선행 학습된 모델을 사용하세요.
다음 권장사항을 고려하세요.
- 노트북 환경을 사용하여 탐색적이고 빠른 ML 실험을 지원합니다.
- 기존 모델과 사전 학습된 모델을 시작점으로 사용하여 모델 선택 및 개발 프로세스를 가속화하세요.
- 관리형 서비스를 사용하여 모델을 학습하거나 제공합니다. AutoML과 관리형 맞춤 모델 학습 서비스 모두 모델 학습 비용을 줄이는 데 도움이 될 수 있습니다. 관리형 서비스는 모델 제공 인프라의 비용을 줄이는 데도 도움이 될 수 있습니다.
비용 인식 및 지속적인 최적화 문화 조성
커뮤니케이션과 정기적인 검토를 장려하는 공동작업 환경을 조성합니다. 이 접근 방식을 사용하면 팀이 ML 수명 주기 전반에서 비용 절감 기회를 파악하고 구현할 수 있습니다.
다음 권장사항을 고려하세요.
- ML 수명 주기 전반에서 FinOps 원칙을 채택합니다.
- AI 및 ML 프로젝트의 모든 비용과 비즈니스 이점에 명확한 책임을 가진 소유자가 할당되어 있는지 확인합니다.
참여자
저자:
- 아이작 로 | AI 비즈니스 개발 관리자
- 필리페 그라시오, 박사 | 고객 엔지니어
기타 참여자: