아키텍처 프레임워크: AI 및 ML 관점의 이 문서에서는 Google Cloud에서 강력한 AI 및 ML 시스템을 빌드하고 운영하는 데 도움이 되는 원칙 및 권장사항을 간략히 설명합니다. 이러한 권장사항을 따르면 관측 가능성, 자동화, 확장성과 같은 기본적인 요소를 설정할 수 있습니다. 이 문서의 권장사항은 아키텍처 프레임워크의 운영 우수성 핵심사항에 따라 작성되었습니다.
AI 및 ML 도메인 내의 운영 우수성은 조직의 전략적 목표를 지원하는 복잡한 AI 및 ML 시스템과 파이프라인을 원활하게 배포, 관리, 거버넌스하는 능력입니다. 운영 우수성을 통해 변화에 효율적으로 대응하고, 운영 복잡성을 줄이며, 운영이 비즈니스 목표와 계속 조화를 이루도록 할 수 있습니다.
모델 개발을 위한 견고한 기반 구축
문제 정의에서 배포에 이르기까지 모델 개발을 간소화할 수 있는 강력한 기반을 구축하세요. 이러한 기반을 통해 AI 솔루션을 안정적이고 효율적인 구성요소와 선택사항을 기반으로 구축할 수 있습니다. 이러한 기반을 마련하면 변경사항과 개선사항을 쉽고 빠르게 출시할 수 있습니다.
다음 권장사항을 고려하세요.
- AI 시스템이 해결하는 문제와 원하는 결과를 정의합니다.
- 모델을 학습하고 평가하는 데 필요한 관련 데이터를 식별하고 수집합니다. 그런 다음 원시 데이터를 정리하고 전처리합니다. 데이터 품질과 무결성을 보장하기 위해 데이터 유효성 검사를 구현합니다.
- 작업에 적합한 ML 접근 방식을 선택합니다. 모델의 구조와 매개변수를 설계할 때는 모델의 복잡도와 계산 요구사항을 고려하세요.
- 코드, 모델, 데이터에 버전 제어 시스템을 채택합니다.
모델 개발 수명 주기 자동화
데이터 준비 및 학습부터 배포 및 모니터링에 이르기까지 자동화를 사용하면 운영의 품질과 효율성을 개선할 수 있습니다. 자동화를 사용하면 원활하고 반복 가능하며 오류가 없는 모델 개발과 배포가 가능합니다. 자동화는 수동 개입을 최소화하고 출시 주기를 가속화하며 환경 전반에서 일관성을 보장합니다.
다음 권장사항을 고려하세요.
- 관리형 파이프라인 조정 시스템을 사용하여 ML 워크플로를 조정하고 자동화합니다. 파이프라인은 개발 수명 주기의 주요 단계인 준비, 학습, 배포, 평가를 처리해야 합니다.
- 모델 개발 수명 주기에 CI/CD 파이프라인을 구현합니다. 이러한 파이프라인은 모델의 빌드, 테스트, 배포를 자동화해야 합니다. 파이프라인에는 필요에 따라 새 데이터로 모델을 다시 학습시키는 지속적 학습도 포함되어야 합니다.
- 안전하고 제어된 모델 출시를 위해 카나리아 배포 또는 A/B 테스트와 같은 단계적 출시 접근 방식을 구현합니다.
관측 가능성 구현
관측 가능성을 구현하면 모델 성능, 데이터 드리프트, 시스템 상태에 대한 심층적인 통계를 얻을 수 있습니다. 지속적인 모니터링, 알림, 로깅 메커니즘을 구현하여 문제를 사전에 파악하고, 적시에 대응을 트리거하며, 운영 연속성을 보장합니다.
다음 권장사항을 고려하세요.
- 모델에 영구적이고 자동화된 성능 모니터링을 구현합니다. 배포 후 모델을 지속적으로 평가하는 데 측정항목과 성공 기준을 사용합니다.
- 배포 엔드포인트와 인프라를 모니터링하여 서비스 가용성을 보장합니다.
- 비즈니스별 기준점과 이상치를 기반으로 맞춤 알림을 설정하여 문제를 적시에 식별하고 해결할 수 있습니다.
- Explainable AI 기법을 사용하여 모델 출력을 이해하고 해석합니다.
운영 우수성 문화 구축
운영 우수성은 사람, 문화, 전문 관행이라는 토대 위에 구축됩니다. 팀과 비즈니스의 성공은 조직에서 AI 기능을 안정적이고 신속하게 개발할 수 있는 방법론을 얼마나 효과적으로 구현하는지에 달려 있습니다.
다음 권장사항을 고려하세요.
- 핵심 개발 방법론으로 자동화 및 표준화를 장려합니다. MLOps 기법을 사용하여 워크플로를 간소화하고 ML 수명 주기를 효율적으로 관리하세요. 작업을 자동화하여 혁신에 더 많은 시간을 할애하고 프로세스를 표준화하여 일관성과 더 쉬운 문제 해결을 지원하세요.
- 지속적인 학습과 개선에 우선순위를 둡니다. 팀원이 기술을 향상하고 AI 및 ML의 최신 발전사항을 파악하는 데 사용할 수 있는 학습 기회를 홍보합니다. 실험을 장려하고 정기적으로 회고를 실시하여 개선이 필요한 영역을 파악합니다.
- 책임감과 소유권의 문화를 조성하세요. 모든 사용자가 자신의 기여도를 이해할 수 있도록 명확한 역할을 정의합니다. 팀이 투명한 측정항목을 사용하여 한도 내에서 결정을 내리고 진행 상황을 추적할 수 있도록 지원하세요.
- AI 윤리와 안전을 문화에 녹여야 합니다. ML 수명 주기의 모든 단계에 윤리적 고려사항을 통합하여 책임감 있는 시스템에 우선순위를 둡니다. 명확한 윤리 원칙을 수립하고 윤리 관련 문제에 대해 공개적으로 논의합니다.
확장성을 고려한 설계
증가하는 데이터 양과 사용자 수요를 처리할 수 있도록 AI 솔루션을 설계하세요. 확장 가능한 인프라를 사용하여 프로젝트가 확장될 때 모델이 최적으로 적응하고 실행할 수 있도록 합니다.
다음 권장사항을 고려하세요.
- 용량 및 할당량을 계획합니다. 향후 성장을 예상하고 그에 따라 인프라 용량과 리소스 할당량을 계획합니다.
- 최대 이벤트에 대비합니다. 시스템이 피크 이벤트 중에 트래픽 또는 워크로드가 갑자기 급증하는 경우 이를 처리할 수 있는지 확인합니다.
- 프로덕션용 AI 애플리케이션을 확장합니다. 워크로드 증가를 수용할 수 있도록 수평 확장을 설계합니다. Vertex AI에서 Ray와 같은 프레임워크를 사용하여 여러 머신에서 태스크를 병렬화합니다.
- 적절한 경우 관리형 서비스를 사용합니다. 수동 개입의 운영 오버헤드와 복잡성을 최소화하면서 확장하는 데 도움이 되는 서비스를 사용하세요.
참여자
저자:
- 산야 당 | AI 솔루션 설계자
- 필리페 그라시오, 박사 | 고객 엔지니어
기타 참여자: