이 페이지는 Cloud Translation API를 통해 번역되었습니다.

AI 및 ML 관점: 성능 최적화

Last reviewed 2024-10-11 UTC

Well-Architected Framework: AI 및 ML 관점의 이 문서에서는 Google Cloud에서 AI 및 ML 워크로드의 성능을 최적화하는 데 도움이 되는 원칙 및 권장사항을 간략하게 설명합니다. 이 문서의 권장사항은 Google Cloud Well-Architected 프레임워크의 성능 최적화 필라와 일치합니다.

AI 및 ML 시스템을 통해 조직에서 새로운 자동화 및 의사 결정 기능을 사용할 수 있습니다. 이러한 시스템의 성능은 수익, 비용, 고객 만족도와 같은 비즈니스 동인에 직접적인 영향을 미칠 수 있습니다. AI 및 ML 시스템의 잠재력을 최대한 활용하려면 비즈니스 목표와 기술 요구사항에 따라 성능을 최적화해야 합니다. 성능 최적화 프로세스에는 특정 트레이드오프가 수반되는 경우가 많습니다. 예를 들어 필요한 성능을 제공하는 설계 선택으로 인해 비용이 증가할 수 있습니다. 이 문서의 권장사항은 비용과 같은 다른 고려사항보다 성능을 우선시합니다.

AI 및 ML 성능을 최적화하려면 모델 아키텍처, 파라미터, 학습 전략과 같은 요소를 고려하여 결정을 내려야 합니다. 이러한 결정을 내릴 때는 AI 및 ML 시스템의 전체 수명 주기와 배포 환경을 고려하세요. 예를 들어 매우 큰 LLM은 대규모 학습 인프라에서 매우 우수한 성능을 보일 수 있지만, 매우 큰 모델은 모바일 기기와 같이 용량이 제한된 환경에서는 성능이 좋지 않을 수 있습니다.

비즈니스 목표를 성능 목표로 변환

성능을 최적화하는 아키텍처 결정을 내리려면 명확한 비즈니스 목표를 설정해야 합니다. 비즈니스 목표와 우선순위를 지원하는 데 필요한 기술적 성능을 제공하는 AI 및 ML 시스템을 설계하세요. 기술팀은 실적 목표와 비즈니스 목표 간의 매핑을 이해해야 합니다.

다음 권장사항을 고려하세요.

비즈니스 목표를 기술 요구사항으로 변환: AI 및 ML 시스템의 비즈니스 목표를 구체적인 기술 성능 요구사항으로 변환하고 요구사항을 충족하지 않을 때의 영향을 평가합니다. 예를 들어 고객 이탈을 예측하는 애플리케이션의 경우 ML 모델이 정확성, 재현율과 같은 표준 측정항목에서 우수한 성능을 보여야 하고 애플리케이션이 낮은 지연 시간과 같은 운영 요구사항을 충족해야 합니다.
모델 수명 주기의 모든 단계에서 성능 모니터링: 모델 배포 후 실험 및 학습 중에 핵심성과지표 (KPI)를 모니터링하고 비즈니스 목표와의 편차를 관찰합니다.
평가를 자동화하여 재현 가능하고 표준화: 실험 평가를 위한 표준화되고 비교 가능한 플랫폼과 방법론을 사용하면 엔지니어가 성능 개선 속도를 높일 수 있습니다.

자주 실험 실행 및 추적

혁신과 창의성을 실적 개선으로 전환하려면 실험을 지원하는 문화와 플랫폼이 필요합니다. AI 및 ML 기술은 지속적으로 빠르게 발전하므로 성능 개선은 지속적인 프로세스입니다. 빠른 속도의 반복적인 프로세스를 유지하려면 실험 공간을 학습 및 제공 플랫폼과 분리해야 합니다. 표준화되고 강력한 실험 프로세스가 중요합니다.

다음 권장사항을 고려하세요.

실험 환경 빌드: 성능 개선에는 ML 파이프라인의 실험 및 공동 개발을 지원하는 전용의 강력한 대화형 환경이 필요합니다.
실험을 문화로 내재화: 프로덕션 배포 전에 실험을 실행합니다. 새 버전을 반복적으로 출시하고 항상 성능 데이터를 수집합니다. 다양한 데이터 유형, 특성 변환, 알고리즘, 하이퍼파라미터를 실험합니다.

학습 및 서빙 서비스 빌드 및 자동화

AI 모델 학습 및 서빙은 AI 서비스의 핵심 구성요소입니다. AI 모델을 빠르고 안정적으로 생성, 배포, 제공할 수 있는 강력한 플랫폼과 관행이 필요합니다. 핵심 AI 학습 및 서빙 작업을 위한 기본 플랫폼을 만드는 데 시간과 노력을 투자하세요. 이러한 기본 플랫폼은 팀의 시간과 노력을 줄이고 중장기적으로 결과물의 품질을 개선하는 데 도움이 됩니다.

다음 권장사항을 고려하세요.

학습 서비스의 AI 전문 구성요소 사용: 이러한 구성요소에는 고성능 컴퓨팅과 특성 스토어, 모델 레지스트리, 메타데이터 스토어, 모델 성능 평가 서비스와 같은 MLOps 구성요소가 포함됩니다.
예측 서비스의 AI 전문 구성요소 사용: 이러한 구성요소는 고성능의 확장 가능한 리소스를 제공하고, 기능 모니터링을 지원하며, 모델 성능 모니터링을 지원합니다. 성능 저하를 방지하고 관리하려면 안정적인 배포 및 롤백 전략을 구현하세요.

성능 요구사항에 맞게 디자인 선택

성능을 개선하기 위해 디자인을 선택할 때는 선택한 디자인이 비즈니스 요구사항을 지원하는지 아니면 낭비적이고 역효과를 내는지 신중하게 평가하세요. 적절한 인프라, 모델 또는 구성을 선택하려면 성능 병목 현상을 파악하고 성능 측정과 어떻게 연결되는지 평가하세요. 예를 들어 매우 강력한 GPU 가속기에서도 스토리지 레이어의 데이터 I/O 문제나 모델 자체의 성능 제한으로 인해 학습 작업에 성능 병목 현상이 발생할 수 있습니다.

다음 권장사항을 고려하세요.

성능 목표에 따라 하드웨어 소비 최적화: 성능 요구사항을 충족하는 ML 모델을 학습시키고 제공하려면 컴퓨팅, 스토리지, 네트워크 레이어에서 인프라를 최적화해야 합니다. 실적 목표에 영향을 미치는 변수를 측정하고 이해해야 합니다. 이러한 변수는 학습과 추론에서 다릅니다.
워크로드별 요구사항에 집중: AI 및 ML 워크로드의 고유한 요구사항에 성능 최적화 노력을 집중하세요. 기본 인프라의 성능을 위해 관리형 서비스를 사용합니다.
적절한 학습 전략 선택: 여러 사전 학습 모델과 기본 모델을 사용할 수 있으며 이러한 모델이 자주 출시됩니다. 작업에 최적의 성능을 제공할 수 있는 학습 전략을 선택하세요. 자체 모델을 빌드할지, 데이터에 대해 선행 학습된 모델을 미세 조정할지, 선행 학습된 모델 API를 사용할지 결정합니다.
실적 최적화 전략의 수익이 감소할 수 있음을 인식: 특정 실적 최적화 전략이 측정 가능한 비즈니스 가치를 증대하지 않는 경우 해당 전략을 중단합니다.

성능 측정항목을 설계 및 구성 선택사항에 연결

혁신하고, 문제를 해결하고, 성능 문제를 조사하려면 설계 선택과 성능 결과 간의 명확한 연결을 설정하세요. 실험 외에도 애셋, 배포, 모델 출력, 출력을 생성한 구성 및 입력을 안정적으로 기록해야 합니다.

다음 권장사항을 고려하세요.

데이터 및 모델 계보 시스템 구축: 배포된 모든 애셋과 그 실적 측정항목은 배포된 시스템을 생성한 데이터, 구성, 코드, 선택사항에 다시 연결되어야 합니다. 또한 모델 출력은 특정 모델 버전 및 출력이 생성된 방식과 연결되어야 합니다.
설명 가능성 도구를 사용하여 모델 성능 개선: 모델 탐색 및 설명 가능성을 위한 도구와 벤치마크를 채택하고 표준화합니다. 이러한 도구를 사용하면 ML 엔지니어가 모델 동작을 이해하고 성능을 개선하거나 편향을 제거할 수 있습니다.

참여자

저자:

벤저민 사딕 | AI 및 ML 전문가 고객 엔지니어
필리페 그라시오, 박사 | 고객 엔지니어

기타 참여자:

저자: 쿠마르 다나고팔 | 크로스 프로덕트 솔루션 개발자
마르완 알 샤위 | 파트너 고객 엔지니어
자크 세일 | 네트워킹 전문가

비용 최적화

AI 및 ML 관점: 성능 최적화 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

비즈니스 목표를 성능 목표로 변환

자주 실험 실행 및 추적

학습 및 서빙 서비스 빌드 및 자동화

성능 요구사항에 맞게 디자인 선택

성능 측정항목을 설계 및 구성 선택사항에 연결

참여자

AI 및 ML 관점: 성능 최적화