Well-Architected Framework: 성능 최적화 요소

Google Cloud Well-Architected Framework의 이 요소는Google Cloud의 워크로드 성능을 최적화하기 위한 권장사항을 제공합니다.

이 문서는 Google Cloud에서 워크로드를 계획, 설계, 배포, 관리하는 설계자, 개발자, 관리자를 대상으로 합니다.

이 핵심 요소의 권장사항은 조직이 효율적으로 운영하고 고객 만족도를 개선하고 수익을 높이며 비용을 절감하는 데 도움이 될 수 있습니다. 예를 들어 애플리케이션의 백엔드 처리 시간이 감소하면 사용자의 응답 시간이 빨라져 사용자 유지율이 높아지고 수익이 증가할 수 있습니다.

성능 최적화 프로세스에는 성능과 비용의 절충이 포함될 수 있습니다. 그러나 성능을 최적화하면 비용을 절감하는 데 도움이 되는 경우도 있습니다. 예를 들어 부하가 증가할 때 자동 확장은 시스템 리소스가 과부하되지 않도록 하여 예측 가능한 성능을 제공하는 데 도움이 될 수 있습니다. 자동 확장은 부하가 적은 기간에 사용되지 않는 리소스를 제거하여 비용을 절감하는 데도 도움이 됩니다.

성능 최적화는 일회성 활동이 아닌 연속적인 프로세스입니다. 다음 다이어그램은 성능 최적화 프로세스의 단계를 보여줍니다.

성능 최적화 프로세스

성능 최적화 프로세스는 다음 단계를 포함하는 지속적인 주기입니다.

  1. 요구사항 정의: 애플리케이션을 설계하고 개발하기 전에 애플리케이션 스택의 각 레이어에 관한 세분화된 성능 요구사항을 정의합니다. 리소스 할당을 계획하려면 주요 워크로드 특성과 성능 기대치를 고려해야 합니다.
  2. 설계 및 배포: 성능 요구사항을 충족하는 데 도움이 되는 탄력적이고 확장 가능한 디자인 패턴을 사용합니다.
  3. 모니터링 및 분석: 로그, 추적, 측정항목, 알림을 사용하여 성능을 지속적으로 모니터링합니다.
  4. 최적화: 애플리케이션이 발전함에 따라 디자인을 다시 변경할 것을 고려하세요. 클라우드 리소스 크기를 조정하고 새로운 기능을 사용하여 변화하는 성능 요구사항을 충족합니다.

    위 다이어그램과 같이 모니터링, 요구사항 재평가, 클라우드 리소스 조정 주기를 계속 진행합니다.

AI 및 ML 워크로드와 관련된 성능 최적화 원칙과 권장사항은 잘 설계된 프레임워크의 AI 및 ML 관점: 성능 최적화를 참조하세요.

핵심 원칙

Well-Architected Framework의 성능 최적화 요소에 있는 권장사항은 다음과 같은 핵심 원칙에 매핑됩니다.

참여자

저자:

기타 참여자:

리소스 할당 계획

Google Cloud Well-Architected Framework의 성능 최적화 요소에 있는 이 원칙은Google Cloud에서 워크로드를 위한 리소스를 계획하는 데 도움이 되는 권장사항을 제공합니다. 클라우드 배포 또는 마이그레이션을 위한 애플리케이션을 설계 및 개발하기 전에 세분화된 요구사항을 정의하는 것이 중요함을 강조합니다.

원칙 개요

비즈니스 요구사항을 충족하려면 설계 및 개발 전에 애플리케이션의 성능 요구사항을 정의하는 것이 중요합니다. 애플리케이션 전체와 애플리케이션 스택의 각 레이어에 관한 요구사항을 가능한 한 세부적으로 정의합니다. 예를 들어 스토리지 레이어에서는 애플리케이션에 필요한 처리량과 초당 I/O 작업 수 (IOPS)를 고려해야 합니다.

처음부터 성능과 확장성을 염두에 두고 애플리케이션 설계를 계획하세요. 사용자 수, 데이터 볼륨, 시간 경과에 따른 잠재적 성장과 같은 요소를 고려하세요.

각 워크로드의 성능 요구사항은 워크로드 유형에 따라 다릅니다. 각 워크로드에는 고유한 성능 특성 세트를 가진 구성요소 시스템과 서비스가 혼합되어 있을 수 있습니다. 예를 들어 대규모 데이터 세트의 주기적인 일괄 처리를 담당하는 시스템은 대화형 가상 데스크톱 솔루션과 다른 성능 요구를 갖습니다. 최적화 전략은 각 워크로드의 구체적인 니즈를 충족해야 합니다.

각 워크로드의 성능 목표에 맞는 서비스 및 기능을 선택합니다. 성능 최적화를 위한 일률적인 솔루션은 없습니다. 각 워크로드를 최적화하면 전체 시스템이 최적의 성능과 효율성을 얻을 수 있습니다.

성능 요구사항에 영향을 줄 수 있는 다음 워크로드 특성을 고려하세요.

  • 배포 archetype: 애플리케이션에 선택한 배포 archetype은 제품 및 기능 선택에 영향을 줄 수 있으며 이에 따라 애플리케이션에서 기대할 수 있는 성능이 결정됩니다.
  • 리소스 배치: 애플리케이션 리소스의 Google Cloud 리전을 선택할 때는 최종 사용자의 짧은 지연 시간을 우선시하고 데이터 지역 규정을 준수하며 필수 제품 및 서비스의 가용성을 보장하는 것이 좋습니다. Google Cloud
  • 네트워크 연결: 데이터 액세스 및 콘텐츠 전송을 최적화하는 네트워킹 서비스를 선택합니다. Google Cloud의 글로벌 네트워크, 고속 백본, 상호 연결 위치, 캐싱 서비스를 활용하세요.
  • 애플리케이션 호스팅 옵션: 호스팅 플랫폼을 선택할 때 각 옵션의 성능 장단점을 평가해야 합니다. 예를 들어 베어메탈, 가상 머신, 컨테이너, 서버리스 플랫폼을 고려할 수 있습니다.
  • 스토리지 전략: 성능 요구사항에 따라 최적의 스토리지 전략을 선택합니다.
  • 리소스 구성: 머신 유형, IOPS, 처리량은 성능에 상당한 영향을 줄 수 있습니다. 또한 설계 단계 초기에 적절한 보안 기능과 이러한 기능이 리소스에 미치는 영향을 고려해야 합니다. 보안 기능을 계획할 때는 예기치 않은 영향을 방지하기 위해 필요한 성능 저하를 수용할 수 있도록 준비해야 합니다.

권장사항

최적의 리소스 할당을 보장하려면 다음 섹션의 권장사항을 고려하세요.

할당량 구성 및 관리

애플리케이션이 메모리, 저장용량, 처리 성능 등 필요한 리소스만 사용하는지 확인합니다. 과도한 할당은 불필요한 비용을 초래할 수 있고, 미달 할당은 성능 저하를 야기할 수 있습니다.

탄력적 확장을 수용하고 적절한 리소스를 사용할 수 있도록 하려면 할당량 용량을 정기적으로 모니터링하세요. 또한 할당량 사용량을 추적하여 잠재적인 확장 제약 조건이나 과다 할당 문제를 파악하고 리소스 할당에 대해 정보에 입각한 결정을 내릴 수 있습니다.

교육 및 인식 제고

사용자에게 성능 요구사항을 알리고 효과적인 성능 관리 기술에 대한 교육 리소스를 제공합니다.

진행 상황을 평가하고 개선이 필요한 영역을 파악하려면 타겟 성능과 실제 성능을 정기적으로 문서화합니다. 애플리케이션 부하 테스트를 실행하여 잠재적인 중단점을 찾고 애플리케이션을 확장하는 방법을 파악합니다.

성능 측정항목 모니터링

Cloud Monitoring을 사용하여 성능 측정항목의 추세를 분석하고, 실험의 효과를 분석하고, 중요한 측정항목에 대한 알림을 정의하고, 소급 분석을 수행할 수 있습니다.

Active Assist는 리소스 사용률 최적화에 도움이 되는 통계 및 권장사항을 제공할 수 있는 도구 모음입니다. 이러한 권장사항은 리소스 할당을 조정하고 성능을 개선하는 데 도움이 될 수 있습니다

탄력성 활용

Google Cloud Well-Architected Framework의 성능 최적화 요소에 있는 이 원칙은 워크로드 요구사항의 변화에 따라 리소스를 동적으로 조정하는 기능인 탄력성을 통합하는 데 도움이 되는 권장사항을 제공합니다.

탄력성을 통해 시스템의 여러 구성요소를 독립적으로 확장할 수 있습니다 이러한 목표 확장을 통해 리소스를 과도하게 프로비저닝하거나 과소 프로비저닝하지 않고도 필요한 곳에 정확히 리소스를 할당하여 성능과 비용 효율성을 개선할 수 있습니다.

원칙 개요

시스템의 성능 요구사항은 시스템이 수직 확장 또는 수평 확장되는 시기와 방법에 직접적인 영향을 줍니다. 시스템의 용량을 평가하고 기준에서 시스템이 처리할 것으로 예상되는 부하를 결정해야 합니다. 그런 다음 시스템이 부하의 증가 및 감소에 어떻게 반응하도록 할지 결정해야 합니다.

부하가 증가하면 시스템은 수평으로 확장하거나 수직으로 확장하거나 또는 둘 다 확장해야 합니다. 수평 확장의 경우 복제본 노드를 추가하여 시스템의 전체 용량이 증가한 수요를 충족하기에 충분한지 확인해야 합니다. 수직 확장의 경우 애플리케이션의 기존 구성요소를 더 많은 용량, 더 많은 메모리, 더 많은 저장용량이 포함된 구성요소로 교체합니다.

부하가 감소하면 시스템이 축소 (수평, 수직 또는 둘 다)되어야 합니다.

시스템이 확장되거나 축소되는 상황을 정의합니다. 트래픽이 많은 것으로 알려진 기간에는 시스템을 수동으로 수직 확장할 계획을 세우세요. 부하 증가 또는 감소에 대응하는 자동 확장과 같은 도구를 사용합니다.

권장사항

탄력성을 활용하려면 다음 섹션의 권장사항을 고려하세요.

최대 부하 기간에 대비한 계획

고객 수요가 증가할 것으로 예상되는 기간과 같이 알려진 이벤트에 대한 효율적인 확장 경로를 계획해야 합니다.

트래픽이 많다고 알려진 기간에 앞서 시스템을 확장하는 것이 좋습니다. 예를 들어 소매 조직의 경우 시즌별 판매 기간 동안 수요가 증가할 것으로 예상됩니다. 시스템이 증가된 부하를 즉시 처리하거나 기존 한도를 즉시 조정할 수 있도록 판매 전에 시스템을 수동으로 확장 또는 수평 확장하는 것이 좋습니다. 그러지 않으면 시스템에서 실시간 변경에 대한 응답으로 리소스를 추가하는 데 몇 분 정도 걸릴 수 있습니다. 애플리케이션 용량이 빠르게 증가하지 않아 일부 사용자에게 지연이 발생할 수 있습니다.

수요 또는 트래픽 급증과 같은 알 수 없거나 예기치 않은 이벤트의 경우 자동 확장 기능을 사용하여 측정항목을 기반으로 한 탄력적 확장을 트리거할 수 있습니다. 이러한 측정항목에는 CPU 사용률, 부하 분산기 제공 용량, 지연 시간은 물론 Cloud Monitoring에서 정의하는 커스텀 측정항목도 포함될 수 있습니다.

예를 들어 Compute Engine 관리형 인스턴스 그룹 (MIG)에서 실행되는 애플리케이션을 생각해 보세요. 이 애플리케이션의 경우 평균 CPU 사용률이 75%에 도달할 때까지 각 인스턴스가 최적의 성능을 발휘해야 합니다. 이 예시에서는 CPU 사용률이 기준에 도달하면 더 많은 인스턴스를 만드는 자동 확장 정책을 정의할 수 있습니다. 이렇게 새로 생성된 인스턴스는 부하를 흡수하는 데 도움이 되므로 MIG에 구성한 최대 인스턴스 수에 도달할 때까지 평균 CPU 사용률이 최적의 비율로 유지됩니다. 수요가 감소하면 자동 확장 정책이 더 이상 필요하지 않은 인스턴스를 삭제합니다.

BigQuery에서 리소스 슬롯 예약을 계획하거나 관리형 자동 확장 처리를 사용하여 Spanner에서 자동 확장 구성 한도를 조정합니다.

예측 확장 사용

시스템 구성요소에 Compute Engine이 포함된 경우 예측 자동 확장이 워크로드에 적합한지 평가해야 합니다. 예측 자동 확장은 CPU 사용률과 같은 측정항목의 이전 추세를 기반으로 향후 부하를 예측합니다. 예측은 몇 분마다 다시 계산되므로 자동 확장 처리는 최근 부하 변화에 맞춰 예측을 빠르게 조정합니다. 예측 자동 확장을 사용하지 않으면 자동 확장 처리는 관찰된 부하의 실시간 변화에 따라 사후 대응적으로만 그룹을 확장할 수 있습니다. 예측 자동 확장은 실시간 데이터 및 이전 데이터 모두와 함께 작동하여 현재 부하와 예측 부하에 모두 대응합니다.

서버리스 아키텍처 구현

다음과 같이 본질적으로 탄력적인 서버리스 서비스로 서버리스 아키텍처를 구현하는 것이 좋습니다.

규칙 미세 조정이 필요한 다른 서비스 (예: Compute Engine)의 자동 확장과 달리 서버리스 자동 확장은 즉시 실행되며 리소스 0개로 축소할 수 있습니다.

Kubernetes용 Autopilot 모드 사용

Kubernetes를 더 세부적으로 제어해야 하는 복잡한 애플리케이션의 경우 Google Kubernetes Engine (GKE)의 Autopilot 모드를 고려하세요. Autopilot 모드는 기본적으로 자동화와 확장성을 제공합니다. GKE는 트래픽에 따라 노드와 리소스를 자동으로 확장합니다. GKE는 노드를 관리하고, 애플리케이션의 새 노드를 만들고, 자동 업그레이드 및 복구를 구성합니다.

모듈식 디자인 촉진

Google Cloud Well-Architected Framework의 성능 최적화 요소에 있는 이 원칙은 모듈식 설계를 촉진하는 데 도움이 되는 권장사항을 제공합니다. 모듈식 구성요소와 명확한 인터페이스는 유연한 확장, 독립적인 업데이트, 향후 구성요소 분리를 지원할 수 있습니다.

원칙 개요

애플리케이션 구성요소와 시스템 구성요소 간의 종속 항목을 이해하여 확장 가능한 시스템을 설계합니다.

모듈식 설계는 모놀리식 아키텍처 또는 마이크로서비스 아키텍처의 초기 배포 여부에 관계없이 유연성과 복원력을 지원합니다. 시스템을 명확한 인터페이스가 있는 잘 정의된 독립 모듈로 분해하면 특정 요구사항을 충족하도록 개별 구성요소를 확장할 수 있습니다.

목표 확장을 사용하면 다음과 같은 방법으로 리소스 사용률을 최적화하고 비용을 절감할 수 있습니다.

  • 각 구성요소에 필요한 리소스만 프로비저닝하고 덜 까다로운 구성요소에는 더 적은 리소스를 할당합니다.
  • 트래픽이 많은 기간에 더 많은 리소스를 추가하여 사용자 환경을 유지합니다.
  • 성능 저하 없이 활용도가 낮은 리소스를 삭제합니다.

모듈성은 유지 관리 용이성도 강화합니다. 더 작은 독립 실행형 단위는 이해, 디버그, 업데이트가 더 쉬우므로 개발 주기를 단축하고 위험을 낮출 수 있습니다.

모듈성은 상당한 이점을 제공하지만 잠재적인 성능 장단점을 평가해야 합니다. 모듈 간의 통신이 증가하면 지연 시간과 오버헤드가 발생할 수 있습니다. 모듈성과 성능 간의 균형을 유지하도록 노력합니다. 고도의 모듈식 설계는 보편적으로 적합하지 않을 수 있습니다. 성능이 중요한 경우에는 보다 긴밀하게 결합된 접근 방식이 적합할 수 있습니다. 시스템 설계는 모듈식 설계를 지속적으로 검토하고 미세 조정하는 반복 프로세스입니다.

권장사항

모듈식 설계를 홍보하려면 다음 섹션의 권장사항을 고려하세요.

느슨한 결합을 위한 설계

느슨하게 결합된 아키텍처를 설계합니다. 종속 항목이 최소화된 독립적인 구성요소는 확장 가능하고 복원력이 우수한 애플리케이션을 빌드하는 데 도움이 될 수 있습니다. 서비스의 경계를 계획할 때는 가용성 및 확장성 요구사항을 고려해야 합니다. 예를 들어 한 구성요소의 요구사항이 다른 구성요소와 다르다면 해당 구성요소를 독립형 서비스로 설계할 수 있습니다. 기본 서비스의 응답 시간에 영향을 미치지 않는 중요도가 낮은 하위 프로세스나 서비스의 단계적 실패에 대한 계획을 구현합니다.

동시 실행 및 동시 로드를 위한 설계

사용자가 시스템과 상호작용하는 동안 여러 사용자 요청을 처리하거나 백그라운드 작업을 실행하는 등 여러 작업을 동시에 지원하도록 애플리케이션을 설계합니다. 큰 작업을 여러 서비스 인스턴스에서 동시에 처리할 수 있는 작은 청크로 나눕니다. 작업 동시 실행을 사용하면 자동 확장과 같은 기능을 사용하여 다음과 같이 제품의 리소스 할당을 늘릴 수 있습니다.

유연한 리소스 할당을 위해 모듈성 균형 유지

가능한 경우 각 구성요소가 특정 작업에 필요한 리소스(메모리, 저장소, 처리 성능 등)만 사용하도록 합니다. 리소스를 과도하게 할당하면 불필요한 비용이 발생할 수 있으며 리소스가 부족하면 성능이 저하될 수 있습니다.

잘 정의된 인터페이스 사용

모듈식 구성요소가 명확하고 표준화된 인터페이스 (예: API 및 메시지 큐)를 통해 효과적으로 통신하도록 하여 변환 레이어 또는 관련 없는 트래픽의 오버헤드를 줄입니다.

스테이트리스(Stateless) 모델 사용

스테이트리스(Stateless) 모델을 사용하면 각 요청이나 서비스와의 상호작용을 이전 요청과 별개로 처리할 수 있습니다. 진행 중인 요청이나 프로세스에 필요한 데이터 손실 없이 서비스를 확장, 축소 또는 다시 시작할 수 있기 때문에 이 모델은 확장성과 복구성을 용이하게 합니다.

보완 기술 선택

모듈식 설계를 보완하는 기술을 선택합니다. 프로그래밍 언어, 프레임워크, 데이터베이스의 모듈성 지원 여부 평가

자세한 내용은 다음 리소스를 참조하세요.

지속적인 성능 모니터링 및 개선

Google Cloud Well-Architected Framework의 성능 최적화 요소에 있는 이 원칙은 지속적으로 성능을 모니터링하고 개선하는 데 도움이 되는 권장사항을 제공합니다.

애플리케이션을 배포한 후에는 로그, 추적, 측정항목, 알림을 사용하여 성능을 지속적으로 모니터링합니다. 애플리케이션이 성장하고 발전함에 따라 이러한 데이터 포인트의 추세를 활용하여 성능 요구사항을 재평가할 수 있습니다. 결국 성능을 유지하거나 개선하기 위해 애플리케이션의 일부를 다시 설계해야 할 수 있습니다.

원칙 개요

지속적인 성능 개선 프로세스에는 강력한 모니터링 도구와 전략이 필요합니다. Cloud 관측 가능성 도구를 사용하면 지연 시간, 처리량, 오류율, 리소스 사용률과 같은 핵심성과지표 (KPI)를 수집할 수 있습니다. 클라우드 환경은 애플리케이션, 네트워크, 최종 사용자 환경 전반에 걸쳐 세분화된 성능 평가를 수행할 수 있는 다양한 방법을 제공합니다.

성능 개선은 다면적인 접근 방식이 필요한 지속적인 작업입니다. 다음 주요 메커니즘과 프로세스는 성능을 향상하는 데 도움이 될 수 있습니다.

  • 명확한 방향을 제시하고 진행 상황을 추적하려면 비즈니스 목표에 부합하는 성과 목표를 정의합니다. 구체적이고 측정 가능하고 달성 가능하며 관련성이 높고 기간이 정해진 SMART 목표를 설정하세요.
  • 실적을 측정하고 개선이 필요한 영역을 파악하려면 KPI 측정항목을 수집하세요
  • 시스템의 문제를 지속적으로 모니터링하려면 모니터링 도구에서 시각화된 워크플로를 사용하세요. 아키텍처 프로세스 매핑 기법을 사용하여 중복과 비효율성을 식별합니다.
  • 지속적인 개선 문화를 조성하려면 직원의 성장을 지원하는 교육과 프로그램을 제공하세요.
  • 적극적이고 지속적인 개선을 장려하려면 애플리케이션 성능에 대한 지속적인 피드백을 제공하도록 직원과 고객에게 인센티브를 제공하세요.

권장사항

모듈식 설계를 홍보하려면 다음 섹션의 권장사항을 고려하세요.

명확한 실적 목표 및 측정항목 정의

비즈니스 목표에 부합하는 명확한 성능 목표를 정의합니다. 이를 위해서는 애플리케이션의 아키텍처와 각 애플리케이션 구성요소의 성능 요구사항을 깊이 있게 이해해야 합니다.

핵심 비즈니스 기능과 사용자 환경에 직접 영향을 미치는 가장 중요한 구성요소를 우선으로 최적화하세요. 이러한 구성요소가 계속해서 효율적으로 실행되고 비즈니스 요구사항을 충족하도록 하려면 구체적이고 측정 가능한 실적 목표를 설정하세요. 이러한 목표에는 응답 시간, 오류율, 리소스 사용률 기준점이 포함될 수 있습니다

이러한 사전 예방적인 접근 방식은 잠재적 병목 현상을 식별 및 해결하고 리소스 할당을 최적화하며 궁극적으로 사용자에게 원활하고 우수한 환경을 제공하는 데 도움이 될 수 있습니다.

실적 모니터링

클라우드 시스템에 성능 문제가 있는지 지속적으로 모니터링하고 잠재적인 문제에 대한 알림을 설정합니다. 모니터링과 알림을 통해 문제가 사용자에게 영향을 미치기 전에 포착하여 해결할 수 있습니다. 애플리케이션 프로파일링은 병목 현상을 식별하고 리소스 사용을 최적화하는 데 도움이 될 수 있습니다.

효과적인 문제 해결 및 네트워크 최적화를 용이하게 하는 도구를 사용할 수 있습니다. Google Cloud 관측 가능성을 사용하여 CPU 소비, 메모리 소비 또는 네트워크 소비가 높은 영역을 식별합니다. 이러한 기능은 개발자가 효율성을 개선하고 비용을 절감하며 사용자 환경을 개선하는 데 도움이 될 수 있습니다. Network Intelligence Center는 네트워크 인프라의 토폴로지를 시각화하여 표시하므로 지연 시간이 긴 경로를 식별하는 데 도움이 될 수 있습니다.

지속적인 개선에 인센티브 부여

애플리케이션과 사용자 환경 모두에 도움이 되는 지속적인 개선 문화를 조성합니다.

직원에게 클라우드 서비스 전반의 성능 기법에 대한 기술과 지식을 강화할 수 있는 교육 및 개발 기회를 제공합니다. 실무 커뮤니티 (CoP)를 구축하고 직원 성장을 지원하기 위한 멘토링 및 코칭 프로그램을 제공합니다.

사후 성능 관리를 방지하고 선제적인 성능 관리를 장려하려면 직원, 고객, 이해관계자의 지속적인 피드백을 장려하세요. 성과에 대한 KPI를 추적하고 해당 측정항목을 리그 테이블 형식으로 자주 팀에 제시하여 프로세스를 게임화해 볼 수 있습니다.

시간 경과에 따른 성능과 사용자 만족도를 이해하려면 사용자 의견을 정량적, 정성적으로 측정하는 것이 좋습니다. HEART 프레임워크는 다음 다섯 가지 카테고리에서 사용자 의견을 캡처하는 데 도움이 될 수 있습니다.

  • 행복
  • 참여
  • 채택 현황
  • 유지
  • 태스크 성공

이러한 프레임워크를 사용하면 데이터 기반 피드백, 사용자 중심 측정항목, 활용 가능한 분석 정보, 명확한 목표 이해로 엔지니어에게 인센티브를 제공할 수 있습니다.