안정적인 인프라는 클라우드의 워크로드에 중요한 요구사항입니다. 클라우드 설계자는 워크로드에 안정적인 인프라를 설계하기 위해 선택한 클라우드 제공업체의 안정성 기능을 잘 알고 있어야 합니다. 이 문서에서는 Google Cloud(영역, 리전, 위치 범위 리소스)와 Google Cloud에서 제공하는 가용성 수준에 대한 안정성 구성요소를 설명합니다. 또한 이 문서에서는 워크로드의 안정성 요구사항을 평가하기 위한 가이드라인과 Google Cloud에서 안정적인 인프라를 빌드하고 관리하기 위한 아키텍처 권장사항도 제공합니다.
이 문서는 다음 부분으로 나뉩니다.
- 안정성 개요(이 부분)
- Google Cloud의 신뢰성 기본 구성요소
- 클라우드 워크로드의 안정성 요구사항 평가
- Google Cloud의 워크로드를 위한 안정적인 인프라 설계
- Google Cloud에서 워크로드의 트래픽 및 부하 관리
- Google Cloud 인프라 관리 및 모니터링
이전에 이 가이드를 읽었으며 변경사항을 확인하려면 출시 노트를 참고하세요.
안정성 개요
애플리케이션 또는 워크로드는 가용성 및 장애 복원력에 대한 현재 목표를 충족할 때 안정성을 가집니다.
가용성(또는 업타임)은 애플리케이션을 사용할 수 있는 시간의 비율입니다. 예를 들어 가용성 목표가 99.99%인 애플리케이션의 경우 총 다운타임이 24시간 동안 8.64초를 초과해서는 안 됩니다. 가용성은 특정 기간 동안 애플리케이션이 성공적으로 처리한 요청의 비율로 측정됩니다. 예를 들어 가용성 목표가 99.99%인 애플리케이션의 경우 수신된 요청 100,000개마다 10개 이하의 요청이 실패할 수 있습니다. 가용성은 종종 백분율에 있는 9의 개수로 표현됩니다. 예를 들어 가용성 99.99%는 '4 nines'(4개의 9)로 표현됩니다.
애플리케이션의 목적에 따라 애플리케이션의 신뢰성을 나타내는 지표가 다를 수 있습니다. 다음은 이러한 안정성 지표의 예시입니다.
- 콘텐츠를 제공하는 애플리케이션의 경우 가용성, 지연 시간, 처리량이 중요한 안정성 지표입니다. 애플리케이션이 요청에 응답할 수 있는지 여부, 애플리케이션이 요청에 응답하는 데 걸리는 시간, 애플리케이션이 특정 기간 동안 성공적으로 처리할 수 있는 요청 수를 나타냅니다.
- 데이터베이스 및 스토리지 시스템의 경우 지연 시간, 처리량, 가용성, 내구성(데이터가 손실 또는 손상으로부터 보호되는 정도)이 신뢰성의 지표입니다. 시스템이 데이터를 읽거나 쓰는 데 걸리는 시간과 주문형으로 데이터에 액세스할 수 있는지 여부를 나타냅니다.
- 데이터 처리 파이프라인과 같은 빅데이터 및 분석 워크로드의 경우 데이터 제품의 최신 상태를 보장하려면 일관된 파이프라인 성능(처리량 및 지연 시간)이 필수적이며 중요한 안정성 지표가 됩니다. 처리할 수 있는 데이터 양과 파이프라인이 데이터 수집에서 데이터 처리로 진행되는 데 걸리는 시간을 나타냅니다.
- 대부분의 애플리케이션에서는 데이터 정확성을 필수적인 안정성 지표로 사용합니다.
애플리케이션의 안정성 목표를 정의하는 추가 가이드라인은 클라우드 워크로드의 안정성 요구사항 평가를 참조하세요.
애플리케이션 안정성에 영향을 미치는 요소
Google Cloud에 배포되는 애플리케이션의 안정성은 다음 요소에 따라 달라집니다.
- 애플리케이션의 내부 설계
- 애플리케이션이 사용하는 보조 애플리케이션 또는 구성요소
- 애플리케이션이 실행되는 컴퓨팅, 네트워킹, 스토리지, 데이터베이스, 보안, 애플리케이션이 인프라를 사용하는 방식과 같은 Google Cloud 인프라 리소스
- 프로비저닝하는 인프라 용량 및 용량 확장 방법
- 애플리케이션, 종속 항목, Google Cloud 인프라를 빌드, 배포, 유지보수하는 데 사용하는 DevOps 프로세스 및 도구
이러한 요소는 다음 다이어그램에 요약되어 있습니다.
앞의 다이어그램에 표시된 것처럼 Google Cloud에 배포되는 애플리케이션의 안정성은 여러 요소에 따라 달라집니다. 이 가이드에서는 Google Cloud 인프라의 안정성에 중점을 둡니다.
다음 단계
- Google Cloud의 신뢰성 기본 구성요소
- 클라우드 워크로드의 안정성 요구사항 평가
- Google Cloud의 워크로드를 위한 안정적인 인프라 설계
- Google Cloud에서 워크로드의 트래픽 및 부하 관리
- Google Cloud 인프라 관리 및 모니터링
기여자
저자:
- Nir Tarcic | Cloud Lifecycle SRE UTL
- 저자: 쿠마르 다나고팔 | 크로스 프로덕트 솔루션 개발자
기타 참여자:
- 알록 쿠마르 | 우수 엔지니어
- 앤드루 파이크스 | 안정성 엔지니어링 연구원
- 크리스 하이저 | SRE TL
- 데이비드 퍼거슨 | 사이트 안정성 엔지니어링 상무이사
- 조 탄 | 선임 제품 법률 담당자
- 크리슈토프 두레바 | 수석 엔지니어
- 나라얀 데사이 | 수석 SRE
- 살리쉬 크리슈나무르티 | 엔지니어링 부문 부사장
- 스티브 맥기 | 신뢰성 옹호자
- 수드한슈 자인 | 제품 관리자
- 야니브 아크닌 | 소프트웨어 엔지니어