이 문서에서는 분석 하이브리드 및 멀티 클라우드 패턴의 목표가 트랜잭션 워크로드와 분석 워크로드 간의 분할을 활용하는 것이라고 설명합니다.
엔터프라이즈 시스템에서 대부분의 워크로드는 다음과 같은 범주로 분류됩니다.
- 트랜잭션 워크로드에는 영업, 재무 처리, 엔터프라이즈 리소스 계획 또는 통신과 같은 대화형 애플리케이션이 포함됩니다.
- 분석 워크로드에는 데이터를 변환, 분석, 상세검색 또는 시각화하여 의사결정 프로세스를 지원하는 애플리케이션이 포함됩니다.
분석 시스템은 API를 쿼리하거나 데이터베이스에 액세스하여 트랜잭션 시스템에서 데이터를 얻습니다. 대부분의 기업에서 분석 및 트랜잭션 시스템은 분리되어 느슨하게 결합되는 경향이 있습니다. 분석 하이브리드 및 멀티 클라우드 패턴의 목표는 두 가지 컴퓨팅 환경에서 트랜잭션 및 분석 워크로드를 실행하여 기존의 이러한 분할을 활용하는 것입니다. 원시 데이터는 비공개 컴퓨팅 환경에서 실행 중인 워크로드에서 추출된 다음 분석 처리에 사용되는 Google Cloud에 로드됩니다. 일부 결과는 트랜잭션 시스템에 다시 공급될 수 있습니다.
다음 다이어그램은 잠재적인 데이터 파이프라인을 보여줌으로써 개념적으로 가능한 아키텍처를 보여줍니다. 각 경로/화살표는 사용 가능한 데이터 품질 및 타겟팅된 사용 사례에 따라 ETL 또는 ELT를 기반으로 할 수 있는 가능한 데이터 이동 및 변환 파이프라인 옵션을 나타냅니다.
Google Cloud로 데이터를 이전하고 데이터에서 가치를 창출하려면 데이터 수집, 통합, 복제 서비스의 완전한 제품군인 데이터 이동 서비스를 사용하세요.
위의 다이어그램에서 볼 수 있듯이 Google Cloud를 온프레미스 환경 및 기타 클라우드 환경과 연결하면 데이터 스트리밍 및 데이터베이스 백업과 같은 다양한 데이터 분석 사용 사례를 사용할 수 있습니다. 대량의 데이터 전송이 필요한 하이브리드 및 멀티 클라우드 분석 패턴의 기본 전송을 지원하기 위해 Cloud Interconnect 및 Cross-Cloud Interconnect는 온프레미스 및 기타 클라우드 제공업체에 대한 전용 연결을 제공합니다.
장점
클라우드에서 분석 워크로드를 실행하면 다음과 같은 몇 가지 주요 이점이 있습니다.
- 인바운드 트래픽(비공개 컴퓨팅 환경 또는 다른 클라우드에서 Google Cloud로 데이터 이동)은 무료일 수 있습니다.
- 분석워크로드는 상당한 양의 데이터를 처리해야 하는 경우가 많고 데이터가 급증할 수 있으므로, 특히 퍼블릭 클라우드 환경에 배포하기에 적합합니다. 컴퓨팅 리소스를 동적으로 확장하여 대규모 데이터 세트를 신속하게 처리할 수 있으며 초기 투자를 하거나 컴퓨팅 장비를 오버프로비저닝할 필요가 없습니다.
- Google Cloud는 초기 구입부터 처리 및 분석, 최종 시각화까지 전체 수명 주기 동안 데이터를 관리할 수 있는 다양한 서비스를 제공합니다.
- Google Cloud의 데이터 이동 서비스는 다양한 방식으로 데이터를 원활하게 이동, 통합, 변환할 수 있는 완전한 제품군을 제공합니다.
- Cloud Storage는 데이터 레이크를 빌드하는 데 매우 적합합니다.
Google Cloud를 사용하면 데이터 플랫폼을 현대화하고 최적화하여 데이터 사일로를 허물 수 있습니다. 데이터 레이크하우스를 사용하면 다양한 스토리지 형식을 표준화하는 데 도움이 됩니다. 또한 데이터에서 비효율성이 아닌 비즈니스 가치를 창출하는 데 필요한 유연성, 확장성, 민첩성을 제공할 수 있습니다. 자세한 내용은 BigLake를 참조하세요.
BigQuery Omni는 AWS 또는 Azure의 스토리지에 로컬로 실행되는 컴퓨팅 성능을 제공합니다. 또한 Amazon Simple Storage Service(Amazon S3) 또는 Azure Blob Storage에 저장된 자체 데이터를 쿼리하는 데도 도움이 됩니다. 이 멀티 클라우드 분석 기능을 사용하면 데이터팀이 데이터 사일로를 허물 수 있습니다. BigQuery 외부에 저장된 데이터를 쿼리하는 방법에 관한 자세한 내용은 외부 데이터 소스 소개를 참조하세요.
권장사항
분석 하이브리드 및 멀티 클라우드 아키텍처 패턴을 구현하려면 다음과 같은 일반적인 권장사항을 고려하세요.
- 핸드오버 네트워킹 패턴을 사용하여 데이터 수집을 사용 설정합니다. 분석 결과를 트랜잭션 시스템에 다시 제공해야 하는 경우 핸드오버 및 게이트 이그레스 패턴을 결합할 수 있습니다.
- Pub/Sub 큐 또는 Cloud Storage 버킷을 사용하여 비공개 컴퓨팅 환경에서 실행 중인 트랜잭션 시스템에서 Google Cloud로 데이터를 전송합니다. 이러한 큐 또는 버킷이 데이터 처리 파이프라인과 워크로드의 소스로 사용될 수 있습니다.
- ETL 및 ELT 데이터 파이프라인을 배포하려면 특정 사용 사례 요구사항에 따라 Cloud Data Fusion 또는 Dataflow를 사용하는 것이 좋습니다. 두 서비스 모두 데이터 파이프라인을 빌드하고 관리하기 위한 완전 관리형 클라우드 중심 데이터 처리 서비스입니다.
- 가치 있는 데이터 애셋을 탐색, 분류, 보호하려면 익명화 기법과 같은 Google Cloud Sensitive Data Protection 기능을 사용하는 것이 좋습니다. 이러한 기법을 사용하면 해당하고 규정을 준수하는 경우 무작위로 생성되거나 사전 결정된 키를 사용하여 개인 식별 정보(PII)와 같은 민감한 정보를 마스킹, 암호화, 대체할 수 있습니다.
- 기존 Hadoop 또는 Spark 워크로드가 있는 경우, 작업을 Dataproc으로 마이그레이션하고 기존 HDFS 데이터를 Cloud Storage로 마이그레이션하는 것을 고려합니다.
비공개 컴퓨팅 환경에서 Google Cloud로 초기 데이터 전송을 수행하는 경우 데이터 세트 크기 및 사용 가능한 대역폭에 가장 적합한 전송 방식을 선택합니다. 자세한 내용은 Google Cloud로 마이그레이션: 대규모 데이터 세트 전송을 참조하세요.
Google Cloud와 다른 클라우드 간에 트래픽 볼륨이 많은 장기적인 데이터 전송 또는 교환이 필요한 경우 Google Cloud Cross-Cloud Interconnect를 사용하여 Google Cloud와 다른 클라우드 서비스 제공업체 간에 고대역폭 전용 연결을 설정하는 것이 좋습니다(일부 위치에서 사용 가능).
연결 레이어에서 암호화가 필요한 경우 선택한 하이브리드 연결 솔루션에 따라 다양한 옵션을 사용할 수 있습니다. 이러한 옵션에는 VPN 터널, Cloud Interconnect를 통한 HA VPN, Cross-Cloud Interconnect용 MACsec이 포함됩니다.
여러 환경에서 일관된 도구와 프로세스를 사용합니다. 분석 하이브리드 시나리오에서는 이러한 관행이 선행 조건은 아니지만 운영 효율성을 높이는 데 도움이 될 수 있습니다.