외부 네트워크에서 보안 BigQuery 데이터 웨어하우스로 데이터 가져오기

Last reviewed 2023-08-15 UTC

많은 조직들이 다양한 비즈니스 목적에 따라 데이터를 분석할 수 있도록 기밀 정보가 저장된 데이터 웨어하우스를 배포합니다. 이 문서는 BigQuery를 사용해서 데이터 웨어하우스를 배포 및 보호하는 데이터 엔지니어 및 보안 관리자를 대상으로 합니다. 이 문서는 다음을 포함하는 보안 청사진의 일부입니다.

  • Terraform 구성 및 스크립트 집합이 포함된 GitHub 저장소 Terraform 구성은 Google Cloud에서 기밀 데이터가 저장된 데이터 웨어하우스를 지원하는 환경을 설정합니다.
  • 이 청사진을 사용하여 구현하는 아키텍처, 디자인 및 보안 제어 가이드(이 문서)

이 문서에서는 다음 사항에 대해 설명합니다.

  • 프로덕션 환경에서 데이터 웨어하우스 보안을 위해 사용할 수 있는 아키텍처 및 Google Cloud 서비스
  • 온프레미스 환경과 같은 외부 네트워크에서 BigQuery로 데이터를 가져오기 위한 권장사항
  • 열 수준 암호화, 기밀 데이터의 차등 처리, 열 수준 액세스 제어를 포함하여 Google Cloud에서 데이터 웨어하우스를 생성, 배포, 운영할 때 데이터 거버넌스에 대한 권장사항

이 문서에서는 Google Cloud 엔터프라이즈 기반 청사진에 설명된 대로 일련의 기본적인 보안 제어가 이미 구성되었다고 가정합니다. 이 문서는 데이터 웨어하우스에서 기밀 데이터 보호를 위해 기존 보안 제어에 추가적인 제어를 쌓을 수 있도록 도와줍니다.

데이터 웨어하우스 사용 사례

이 청사진은 다음 사용 사례를 지원합니다.

개요

BigQuery와 같은 데이터 웨어하우스는 유용한 정보를 얻기 위해 비즈니스 데이터를 분석할 수 있도록 도와줍니다. 분석가는 데이터 웨어하우스에 저장된 비즈니스 데이터에 액세스해서 유용한 정보를 얻어냅니다. 데이터 웨어하우스에 기밀로 간주되는 데이터가 포함되어 있으면 비즈니스 데이터의 보안, 기밀성, 무결성, 가용성 보존을 위해 가져오기 및 저장 중에, 전송 중에, 분석 중에 조치를 취해야 합니다. 이 청사진에서는 다음을 수행합니다.

  • Google Cloud 외부(예: 온프레미스 환경)에 있는 소스 데이터를 암호화하고 BigQuery로 가져옵니다.
  • 기밀 데이터에 대한 보안 액세스 제어를 구성합니다.
  • 데이터 파이프라인 보안 제어를 구성합니다.
  • 서로 다른 캐릭터에 대해 적절한 책임 구분을 구성합니다.
  • 기밀 데이터 보호를 돕기 위해 적절한 보안 제어 및 로깅을 설정합니다.
  • 데이터 분류, 정책 태그, 동적 데이터 마스킹, 열 수준 암호화를 사용하여 데이터 웨어하우스의 특정 열에 대한 액세스를 제한합니다.

아키텍처

기밀 데이터 웨어하우스를 만들려면 데이터를 안전하게 가져온 후 VPC 서비스 제어 경계에 데이터를 저장해야 합니다. 다음 이미지는 데이터가 처리되고 저장되는 방식을 보여줍니다.

외부 네트워크의 보안 데이터 웨어하우스 아키텍처

이 아키텍처에는 다음과 같은 Google Cloud 서비스 및 기능 조합이 사용됩니다.

  • Dedicated Interconnect를 사용하면 네트워크와 Google Cloud 간에 데이터를 이동할 수 있습니다. 네트워크 연결 제품 선택에 설명된 대로 다른 연결 옵션을 사용할 수 있습니다.

  • Identity and Access Management(IAM)Resource Manager는 액세스를 제한하고 리소스를 분류합니다. 액세스 제어 및 리소스 계층 구조는 최소 권한의 원칙을 따릅니다.

  • VPC 서비스 제어는 승인, 액세스 제어, 보안 데이터 교환을 설정하여 서비스 및 리소스를 격리하는 보안 경계를 만듭니다. 경계는 다음과 같습니다.

    • 수신 데이터를 수락하는 데이터 수집 경계(일괄 또는 스트림). 별도의 경계를 사용하면 수신 데이터로부터 나머지 워크로드를 보호할 수 있습니다.
    • 암호화 데이터를 다른 워크로드에서 격리하는 데이터 경계
    • 암호화 키를 저장하고 기밀 데이터로 간주되는 항목을 정의하는 거버넌스 경계

    이러한 경계는 추가적인 액세스 제어 및 모니터링을 설정하여 수신 콘텐츠를 보호하고, 기밀 데이터를 격리시키고, 웨어하우스에 있는 실제 데이터로부터 거버넌스를 구분하기 위해 디자인되었습니다. 거버넌스에는 키 관리, Data Catalog 관리, 로깅이 포함됩니다.

  • Cloud StoragePub/Sub는 다음과 같이 데이터를 수신합니다.

    • Cloud Storage: 일괄 데이터를 수신하고 저장합니다. 기본적으로 Cloud Storage는 TLS를 사용하여 전송 중 데이터를 암호화하고 AES-256을 사용하여 스토리지의 데이터를 암호화합니다. 암호화 키는 고객 관리 암호화 키(CMEK)입니다. 암호화에 관한 자세한 내용은 데이터 암호화 옵션을 참고하세요.

      Identity and Access Management, 액세스 제어 목록(ACL), 정책 문서와 같은 보안 제어를 사용해서 Cloud Storage 버킷 액세스를 보호할 수 있습니다. 지원되는 액세스 제어에 대한 자세한 내용은 액세스 제어 개요를 참조하세요.

    • Pub/Sub: 스트리밍 데이터를 수신하고 저장합니다. Pub/Sub는 CMEK와 함께 인증, 액세스 제어, 메시지 수준 암호화를 사용해서 데이터를 보호합니다.

  • Cloud Run 함수는 Cloud Storage에 의해 트리거되며 Cloud Storage가 처리 버킷에 업로드하는 데이터를 BigQuery에 씁니다.

  • Dataflow 파이프라인은 스트리밍 데이터를 BigQuery에 씁니다. 데이터 보호를 위해 Dataflow는 고유한 서비스 계정과 액세스 제어를 사용합니다. 백엔드 서비스로 이동하여 파이프라인 실행을 보호하기 위해 Dataflow는 Streaming Engine을 사용합니다. 자세한 내용은 Dataflow 보안 및 권한을 참조하세요.

  • 민감한 정보 보호는 BigQuery에 저장된 데이터를 검사하여 보호되지 않은 민감한 정보를 찾습니다. 자세한 내용은 민감한 정보 보호를 사용하여 BigQuery 데이터 스캔을 참고하세요.

  • Cloud HSM은 키 암호화 키(KEK)를 호스팅합니다. Cloud HSM은 클라우드 기반의 하드웨어 보안 모듈(HSM) 서비스입니다. Cloud HSM을 사용하여 네트워크의 데이터를 Google Cloud로 전송하기 전에 데이터를 암호화하는 데 사용하는 암호화 키를 생성합니다.

  • Data Catalog는 BigQuery에서 기밀 데이터를 발견하면 정책 태그라고도 하는 메타데이터를 사용하여 기밀 데이터를 자동으로 분류합니다. 또한 Data Catalog는 메타데이터를 사용해서 기밀 데이터 액세스를 관리합니다. 자세한 내용은 Data Catalog 개요를 참조하세요. 데이터 웨어하우스 내의 데이터 액세스를 제어하기 위해 기밀 데이터가 포함된 열에 정책 태그를 적용합니다.

  • BigQuery는 암호화된 데이터와 래핑된 암호화 키를 별도의 테이블에 저장합니다.

    BigQuery는 액세스 제어, 열 수준 암호화, 열 수준 보안, 데이터 암호화를 포함하여 여러 보안 제어를 사용해서 콘텐츠를 보호합니다.

  • Security Command Center는 중앙의 Google Cloud 환경 전반에서 보안 발견 항목을 모니터링하고 검토합니다.

  • Cloud Logging은 분석 및 조사 도구를 통해 Google Cloud 서비스에서 스토리지 및 검색을 위한 모든 로그를 수집합니다.

  • Cloud Monitoring은 Google Cloud 서비스에 관한 성능 정보와 측정항목을 수집하고 저장합니다.

  • BigQuery용 데이터 프로파일러는 모든 폴더와 프로젝트를 포함하여 전체 조직의 모든 BigQuery 테이블과 열에서 민감한 정보를 자동으로 스캔합니다.

조직 구조

조직 리소스를 관리하고 테스트 환경을 프로덕션 환경에서 분리하기 위해 조직 리소스를 그룹화할 수 있습니다. Resource Manager를 사용하면 프로젝트, 폴더, 조직별로 리소스를 논리적으로 그룹화할 수 있습니다.

다음 다이어그램은 부트스트랩, 공통, 프로덕션, 비프로덕션(또는 스테이징), 개발 등의 여러 다른 환경을 나타내는 폴더로 나눠진 리소스 계층 구조를 보여줍니다. 이 계층 구조는 엔터프라이즈 기반 청사진에서 사용하는 조직 구조와 일치합니다. 청사진에서 대부분의 프로젝트는 프로덕션 폴더에 배포하고 데이터 거버넌스 프로젝트는 거버넌스에 사용되는 공통 폴더에 배포합니다.

외부 네트워크의 보안 데이터 웨어하우스에 대한 리소스 계층 구조

대체 리소스 계층 구조는 Google Cloud 시작 영역의 리소스 계층 구조 결정을 참고하세요.

폴더

폴더를 사용하여 프로덕션 환경 및 거버넌스 서비스를 비프로덕션 및 테스트 환경에서 격리합니다. 다음 표에서는 이 청사진에 사용되는 엔터프라이즈 기반 청사진의 폴더에 대해 설명합니다.

폴더 설명
부트스트랩 엔터프라이즈 기반 청사진을 배포하는 데 필요한 리소스를 포함합니다.
일반 데이터 거버넌스 프로젝트와 같은 조직의 중앙화된 서비스를 포함합니다.
프로덕션 테스트를 거쳐 사용할 준비가 된 클라우드 리소스가 있는 프로젝트를 포함합니다. 이 청사진의 프로덕션 폴더에는 데이터 수집 프로젝트와 데이터 프로젝트가 포함되어 있습니다.
비프로덕션 현재 출시용으로 테스트 및 스테이징된 클라우드 리소스가 있는 프로젝트가 포함됩니다. 이 청사진의 비프로덕션 폴더에는 데이터 수집 프로젝트와 데이터 프로젝트가 포함되어 있습니다.
개발 현재 개발 중인 클라우드 리소스가 있는 프로젝트를 포함합니다. 이 청사진의 개발 폴더에는 데이터 수집 프로젝트와 데이터 프로젝트가 포함되어 있습니다.

조직의 폴더 구조에 맞게 이러한 폴더 이름을 변경할 수 있지만 폴더 구조를 비슷하게 유지하는 것이 좋습니다. 자세한 내용은 Google Cloud 엔터프라이즈 기반 청사진을 참조하세요.

프로젝트

프로젝트를 사용하여 환경의 각 부분을 격리합니다. 다음 표에서는 조직 내에 필요한 프로젝트에 대해 설명합니다. Terraform 코드를 실행할 때 이러한 프로젝트를 만듭니다. 이러한 프로젝트 이름을 변경할 수 있지만 프로젝트 구조를 비슷하게 유지하는 것이 좋습니다.

프로젝트 설명
데이터 수집 데이터를 수신하고 BigQuery에 쓰는 데 필요한 서비스가 포함됩니다.
데이터 거버넌스 키 관리, 로깅, 데이터 카탈로그 기능을 제공하는 서비스를 포함합니다.
데이터 데이터를 저장하는 데 필요한 서비스를 포함합니다.

이러한 프로젝트 외에도 해당 환경에는 Dataflow Flex 템플릿 작업을 호스팅하는 프로젝트가 포함되어야 합니다. Flex 템플릿 작업은 스트리밍 데이터 파이프라인에 필요합니다.

프로젝트에 역할 및 그룹 매핑

조직 내 여러 다른 사용자 그룹에 기밀 데이터 웨어하우스를 구성하는 프로젝트에 대한 액세스 권한을 부여해야 합니다. 다음 섹션에서는 생성된 프로젝트에서 사용자 그룹 및 역할 할당을 위한 청사진 권장사항에 대해 설명합니다. 조직의 기존 구조에 맞게 그룹을 맞춤설정할 수 있지만 책임 구분 및 역할 할당을 비슷하게 유지하는 것이 좋습니다.

데이터 분석가 그룹

데이터 분석가는 웨어하우스의 데이터를 보고 분석합니다. 이 그룹은 데이터가 데이터 웨어하우스에 로드된 후 데이터를 확인하고 암호화된 데이터 뷰어 그룹과 동일한 작업을 실행할 수 있습니다. 이 그룹은 다음 표에 설명된 것처럼 여러 다른 프로젝트의 역할이 필요합니다.

할당 범위 역할
데이터 수집 프로젝트
데이터 프로젝트
데이터 정책 수준 마스킹된 리더(roles/bigquerydatapolicy.maskedReader)

암호화된 데이터 뷰어 그룹

암호화된 데이터 뷰어 그룹은 Cloud Looker Studio 및 SAP Business Objects와 같은 다른 보고 도구를 통해 BigQuery 보고 테이블의 암호화된 데이터를 볼 수 있습니다. 암호화된 데이터 뷰어 그룹은 암호화된 열의 일반 텍스트 데이터를 볼 수 없습니다.

이 그룹은 데이터 프로젝트의 BigQuery 사용자(roles/bigquery.jobUser) 역할이 필요합니다. 이 그룹은 데이터 정책 수준에서 마스킹된 리더(roles/bigquerydatapolicy.maskedReader)도 필요합니다.

일반 텍스트 리더 그룹

일반 텍스트 리더 그룹에는 복호화 사용자 정의 함수(UDF)를 호출하여 일반 텍스트 데이터를 볼 수 있는 권한과 마스킹되지 않은 데이터를 읽을 수 있는 추가 권한이 있습니다. 이 그룹은 다음 표에 설명된 것처럼 데이터 프로젝트의 역할이 필요합니다.

이 그룹은 데이터 프로젝트의 다음 역할이 필요합니다.

또한 이 그룹에는 Data Catalog 수준에서 세분화된 권한의 리더(roles/datacatalog.categoryFineGrainedReader) 역할이 필요합니다.

데이터 엔지니어 그룹

데이터 엔지니어는 데이터 파이프라인 및 웨어하우스를 설정하고 유지 관리합니다. 이 그룹은 다음 표에 설명된 것처럼 여러 다른 프로젝트의 역할이 필요합니다.

할당 범위 역할
데이터 수집 프로젝트
데이터 프로젝트
  • BigQuery 데이터 편집자(roles/bigquery.dataeditor)
  • BigQuery 작업 사용자(roles/bigquery.jobUser)
  • Cloud Build 편집자(roles/cloudbuild.builds.editor)
  • Cloud KMS 뷰어(roles/cloudkms.viewer)
  • Compute 네트워크 사용자(roles/compute.networkuser)
  • Dataflow 관리자(roles/dataflow.admin)
  • DLP 관리자(roles/dlp.admin)
  • 로그 뷰어(roles/logging.viewer)

네트워크 관리자 그룹

네트워크 관리자는 네트워크를 구성합니다. 네트워크 관리자는 일반적으로 네트워킹팀의 구성원입니다.

네트워크 관리자는 조직 수준에서 다음 역할이 필요합니다.

  • Compute 관리자(roles/compute.networkAdmin)
  • 로그 뷰어(roles/logging.viewer)

보안 관리자 그룹

보안 관리자는 액세스, 키, 방화벽 규칙, VPC 서비스 제어, Security Command Center와 같은 보안 제어를 관리합니다.

보안 관리자는 조직 수준에서 다음 역할이 필요합니다.

보안 분석가 그룹

보안 분석가는 보안 이슈 및 Sensitive Data Protection 발견 항목을 모니터링하고 대응합니다.

보안 분석가는 조직 수준에서 다음 역할이 필요합니다.

그룹 액세스 흐름의 예

다음 섹션에서는 보안 데이터 웨어하우스 솔루션 내 두 그룹의 액세스 흐름을 설명합니다.

암호화된 데이터 뷰어 그룹의 액세스 흐름

다음 다이어그램은 암호화된 데이터 뷰어 그룹의 사용자가 BigQuery의 암호화된 데이터에 액세스하려고 할 때의 상황을 보여줍니다.

암호화된 데이터 뷰어 그룹의 흐름

BigQuery의 데이터에 액세스하는 단계는 다음과 같습니다.

  1. 암호화된 데이터 뷰어는 BigQuery에서 다음 쿼리를 실행하여 기밀 정보에 액세스합니다.

    SELECT ssn, pan FROM cc_card_table
    
  2. BigQuery는 다음과 같이 액세스를 확인합니다.

    • 사용자가 만료되지 않은 유효한 Google Cloud 사용자 인증 정보를 사용하여 인증됩니다.
    • 요청이 발생한 사용자 ID 및 IP 주소가 VPC 서비스 제어 경계의 액세스 수준/인그레스 규칙에 있는 허용 목록에 포함되어 있습니다.
    • IAM은 사용자에게 적절한 역할이 있고 BigQuery 테이블에서 선택한 암호화된 열에 액세스할 권한이 있는지 확인합니다.

BigQuery는 기밀 데이터를 암호화된 형식으로 반환합니다.

일반 텍스트 리더 그룹의 액세스 흐름

다음 다이어그램은 일반 텍스트 리더 그룹의 사용자가 BigQuery의 암호화된 데이터에 액세스하려고 할 때 어떻게 되는지 보여줍니다.

일반 텍스트 리더 그룹의 흐름

BigQuery의 데이터에 액세스하는 단계는 다음과 같습니다.

  1. 일반 텍스트 리더는 BigQuery에서 다음 쿼리를 실행하여 복호화된 형식의 기밀 데이터에 액세스합니다.

    SELECT decrypt_ssn(ssn) FROM cc_card_table
    
  2. BigQuery는 쿼리 내에서 복호화 사용자 정의 함수(UDF)를 호출하여 보호된 열에 액세스합니다.

  3. 액세스는 다음과 같이 확인됩니다.

    • IAM은 사용자에게 적절한 역할이 있고 BigQuery의 복호화 UDF에 액세스할 권한이 있는지 확인합니다.
    • UDF는 민감한 정보 열을 보호하는 데 사용된 래핑 데이터 암호화 키(DEK)를 검색합니다.

    복호화 UDF는 Cloud HSM에서 키 암호화 키(KEK)를 호출하여 DEK를 래핑 해제합니다. 복호화 UDF는 BigQuery AEAD 복호화 함수를 사용하여 민감한 정보 열을 복호화합니다.

  4. 사용자에게 민감한 정보 열의 일반 텍스트 데이터에 대한 액세스 권한이 부여됩니다.

필요한 보안 제어 이해

이 섹션에서는 Google Cloud 내에서 데이터 웨어하우스 보안을 위해 사용하는 보안 제어에 대해 설명합니다. 고려해야 할 중요한 보안 원칙은 다음과 같습니다.

  • 최소 권한 원칙을 채택하여 액세스를 보호합니다.
  • 세분화 설계 및 정책을 통해 네트워크 연결을 보호합니다.
  • 각 서비스에 대한 구성을 보호합니다.
  • 위험 수준에 따라 데이터를 분류 및 보호합니다.
  • 데이터 웨어하우스를 호스팅하는 환경의 보안 요구사항을 이해합니다.
  • 감지, 조사, 대응을 위해 충분한 모니터링 및 로깅을 구성합니다.

데이터 수집을 위한 보안 제어

데이터 웨어하우스를 만들려면 온프레미스 환경, 다른 클라우드 또는 다른 Google Cloud 소스의 다른 소스에서 데이터를 전송해야 합니다. 이 문서에서는 온프레미스 환경 또는 다른 클라우드에서 데이터를 전송하는 방법을 중점적으로 설명합니다. 다른 Google Cloud 소스에서 데이터를 전송하는 경우 Google Cloud에서 보안 BigQuery 데이터 웨어하우스로 데이터 가져오기를 참고하세요.

다음 옵션 중 하나를 사용하여 BigQuery에서 데이터를 데이터 웨어하우스에 전송할 수 있습니다.

  • Cloud Storage 버킷에 데이터를 로드하는 일괄 작업
  • Pub/Sub를 사용하는 스트리밍 작업.

수집 중 데이터 보호를 위해서는 클라이언트 측 암호화, 방화벽 규칙, 액세스 수준 정책을 사용할 수 있습니다. 일부 경우에는 수집 프로세스를 추출, 변환, 로드(ETL) 프로세스라고도 부릅니다.

Google Cloud에 대한 암호화된 연결

Cloud VPN 또는 Cloud Interconnect를 사용하여 Google Cloud와 환경 간에 전송되는 모든 데이터를 보호할 수 있습니다. 이 청사진에서는 대량의 데이터를 스트리밍하는 경우 중요한 직접 연결 및 높은 처리량을 제공하는 Dedicated Interconnect를 권장합니다.

환경에서 Google Cloud에 대한 액세스를 허용하려면 액세스 수준 정책 규칙에 허용 목록에 추가된 IP 주소를 정의해야 합니다.

네트워크 및 방화벽 규칙

가상 프라이빗 클라우드(VPC) 방화벽 규칙은 경계로의 데이터 흐름을 제어합니다. restricted.googleapis.com 특수 도메인 이름에서의 특정 TCP 포트 443 연결을 제외하고 모든 이그레스를 거부하는 방화벽 규칙을 만듭니다. restricted.googleapis.com 도메인에는 다음과 같은 이점이 있습니다.

  • 워크로드가 Google API 및 서비스와 통신할 때 비공개 Google 액세스를 사용해서 네트워크가 공격 표면을 줄이는 데 도움이 됩니다.
  • VPC 서비스 제어를 지원하는 서비스만 사용하도록 보장합니다.

자세한 내용은 비공개 Google 액세스 구성을 참조하세요.

데이터 파이프라인을 사용하려면 harness-projects 모듈 저장소의 dataflow_firewall.tf 파일에 정의된 대로 방화벽에서 TCP 포트를 열어야 합니다. 자세한 내용은 인터넷 액세스 및 방화벽 규칙 구성을 참조하세요.

리소스가 외부 IP 주소를 사용할 수 없도록 하려면 VM 인스턴스에 허용된 외부 IP 정의(compute.vmExternalIpAccess) 조직 정책을 모두 거부로 설정합니다.

경계 제어

아키텍처 다이어그램에 표시된 것처럼 데이터 웨어하우스에 대한 리소스를 개별 경계에 배치합니다. 여러 다른 경계의 서비스가 데이터를 공유할 수 있게 하려면 경계 브리지를 만듭니다.

경계 브리지는 보호되는 서비스가 해당 경계 외부에서 리소스를 요청할 수 있게 해줍니다. 이러한 브리지는 다음 연결을 수행합니다.

  • 데이터를 BigQuery로 수집할 수 있도록 데이터 수집 프로젝트를 데이터 프로젝트에 연결합니다.
  • 민감한 정보 보호가 BigQuery의 보호되지 않는 기밀 데이터를 스캔할 수 있도록 데이터 프로젝트를 데이터 거버넌스 프로젝트에 연결합니다.
  • 로깅, 모니터링, 암호화 키에 액세스하기 위해 데이터 수집 프로젝트를 데이터 거버넌스 프로젝트에 연결합니다.

경계 브리지 외에도 이그레스 규칙을 사용하여 경계로 보호되는 리소스가 경계 외부의 리소스에 액세스하도록 허용할 수 있습니다. 이 솔루션에서는 외부 프로젝트의 Cloud Storage에 있는 외부 Dataflow Flex 템플릿 작업을 가져오도록 이그레스 규칙을 구성합니다. 자세한 내용은 경계 외부 Google Cloud 리소스 액세스를 참조하세요.

액세스 정책

특정 ID(사용자 또는 서비스)만 리소스 및 데이터에 액세스할 수 있도록 IAM 그룹 및 역할을 사용 설정합니다.

특정 소스만 프로젝트에 액세스하도록 하려면 Google 조직에 대해 액세스 정책을 사용 설정합니다. 온프레미스 환경에서 발생하는 요청에 허용되는 IP 주소 범위를 지정하고 특정 사용자 또는 서비스 계정의 요청만 허용하는 액세스 정책을 만드는 것이 좋습니다. 자세한 내용은 액세스 수준 속성을 참조하세요.

클라이언트측 암호화

민감한 정보를 Google Cloud로 이전하기 전에 로컬에서 데이터를 암호화하여 저장 중과 전송 중 모두를 보호하세요. Tink 암호화 라이브러리를 사용하거나 다른 암호화 라이브러리를 사용할 수 있습니다. Tink 암호화 라이브러리는 BigQuery AEAD 암호화와 호환되며, 블루프린트는 이 암호화를 사용하여 데이터를 가져온 후 열 수준으로 암호화된 데이터를 복호화합니다.

Tink 암호화 라이브러리는 로컬 또는 Cloud HSM에서 생성할 수 있는 DEK를 사용합니다. DEK를 래핑하거나 보호하려면 Cloud HSM에서 생성된 KEK를 사용하면 됩니다. KEK는 Cloud HSM에 안전하게 저장되고 IAM 역할 및 권한을 사용하여 관리되는 대칭 CMEK 암호화 키 세트입니다.

처리 중에 래핑된 DEK와 데이터가 모두 BigQuery에 저장됩니다. BigQuery에는 데이터용 테이블과 래핑된 DEK용 테이블이 두 개 포함되어 있습니다. 분석가가 기밀 정보를 확인해야 하는 경우 BigQuery는 AEAD 복호화를 사용하여 KEK로 DEK의 래핑을 해제하고 보호된 열을 복호화할 수 있습니다.

또한 Tink를 사용한 클라이언트 측 암호화는 BigQuery의 민감한 정보 열을 암호화하여 데이터를 추가적으로 보호합니다. 이 청사진은 다음 Cloud HSM 암호화 키를 사용합니다.

  • Pub/Sub, 스트리밍을 위한 Dataflow 파이프라인, Cloud Storage 일괄 업로드, 후속 일괄 업로드를 위한 Cloud Run 함수 아티팩트에서도 사용되는 수집 프로세스를 위한 CMEK 키
  • Tink를 사용하여 네트워크에서 암호화된 데이터를 위해 Cloud HSM으로 래핑된 암호화 키
  • 데이터 프로젝트에서 BigQuery 웨어하우스에 대한 CMEK 키

키가 저장되었고 액세스하도록 제공되는 지리적 위치를 결정하는 CMEK 위치를 지정합니다. CMEK가 리소스와 동일한 위치에 있는지 확인해야 합니다. 기본적으로 CMEK는 30일마다 순환됩니다.

조직의 규정 준수 책임에 따라 Google Cloud 외부에서 자체 키를 관리해야 하는 경우 Cloud 외부 키 관리자를 사용 설정할 수 있습니다. 외부 키를 사용하는 경우 키 순환을 포함한 키 관리 활동을 수행해야 합니다.

서비스 계정 및 액세스 제어

서비스 계정은 사용자 대신 API 요청을 실행하기 위해 Google Cloud에서 사용할 수 있는 ID입니다. 서비스 계정은 사용자 ID가 서비스에 직접 액세스하지 못하게 해줍니다. 책임 분리를 허용하기 위해서는 특정 목적에 따라 여러 역할을 사용해서 서비스 계정을 만듭니다. 이러한 서비스 계정은 data-ingestion-sa 모듈data-governance-sa 모듈에 정의되어 있습니다.

서비스 계정은 다음과 같습니다.

  • Cloud Storage 서비스 계정은 처리 저장소 버킷에 대한 자동 일괄 데이터 업로드 프로세스를 실행합니다.
  • Pub/Sub 서비스 계정을 사용하면 Pub/Sub 서비스로 데이터를 스트리밍할 수 있습니다.
  • Dataflow 컨트롤러 서비스 계정은 Dataflow 파이프라인이 Pub/Sub에서 BigQuery로 데이터를 변환하고 쓰는 데 사용됩니다.
  • Cloud Run 함수 서비스 계정은 Cloud Storage에서 업로드된 후속 일괄 데이터를 BigQuery에 씁니다.
  • 스토리지 업로드 서비스 계정을 사용하면 ETL 파이프라인에서 객체를 만들 수 있습니다.
  • Pub/Sub 쓰기 서비스 계정을 사용하면 ETL 파이프라인이 Pub/Sub에 데이터를 쓸 수 있습니다.

다음 표에서는 각 서비스 계정에 할당된 역할을 보여줍니다.

이름 역할 할당 범위
Dataflow 컨트롤러 서비스 계정 데이터 수집 프로젝트
데이터 프로젝트
데이터 거버넌스
Cloud Run Functions 서비스 계정 데이터 수집 프로젝트
  • BigQuery 데이터 편집자(roles/bigquery.dataEditor)
  • BigQuery 메타데이터 뷰어(roles/bigquery.metadataViewer)
데이터 프로젝트
Storage 업로드 서비스 계정 데이터 수집 프로젝트
Pub/Sub 쓰기 서비스 계정 데이터 수집 프로젝트

데이터 스토리지를 위한 보안 제어

BigQuery 웨어하우스에서 데이터 보호를 위해 다음 보안 제어를 구성합니다.

  • 열 수준 액세스 제어
  • 제한된 역할을 포함하는 서비스 계정
  • 민감한 필드의 동적 데이터 마스킹
  • 조직 정책
  • 민감한 정보 보호 자동 스캔 및 데이터 프로파일러
  • 적절한 경계 브리지가 있는 데이터 수집 프로젝트와 데이터 프로젝트 사이의 VPC 서비스 제어 경계
  • 다음과 같은 암호화 및 키 관리:
    • Cloud HSM에 저장된 CMEK 키를 사용한 저장 데이터 암호화
    • Tink 및 BigQuery AEAD 암호화를 사용한 열 수준 암호화

동적 데이터 마스킹

동적 데이터 마스킹을 구성하여 데이터 액세스 정책을 대규모로 공유하고 적용할 수 있습니다. 동적 데이터 마스킹을 사용하면 기존 쿼리가 다음 기준을 사용하여 열 데이터를 자동으로 마스킹할 수 있습니다.

  • 쿼리 런타임에서 열에 적용되는 마스킹 규칙입니다.
  • 쿼리를 실행하는 사용자에게 할당된 역할입니다. 마스킹 해제된 열 데이터에 액세스하려면 데이터 분석가에게 세분화된 권한의 리더 역할이 있어야 합니다.

BigQuery에서 열에 대해 액세스를 정의하기 위해서는 정책 태그를 만듭니다. 예를 들어 독립형 예시에서 생성된 분류는 신용 한도와 같이 공개될 수 없는 데이터가 포함된 열에 대해 1_Sensitive 정책 태그를 만듭니다. 이러한 열에 기본 데이터 마스킹 규칙이 적용되어 열 값이 숨겨집니다.

태그가 지정되지 않은 항목은 모두 데이터 웨어하우스에 액세스할 수 있는 모든 사용자에게 제공됩니다. 이러한 액세스 제어는 데이터가 BigQuery에 기록되더라도 사용자에게 액세스 권한이 명시적으로 부여될 때까지 민감한 필드의 데이터를 읽을 수 없도록 합니다.

열 수준 암호화 및 복호화

열 수준 암호화를 사용하면 BigQuery의 데이터를 더 세부적인 수준에서 암호화할 수 있습니다. 전체 테이블을 암호화하는 대신 BigQuery 내에서 민감한 정보가 포함된 열을 선택하면 해당 열만 암호화됩니다. BigQuery는 암호화 및 복호화 키가 포함된 키 세트를 만드는 AEAD 암호화 및 복호화 함수를 사용합니다. 그런 후 이러한 키가 테이블의 개별 값을 암호화 및 복호화하고 키 세트 내에서 키를 순환시키는 데 사용됩니다. 열 수준 암호화는 BigQuery의 암호화된 데이터에 대한 이중 액세스 제어를 제공합니다. 데이터를 일반 텍스트로 읽으려면 사용자에게 테이블과 암호화 키 모두에 대한 권한이 있어야 하기 때문입니다.

Cloud DLP를 사용한 BigQuery용 데이터 프로파일러

데이터 프로파일러를 사용하면 BigQuery 테이블에서 민감하고 위험성이 높은 데이터의 위치를 식별할 수 있습니다. 데이터 프로파일러는 모든 폴더와 프로젝트를 포함하여 전체 조직의 모든 BigQuery 테이블과 열을 자동으로 스캔하고 분석합니다. 그러면 데이터 프로파일러는 예측된 infoTypes, 평가된 데이터 위험 및 민감도 수준, 테이블에 대한 메타데이터와 같은 측정항목을 출력합니다. 이러한 통계를 사용하여 데이터의 보호, 공유, 사용 방식에 대해 정보에 입각한 결정을 내릴 수 있습니다.

제한된 역할을 포함하는 서비스 계정

승인된 사용자만 민감한 정보 필드를 볼 수 있도록 데이터 프로젝트에 대한 액세스를 제한해야 합니다. 이렇게 하려면 승인된 사용자가 가장해야 하는 roles/iam.serviceAccountUser 역할로 서비스 계정을 만듭니다. 서비스 계정 가장 기능은 사용자가 서비스 계정 키를 다운로드하지 않아도 서비스 계정을 사용할 수 있게 함으로써 프로젝트의 전반적인 보안 수준을 향상시켜 줍니다. 가장은 roles/iam.serviceAccountTokenCreator 역할이 있는 승인된 사용자가 다운로드할 수 있는 단기 토큰을 만듭니다.

조직 정책

이 청사진에는 엔터프라이즈 기반 청사진에 사용되는 조직 정책 제약조건과 몇 가지 추가적인 제약조건이 포함되어 있습니다. 엔터프라이즈 기반 청사진에 사용되는 제약조건에 대한 자세한 내용은 조직 정책 제약조건을 참조하세요.

다음 표에서는 organization-policies 모듈에 정의된 추가 조직 정책 제약조건을 설명합니다.

정책 제약조건 이름 권장값
특정 물리적 위치로 리소스 배포를 제한합니다. gcp.resourceLocations 다음 중 하나입니다.
in:us-locations
in:eu-locations
in:asia-locations
CMEK 보호 요구 gcp.restrictNonCmekServices bigquery.googleapis.com
서비스 계정 생성 사용 중지 iam.disableServiceAccountCreation true
서비스 계정 키 생성 사용 중지 disableServiceAccountKeyCreation true
프로젝트에 생성된 VM에 대해 OS 로그인 사용 설정 compute.requireOsLogin true
기본 서비스 계정에 대한 자동 역할 부여 사용 중지 automaticIamGrantsForDefaultServiceAccounts true
허용되는 인그레스 설정 (Cloud Run 함수) cloudfunctions.allowedIngressSettings ALLOW_INTERNAL_AND_GCLB
IP 주소를 기준으로 새 전달 규칙을 내부 전용으로 제한합니다. compute.restrictProtocolForwardingCreationForTypes INTERNAL
Cloud Logging에 대해 직렬 포트 출력 로깅을 사용 중지합니다. compute.disableSerialPortLogging true
Compute Engine 리소스가 사용할 수 있는 공유 VPC 서브네트워크 집합을 정의합니다. compute.restrictSharedVpcSubnetworks projects/PROJECT_ID/regions/REGION/subnetworks/SUBNETWORK-NAME

SUBNETWORK-NAME을 청사진에서 사용할 비공개 서브넷의 리소스 ID로 바꿉니다.

운영 제어

Security Health Analytics 및 Event Threat Detection과 같은 로깅 및 Security Command Center 프리미엄 등급 기능을 사용 설정할 수 있습니다. 이러한 제어는 다음을 수행하는 데 도움이 됩니다.

  • 데이터에 액세스할 수 있는 사용자를 모니터링합니다.
  • 적절한 감사가 설정되어 있는지 확인합니다.
  • 구성 오류가 있는 클라우드 리소스에 대한 발견 항목을 생성합니다.
  • 이슈 관리 및 운영팀의 발생 가능한 이슈 대응 능력을 지원합니다.

액세스 투명성

액세스 투명성Google 지원 담당자가 사용자 데이터에 액세스해야 할 경우 실시간 알림을 제공합니다. 액세스 투명성 로그는 사람이 콘텐츠에 액세스할 때마다 생성되며, 지원 케이스와 같은 적절한 비즈니스 사유가 있는 Google 직원만 액세스 권한을 획득할 수 있습니다. 액세스 투명성을 사용 설정하는 것이 좋습니다.

로깅

감사 요구사항을 충족시키고 프로젝트에 대한 유용한 정보를 얻기 위해서는 추적하려는 서비스에 대한 데이터 로그를 사용해서 Google Cloud Observability를 구성합니다. 하네스 로깅 모듈은 다음 권장사항을 구성합니다.

프로젝트 내의 모든 서비스에 대해서 로그에는 데이터 읽기 및 쓰기에 대한 정보 및 관리자가 읽은 항목에 대한 정보가 포함되어야 합니다. 추가 로깅 권장사항은 엔터프라이즈 기반 청사진의 감지 제어를 참고하세요.

알림 및 모니터링

청사진을 배포한 후에는 보안 이슈가 발생할 수 있음을 보안 운영 센터(SOC)에 알릴 수 있도록 알림을 설정할 수 있습니다. 예를 들어 알림을 사용하여 IAM 권한이 변경되었을 때 이를 보안 분석가에게 알려줄 수 있습니다. Security Command Center 알림 구성에 대한 자세한 내용은 발견 항목 알림 설정을 참조하세요. Security Command Center에서 게시되지 않는 추가 알림은 Cloud Monitoring을 사용해서 알림을 설정합니다.

추가 보안 고려사항

이 솔루션에 설명된 보안 제어 외에도 이 솔루션 사용과 겹치고 상호작용하는 핵심 영역에서 보안 및 위험을 검토하고 관리해야 합니다. 이러한 보안 고려사항에는 다음이 포함됩니다.

  • Dataflow 작업 및 Cloud Run 함수를 구성, 배포, 실행하는 데 사용하는 코드의 보안
  • 이 솔루션에 사용되는 데이터 분류 용어
  • 암호화 키의 생성 및 관리
  • 데이터 웨어하우스에서 저장 및 분석하는 데이터 세트의 콘텐츠, 품질, 보안
  • 다음을 포함하여 솔루션을 배포하는 전체 환경
    • 이 솔루션에 연결하는 네트워크의 설계, 세분화, 보안
    • 조직의 IAM 제어에 대한 보안 및 거버넌스
    • 이 솔루션에 속하는 인프라에 대해 액세스 권한을 부여하는 작업자 및 해당 인프라에서 저장 및 관리되는 데이터에 액세스 권한이 있는 사용자에 대한 인증 및 승인 설정

총정리

이 문서에 설명된 아키텍처를 구현하려면 다음을 수행합니다.

  1. 엔터프라이즈 기반 청사진을 사용하거나 자체적으로 청사진을 배포할지 여부를 결정합니다. 엔터프라이즈 기반 청사진을 배포하지 않기로 한 경우에는 해당 환경에 비슷한 보안 기준이 설정되어 있어야 합니다.
  2. 네트워크에 Dedicated Interconnect 연결을 설정합니다.
  3. 청사진의 README를 검토하고 모든 기본 요건을 충족해야 합니다.
  4. 조직 구조에 설명된 대로 사용자 ID에 조직의 개발 폴더에 대한 iam.serviceAccountUseriam.serviceAccountTokenCreator 역할이 있는지 확인합니다. 테스트에 사용할 폴더가 없는 경우 폴더를 만들고 액세스를 구성합니다.
  5. 결제 계정 ID, 조직의 표시 이름, 테스트 또는 데모 폴더의 폴더 ID, 다음 사용자 그룹의 이메일 주소를 기록합니다.
    • 데이터 분석가
    • 암호화된 데이터 뷰어
    • 일반 텍스트 리더
    • 데이터 엔지니어
    • 네트워크 관리자
    • 보안 관리자
    • 보안 분석가
  6. 데이터, 데이터 거버넌스, 데이터 수집, Flex 템플릿 프로젝트를 만듭니다. 사용 설정해야 하는 API 목록은 리드미를 참조하세요.
  7. Terraform용 서비스 계정을 만들고 모든 프로젝트에 적절한 역할을 할당합니다.
  8. 액세스 제어 정책을 설정합니다.
  9. 테스트 환경에서 솔루션을 배포합니다.

    1. Terraform 스크립트를 클론하고 실행하여 Google Cloud에서 환경을 설정합니다.
    2. 네트워크에 Tink 암호화 라이브러리를 설치합니다.
    3. 네트워크에서 Tink 라이브러리를 실행할 수 있도록 애플리케이션 기본 사용자 인증 정보를 설정합니다.
    4. Cloud KMS로 암호화 키를 만듭니다.
    5. Tink를 사용하여 암호화된 키 집합을 생성합니다.
    6. 다음 방법 중 하나를 사용하여 Tink로 데이터를 암호화합니다.

    7. 스트리밍 또는 일괄 업로드를 사용하여 암호화된 데이터를 BigQuery에 업로드합니다.

  10. 승인된 사용자가 BigQuery AEAD 복호화 함수를 사용하여 BigQuery에서 암호화되지 않은 데이터를 읽을 수 있는지 확인합니다. 예를 들어 다음 복호화 함수 만들기를 실행합니다.

    CREATE OR REPLACE FUNCTION `{project_id}.{bigquery_dataset}.decrypt`(encodedText STRING) RETURNS STRING AS
    (
    AEAD.DECRYPT_STRING(
    KEYS.KEYSET_CHAIN('gcp-kms://projects/myProject/locations/us/keyRings/myKeyRing/cryptoKeys/myKeyName', b'\012\044\000\321\054\306\036\026…..'),
    FROM_BASE64(encodedText), "")
    );
    

    뷰 생성 쿼리를 실행합니다.

    CREATE OR REPLACE VIEW `{project_id}.{bigquery_dataset}.decryption_view` AS
    
    SELECT
     Card_Type_Code,
     Issuing_Bank,
     Card_Number,
     `bigquery_dataset.decrypt`(Card_Number) AS Card_Number_Decrypted
    FROM `project_id.dataset.table_name`
    

    뷰에서 선택 쿼리를 실행합니다.

    SELECT
      Card_Type_Code,
      Issuing_Bank,
      Card_Number,
      Card_Number_Decrypted
    FROM
    `{project_id}.{bigquery_dataset}.decrypted_view`
    

    추가 쿼리 및 사용 사례는 Cloud KMS를 사용한 열 수준 암호화를 참고하세요.

  11. Security Command Center를 사용해서 규정 준수 요구사항에 따라 새로 생성된 프로젝트를 스캔합니다.

  12. 프로덕션 환경에 청사진을 배포합니다.

다음 단계