Dataplex 권장사항

이 문서에서는 Dataplex 사용에 대한 안내와 권장사항을 설명합니다.

호수에 맞는 프로젝트 선택

레이크를 호스팅할 프로젝트를 선택할 때는 다음 사항을 고려하세요.

  • 프로젝트는 레이크 내에 저장될 데이터와 동일한 VPC 서비스 제어 경계에 속해야 합니다.

  • 호수 서비스 계정에는 Cloud Storage 버킷 또는 BigQuery 데이터 세트에 대한 관리자 권한이 필요합니다. Dataplex는 Cloud Storage에서 검색된 테이블에 대해 BigQuery에 외부 테이블을 만듭니다. 또한 Dataproc Metastore에 사용 가능한 BigQuery 테이블 메타데이터 및 Cloud Storage 버킷에서 검색된 테이블을 만듭니다. Dataproc Metastore는 데이터 레이크 프로젝트 내에 있습니다.

Cloud Storage 설정 및 제한사항

  • 리전: Dataplex는 일부 Google Cloud 리전에서 단일 리전 및 멀티 리전 버킷을 지원합니다.

  • 스토리지 클래스: 모든 스토리지 클래스의 Cloud Storage 버킷이 지원됩니다(Standard, Nearline, Coldline, Archive). Nearline, Coldline, Archive 데이터 액세스 또는 스캔에 대해 데이터 검색 비용이 추가로 발생할 수 있습니다.

  • 버킷 ACL: Dataplex는 균일한 액세스 제어를 사용하는 Cloud Storage 버킷만 지원합니다. 세분화된 액세스 제어는 지원되지 않습니다.

  • 요청자 지불: 요청자 지불 기능이 사용 설정된 Cloud Storage 버킷은 지원되지 않습니다.

보안 및 권한 안내

Dataplex를 사용하려면 관리형 버킷 및 데이터 세트에 Dataplex 서비스 계정을 관리 서비스 계정으로 추가해야 합니다.

Dataplex를 사용하면 분석가가 여러 프로젝트에서 Cloud Storage 버킷 및 BigQuery 데이터 세트에 액세스할 수 있습니다. 이 액세스를 지원하려면 Dataplex에서 해당 프로젝트에 대한 관리 제어 기능이 있는 Dataplex 서비스 계정을 추가해야 합니다.

검색을 위해 Dataplex는 Cloud Storage 버킷에 Dataproc Metastore 서비스 계정을 추가합니다. 자체 Dataproc Metastore 클러스터가 있는 경우 레이크를 만들 때 Dataplex 레이크가 Dataproc Metastore 서비스를 사용하도록 하는 옵션을 선택할 수 있습니다.

레이크에 대한 세분화된 액세스 권한을 갖는 Cloud Storage 버킷을 추가하면, 버킷의 모든 객체에 Dataplex 권한이 전파되므로 Dataplex가 레이크를 통해 해당 버킷에 대한 전체 액세스 권한을 제공합니다. 세분화된 액세스 권한이 필요한 경우 버킷의 데이터를 여러 버킷으로 분할하는 것이 좋습니다.

다음 단계