이 문서에서는 Dataplex 영역의 정의와 Dataplex 레이크에 영역을 추가하는 방법을 설명합니다.
개요
Dataplex 영역은 Dataplex 레이크 내의 이름이 지정된 항목입니다. 스토리지는 Cloud Storage 버킷, BigQuery 데이터 세트, BigQuery 테이블과 같은 여러 애셋으로 구성된 구조화되지 않은 데이터, 반구조화된 데이터, 구조화된 데이터의 논리적 그룹입니다.
호수에는 하나 이상의 영역이 포함될 수 있습니다. 영역은 하나의 레이크에만 속할 수 있지만 상위 프로젝트 외부의 프로젝트에 속한 리소스를 가리키는 애셋을 포함할 수 있습니다.
Dataplex에서 영역의 구성을 선택할 수 있습니다. 원시 영역과 선별된 영역이라는 두 가지 유형의 영역을 선택할 수 있습니다.
원시 영역
원시 영역은 구조화된 데이터, CSV 파일 및 JSON 파일과 같은 반구조화된 데이터, 외부 소스의 형식을 불문한 구조화되지 않은 데이터를 저장합니다. 원시 영역은 변환을 수행하기 전에 원시 데이터를 스테이징하는 데 유용합니다. 데이터는 Cloud Storage 버킷 또는 BigQuery 데이터 세트에 저장할 수 있습니다.
원시 영역은 읽기 및 쓰기 권한에 대한 버킷 수준 또는 데이터 세트 수준 세부사항을 지원합니다. 원시 영역에 저장할 수 있는 데이터 유형에는 제한이 없습니다.
선별된 영역
선별된 영역은 구조화된 데이터를 저장합니다. 데이터는 Cloud Storage 버킷 또는 BigQuery 데이터 세트에 저장할 수 있습니다.
Cloud Storage 버킷에 지원되는 형식에는 Parquet, Avro, ORC가 있습니다. 선별된 영역은 분석에 사용하기 전에 처리가 필요한 데이터를 스테이징하거나 분석할 준비가 된 데이터를 제공하는 데 유용합니다.
BigQuery 테이블의 경우 잘 정의된 스키마와 Hive 스타일 파티션이 있어야 합니다. 선별된 영역에서 지정된 테이블의 스키마를 제공할 때 데이터는 스키마 드리프트 없이 테이블에 정의된 스키마를 준수해야 합니다. 즉, 데이터는 테이블에 정의된 스키마와 호환되어야 하며 새 파티션에는 테이블 스키마와 충돌하는 스키마가 없어야 합니다.
선별된 영역은 읽기 및 쓰기 권한에 대한 Cloud Storage 버킷 수준 또는 BigQuery 데이터 세트 수준 세부사항을 지원합니다.
시작하기 전에
레이크에 영역을 추가하려면 먼저 레이크가 있어야 합니다. 아직 레이크가 없는 경우 레이크를 만듭니다.
대부분 gcloud lake
명령어에는 위치가 필요합니다. --location
매개변수를 설정하여 위치를 지정할 수 있습니다.
필요한 역할
영역을 추가하는 데 필요한 권한을 얻으려면 관리자에게 프로젝트에 대한 Dataplex 관리자 (roles/dataplex.admin
) IAM 역할을 부여해 달라고 요청하세요.
역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.
이 사전 정의된 역할에는 영역을 추가하는 데 필요한 dataplex.lakes.create
권한이 포함되어 있습니다.
커스텀 역할이나 다른 사전 정의된 역할을 사용하여 이 권한을 부여받을 수도 있습니다.
영역 추가
레이크에 여러 영역을 추가할 수 있습니다. 한 번에 하나의 영역을 추가할 수 있지만 영역이 생성되는 동안에도 레이크를 계속 사용할 수 있습니다.
기존 호수에 구역을 추가하려면 다음 단계를 따르세요.
콘솔
Google Cloud 콘솔에서 Dataplex로 이동합니다.
관리 뷰로 이동합니다.
관리 뷰에서 영역을 추가할 레이크의 이름을 클릭합니다.
영역 탭에서
영역 추가를 클릭합니다.영역의 표시 이름을 입력합니다.
유형 메뉴를 클릭합니다. 원시 영역 또는 선별된 영역을 선택합니다. 지원되는 영역 유형에 대해 자세히 알아보세요.
선택사항: 설명을 입력합니다.
데이터 위치에서 리전 또는 멀티 리전을 선택합니다. 선택한 내용은 나중에 변경할 수 없습니다. 단일 리전 및 멀티 리전 데이터는 같은 영역에서 함께 사용할 수 없습니다.
선택사항: Dataplex가 영역의 데이터에서 메타데이터를 자동으로 스캔하고 추출할 수 있는 메타데이터 검색을 사용 설정합니다.
탐색 설정을 클릭합니다.
메타데이터 검색 사용 설정이 선택되어 있는지 확인합니다.
선택사항: 패턴 포함에서 검색 스캔에 포함할 파일을 나열합니다.
선택사항: 패턴 제외에서 검색 스캔에서 제외할 파일을 나열합니다. 포함 패턴과 제외 패턴을 모두 입력하면 제외 패턴이 먼저 적용됩니다.
반복 메뉴를 클릭하고 빈도를 선택합니다. 맞춤을 선택하는 경우 일정 필드에 작업 일정을 입력합니다. 그렇지 않으면 Schedule 값이 자동으로 채워집니다.
시간대 메뉴를 클릭하고 시간대를 선택합니다.
만들기를 클릭합니다.
REST
영역을 추가하려면 lakes.zones.create 메서드를 사용합니다.
영역을 만드는 데 몇 분 정도 걸릴 수 있습니다.
영역 생성에 성공하면 영역이 자동으로 활성 상태로 전환됩니다. 실패하면 레이크가 이전 상태로 롤백됩니다.
영역을 만든 후 Cloud Storage 버킷 및 BigQuery 데이터 세트에 저장된 데이터를 영역에 애셋으로 매핑할 수 있습니다. 자세한 내용은 애셋 추가를 참고하세요.
다음 단계
- 버킷 관리 방법을 알아봅니다.
- 레이크를 만드는 방법 알아보기
- Cloud 감사 로그에 대해 자세히 알아보기