Dataplex 카탈로그 개요

이 문서에서는 메타데이터를 저장, 관리, 액세스할 수 있는 플랫폼을 제공하는 Dataplex 카탈로그에 대해 설명합니다.

Dataplex 카탈로그는 BigQuery와 같은 Google Cloud 리소스와 온프레미스 리소스와 같은 기타 리소스의 통합 인벤토리를 제공합니다. Google Cloud 리소스의 메타데이터가 자동으로 수집되고 서드 파티 리소스의 메타데이터를 Dataplex 카탈로그로 가져옵니다.

Dataplex 카탈로그를 사용하면 비즈니스 및 기술 메타데이터를 추가하여 인벤토리를 보강하고 리소스에 관한 컨텍스트와 지식을 캡처할 수 있습니다. Dataplex Catalog를 사용하면 조직 전반에서 데이터를 검색하고 탐색할 수 있으며 데이터 애셋에 대한 데이터 거버넌스를 사용 설정할 수 있습니다.

사용 사례

Dataplex 카탈로그를 사용하여 다음을 수행할 수 있습니다.

  • 데이터를 탐색하고 및 이해합니다. Dataplex 카탈로그는 조직 전반의 데이터 리소스를 파악할 수 있도록 지원합니다. 이를 통해 데이터 소비 요구사항과 관련된 리소스를 찾을 수 있습니다. 데이터 리소스에 대한 컨텍스트를 제공하므로 데이터 소비자의 요구사항에 데이터 리소스가 적합한지 파악하는 데 도움이 됩니다.

  • 데이터 거버넌스 및 데이터 관리를 사용 설정합니다. Dataplex 카탈로그는 데이터 거버넌스 및 데이터 관리 기능을 지원하고 강화할 수 있는 메타데이터를 제공합니다.

  • 확장 가능하고 포괄적인 메타데이터 저장소를 유지합니다. Dataplex 카탈로그는 Google Cloud 리소스에서 자동으로 수집된 메타데이터를 저장하고 액세스 권한을 제공합니다. Google Cloud 이외의 시스템에서 자체 메타데이터를 통합할 수 있습니다. 비즈니스 및 기술 메타데이터 주석을 추가하여 모든 메타데이터를 보강할 수 있습니다.

Dataplex 카탈로그 작동 방식

Dataplex 카탈로그는 다음 개념을 기반으로 합니다.

  • 항목: 항목은 데이터 애셋을 나타냅니다. 대부분의 메타데이터는 항목 내의 관점으로 설명됩니다. 이는 Data Catalog의 항목과 유사합니다. 자세한 내용은 항목을 참조하세요.

  • 관점: 관점은 항목 내의 관련 메타데이터 필드 집합입니다. 관점은 항목의 구성 요소 또는 추가 메타데이터로 해석될 수 있습니다. 이는 Data Catalog의 태그와 유사하지만, 관점은 독립형 리소스가 아닌 항목 내에 저장됩니다. 자세한 내용은 관점을 참고하세요.

  • 관점 유형: 관점 유형은 관점에 재사용 가능한 템플릿입니다. 모든 관점은 관점 유형의 인스턴스입니다. 이는 Data Catalog의 태그 템플릿과 유사합니다. 자세한 내용은 관점 유형을 참조하세요.

  • 항목 그룹: 항목 그룹은 항목의 컨테이너로, 이러한 항목의 관리 단위 역할을 합니다. 예를 들어 항목 그룹을 사용하여 항목 그룹의 항목에 대한 IAM 액세스 제어, 프로젝트 기여 분석 또는 위치를 구성할 수 있습니다. 이는 Data Catalog의 항목 그룹과 유사합니다. 자세한 내용은 항목 그룹을 참조하세요.

  • 항목 유형: 항목 유형은 항목을 만드는 템플릿입니다. 이 유형의 항목에 필요한 관점 목록으로 설명된 필수 메타데이터 요소를 설정합니다. 자세한 내용은 항목 유형을 참조하세요.

    항목 및 항목 그룹
    그림 1. 항목 및 항목 그룹
    관점 유형 및 항목 유형
    그림 2. 관점 유형 및 항목 유형

다음은 Dataplex 카탈로그의 몇 가지 사용 사례입니다.

  • 데이터 분석가 또는 비즈니스 분석가는 조직 전체에서 항목을 검색하고 항목과 연결된 메타데이터를 탐색할 수 있습니다. 자세한 내용은 데이터 애셋 검색을 참조하세요.
  • 데이터 소유자 또는 데이터 관리자는 항목에 관점을 주석으로 추가하여 추가 기술 및 비즈니스 메타데이터를 캡처할 수 있습니다. 자세한 내용은 관점 관리 및 메타데이터 보강을 참조하세요.
  • 데이터 소유자 또는 데이터 관리자는 주석(관점 유형 사용) 및 커스텀 항목(항목 유형 사용)에 대한 표준을 정의하여 메타데이터의 일관성을 유지할 수 있습니다. 자세한 내용은 관점 관리 및 메타데이터 보강을 참조하세요.
  • 데이터 엔지니어는 Google Cloud 리소스와 서드 파티 시스템의 리소스를 비롯한 리소스의 통합 인벤토리를 보유할 수 있습니다. Google Cloud 리소스는 Dataplex 카탈로그에서 자동으로 수집되며 Google Cloud 이외의 리소스는 사용자가 수집합니다. 자세한 내용은 항목 관리 및 커스텀 소스 수집을 참조하세요.

Data Catalog를 이미 사용 중인 경우 다음 사항에 유의하세요.

  • Data Catalog에서 만든 커스텀 항목, 개요 컨텍스트, 항목 그룹을 Dataplex 카탈로그에서 사용할 수 있습니다.
  • Data Catalog에서 만든 태그 및 태그 템플릿은 Dataplex 카탈로그에서 사용할 수 없습니다.
  • Dataplex 카탈로그에서 데이터 애셋을 검색하면 Dataplex 카탈로그에서 직접 만든 메타데이터와 Data Catalog에서 Dataplex 카탈로그로 가져온 메타데이터가 모두 포함됩니다.
  • Data Catalog에서 데이터 애셋을 검색하면 Data Catalog에서 생성된 메타데이터만 포함됩니다.
  • Data Catalog의 항목 그룹 설명이 1,024자를 초과하면 Dataplex 카탈로그에서 1,024자로 잘립니다.

Dataplex 카탈로그와 Data Catalog 비교

Dataplex 카탈로그는 Dataplex에서 메타데이터를 관리하는 기능을 제공합니다. 별도의 메타데이터 스토리지와 Dataplex API에 통합된 새로운 API 메서드 집합이 함께 제공됩니다.

Dataplex 카탈로그의 주요 기능은 다음과 같습니다.

  • 더 강력한 메타모델

    • 입력된 항목 커스텀 항목에 필요한 메타데이터 콘텐츠를 정의하여 최소 메타데이터 표준을 적용할 수 있습니다.
    • 커스텀 항목을 위한 사용자가 구성할 수 있는 메타모델로, 커스텀 수집을 더 강력하게 만들고 커스텀 메타데이터의 일관성과 포괄성을 개선하는 데 도움이 됩니다.
    • 목록, 맵, 배열과 같은 중첩 구조 지원을 비롯하여 더 다양하고 복잡한 메타데이터를 지원합니다.
  • 단일 원자 CRUD 작업을 통해 항목과 연결된 모든 메타데이터와 상호작용하는 기능과 검색 또는 목록 응답과 연결된 여러 메타데이터 주석을 가져오는 기능을 비롯하여 확장성이 향상되었습니다.

다음 표에서는 Dataplex 카탈로그와 Data Catalog의 기능을 비교합니다.

Dataplex 카탈로그와 Data Catalog 비교
기능 Dataplex 카탈로그 Data Catalog
지원되는 Google Cloud 소스 이 문서의 지원되는 Google Cloud 소스 섹션에 설명된 모든 소스 항목 및 항목 그룹에 설명된 모든 소스
커스텀 소스 수집

항목 유형으로 정의된 관리되는 구조로 커스텀 항목에 수집

Data Catalog 커스텀 항목 및 항목 그룹은 Dataplex 카탈로그에서 generic 항목 유형으로 사용할 수 있습니다.

일반 커스텀 항목으로 수집
메타데이터 보강 항목의 메타데이터 컨텍스트는 관점과 관점 유형을 사용하여 캡처됩니다. 항목의 메타데이터 컨텍스트는 태그 및 태그 템플릿을 사용하여 캡처됩니다.
검색 다음 사항에 대해 검색이 실행됩니다.
  • 지원되는 Google Cloud 소스에 설명된 모든 Google Cloud 소스
  • Dataplex 카탈로그에서 생성된 커스텀 항목
  • Dataplex 카탈로그에서 생성된 관점
  • Data Catalog에서 만들어 Dataplex 카탈로그로 가져온 커스텀 항목

검색 결과에는 검색이 실행되는 프로젝트와 동일한 VPC-SC 경계에 속하는 리소스만 포함됩니다. Google Cloud 콘솔을 사용하는 경우 콘솔에서 선택한 프로젝트입니다.

항목을 검색하려면 검색에 사용되는 프로젝트의 Dataplex 카탈로그 IAM 역할이 1개 이상 필요합니다. 검색 결과에 대한 권한은 선택한 프로젝트와는 별개로 확인됩니다.

다음 사항에 대해 검색이 실행됩니다.
  • 항목 및 항목 그룹에 설명된 모든 Google Cloud 소스
  • Data Catalog에서 생성된 커스텀 항목
  • Data Catalog에서 생성된 태그

다음 표에서는 Dataplex 카탈로그 리소스가 Data Catalog 리소스에 어떻게 대응하는지 설명합니다.

Dataplex 카탈로그와 Data Catalog 리소스 간의 매핑
Dataplex 카탈로그 리소스 Data Catalog 리소스 설명
관점 유형(global) 공개 태그 템플릿 태그 템플릿은 리전별 리소스입니다. 하지만 이를 사용하여 여러 리전에서 태그를 만들 수 있습니다. 태그 템플릿은 Dataplex 카탈로그의 global 관점 유형에 해당합니다.
선택적 관점 공개 태그 Data Catalog의 공개 태그는 Dataplex 카탈로그의 선택적 관점에 해당합니다.
항목 그룹 항목 그룹 Google Cloud 소스의 경우 @bigquery와 같은 시스템 항목 그룹이 Dataplex 카탈로그에서 프로젝트별로 설정됩니다.
커스텀 항목의 필수 관점 커스텀 항목

Data Catalog와 Dataplex 카탈로그는 커스텀 항목에 관한 유사한 개념을 공유합니다.

표준 항목 속성은 Dataplex 카탈로그에서 필수 관점으로 모델링됩니다.

시스템 항목의 필수 관점 시스템(Google Cloud) 항목 BigQuery 테이블의 Schema와 같은 기본 제공 항목을 설명하는 메타데이터는 시스템 정의 관점 유형의 필수 관점에 캡처됩니다.

Data Catalog에서 사용할 수 있고 Dataplex 카탈로그에서 지원되지 않는 기능에 관한 자세한 내용은 이 문서의 Dataplex 카탈로그에서 지원되지 않는 기능 섹션을 참조하세요.

지원되는 소스

다음 Google Cloud 소스의 메타데이터는 Dataplex 카탈로그에 자동으로 수집됩니다.

  • Analytics Hub 교환 및 목록
  • BigQuery 데이터 세트, 테이블, 모델, 루틴, 연결, 연결된 데이터 세트
  • Bigtable 인스턴스, 클러스터, 테이블(column family 세부정보 포함)
  • Cloud SQL 인스턴스, 데이터베이스, 스키마, 테이블, 뷰: Cloud SQL 통합 사용 설정을 참조하세요.
  • Dataproc Metastore 서비스, 데이터베이스, 테이블
  • Pub/Sub 주제
  • Spanner 인스턴스, 데이터베이스, 테이블, 뷰
  • Vertex AI 모델, 데이터 세트, 특성 그룹, 특성 뷰, 온라인 상점 인스턴스

서드 파티 소스에서 Dataplex 카탈로그로 메타데이터를 가져오려면 관리형 연결 파이프라인을 사용하면 됩니다.

프로젝트 및 위치 제약조건

Dataplex 카탈로그 리소스는 다양한 프로젝트 및 위치에 보관됩니다. 다음과 같은 제한사항이 적용됩니다.

  • 위치:

    • 항목의 위치가 항목 유형의 위치와 일치하거나 항목 유형이 global이어야 합니다.
    • 항목에 추가된 관점은 항목과 동일한 위치에 저장된 관점 유형을 기반으로 하거나 관점 유형이 global이어야 합니다.
    • 항목 유형은 항목 유형과 동일한 위치에 저장된 관점 유형으로 구성되어야 합니다.
  • 프로젝트:

    • 항목 유형이 커스텀 관점 유형을 참조하는 경우 관점 유형은 항목 유형과 동일한 위치 및 프로젝트에 있어야 합니다.

Dataplex 카탈로그에서 지원되지 않는 기능

Data Catalog에서 사용할 수 있는 다음 기능은 Dataplex 카탈로그에서 지원되지 않습니다.

  • 비공개 관점 및 관점 유형의 개념은 Dataplex 카탈로그에서 지원되지 않습니다. 관점에 대한 액세스 권한은 관점이 포함된 항목과 연결된 권한에 따라 관리됩니다. 자세한 내용은 Dataplex IAM 역할을 참조하세요.
  • Dataplex 카탈로그 검색에서는 정책 태그 검색이 지원되지 않습니다. 따라서 조건자 policytagpolicytagid는 Dataplex 카탈로그 검색에서 작동하지 않습니다.
  • Dataplex 카탈로그로 가져온 Data Catalog 커스텀 항목의 경우 현재 메타데이터의 기존 IAM 권한이 복사된 메타데이터에 자동으로 전파되지 않습니다. 복사된 메타데이터를 사용하기 전에 IAM 권한을 명시적으로 구성해야 합니다.
  • Sensitive Data Protection 작업 결과를 Dataplex Catalog로 전송하는 것은 지원되지 않습니다.
  • API를 사용하여 프로젝트 전체에서 항목 유형과 관점 유형을 나열할 수는 없습니다. 목록 요청 범위를 프로젝트로만 제한할 수 있습니다.
  • Dataplex 항목의 열에 비즈니스 용어집 용어를 연결할 수 없습니다.
  • 관점 유형을 만든 후에는 필수 관점 유형 목록을 수정할 수 없습니다.
  • Dataplex 카탈로그에서 직접 만든 항목의 경우 데이터 계보가 Google Cloud 콘솔에 계보 이벤트를 표시하지만 소스, 타겟 또는 프로세스에 관한 자세한 정보는 표시하지 않습니다. 또한 데이터 계보는 Google Cloud 콘솔의 항목에 관점을 표시하지 않습니다.

가격 책정

Dataplex는 메타데이터 스토리지 SKU를 사용하여 메타데이터 스토리지 요금을 청구합니다. 자세한 내용은 Dataplex 가격 책정을 참조하세요.

다음은 무료로 사용할 수 있습니다.

  • Dataplex 카탈로그 리소스 만들기 및 관리
  • Dataplex 카탈로그의 Search API 호출
  • Google Cloud 콘솔의 Dataplex 카탈로그 페이지에서 실행된 검색어

다음 단계