Data Catalog 개요

Dataplex의 Data Catalog 기능은 조직 데이터 애셋의 중앙 인벤토리입니다. Data Catalog는 BigQuery, Vertex AI, Pub/Sub, Spanner, Bigtable과 같은 Google Cloud 소스의 메타데이터를 자동으로 분류합니다. Data Catalog는 탐색을 통해 Cloud Storage의 테이블 및 파일 세트 메타데이터의 색인을 생성합니다.

Dataplex의 관리되는 조직 전체 메타데이터 검색 기능을 사용하여 데이터를 탐색할 수 있습니다. 중요한 비즈니스 컨텍스트로 메타데이터를 더욱 풍부하게 만들고 계보 추적, 데이터 프로파일링, 데이터 품질 검사, 액세스 제어 기능을 사용 설정할 수 있습니다.

Data Catalog를 사용하면 조직은 더 나은 데이터 검색, 메타데이터 관리, 거버넌스를 달성할 수 있습니다.

Data Catalog가 필요한 이유는 무엇인가요?

대부분의 조직은 점점 증가하는 대규모 데이터 애셋을 다룹니다. 조직 내의 데이터 이해관계자 (소비자, 제작자, 관리자)는 다음과 같은 여러 문제를 겪고 있습니다.

  • 유용한 데이터 검색:

    • 데이터 소비자는 데이터의 위치와 출처를 알 수 없습니다. 데이터 '늪'을 탐색해야 합니다.
    • 대부분의 데이터는 잘 문서화되어 있지 않으며 문서화되어 있더라도 제대로 유지관리되어 있지 않으므로 데이터 소비자는 유용한 정보를 얻기 위해 어떤 데이터를 사용해야 할지 모릅니다.
    • 데이터가 사람들의 머리 속에만 있으면 찾을 수 없으며 손실되기 쉽습니다.
  • 데이터 이해:

    • 프로덕션에서 사용할 수 있도록 최신이며 정제, 검증, 승인된 최신 데이터인가요?
    • 여러 중복 데이터 세트 중 관련이 있는 어떤 데이터 세트가 관련성이 있고 최신인가요?
    • 하나의 데이터 세트는 다른 데이터 세트와 어떤 관련이 있나요?
    • 누가 데이터를 사용하고 누가 소유자인가요?
    • 누가 어떤 프로세스로 데이터를 변환하나요?
  • 데이터를 유용하게 활용:

    • 데이터 제작자가 소비자를 위한 데이터를 전달할 수 있는 효율적인 방법이 없습니다. 셀프서비스가 없으면 제작자는 소비자를 감당할 수 없습니다. 데이터 엔지니어 몇 명이 데이터 분석가 수천 명에게 데이터를 수동으로 제공할 수는 없습니다.

    • 데이터 소비자가 데이터 액세스를 요청하는 방법을 직접 알아내고, 기약 없이 응답을 기다리고, 에스컬레이션하고, 다시 기다려야 한다면 소중한 시간을 낭비하는 셈입니다.

적절한 도구가 없다면 이 문제가 데이터를 효율적으로 사용하는 데 심각한 장애물이 됩니다. Data Catalog를 사용하는 조직은 중앙 저장소에서 다음을 수행할 수 있습니다.

  • 통합 뷰가 있으면 적절한 데이터를 쉽게 찾을 수 있습니다.
  • 기술 및 비즈니스 메타데이터로 데이터를 보강하여 데이터 중심의 의사결정을 지원하고 통계 시간을 단축합니다.
  • 데이터 관리를 개선하여 운영 효율성과 생산성을 향상합니다.
  • 데이터에 대한 소유권을 기반으로 신뢰성을 높입니다.

Data Catalog 함수

Data Catalog는 3가지 주요 기능을 제공합니다.

  • 액세스 권한이 있는 데이터 항목 검색
  • 메타데이터로 데이터 항목에 태그 지정
  • BigQuery 테이블에 대한 열 수준 보안 제공

또한 Data Catalog는 민감한 정보 보호 스캔의 결과를 활용하여 Data Catalog 내에서 태그 템플릿 형태로 민감한 정보를 직접 식별할 수 있습니다.

Data Catalog 작동 방식

Data Catalog는 다양한 Google Cloud 시스템의 애셋 메타데이터를 카탈로그화할 수 있습니다.

Data Catalog API를 사용하여 커스텀 데이터 소스와 통합할 수도 있습니다.

데이터가 카탈로그화된 후 태그를 사용하여 고유한 메타데이터를 이러한 자산에 추가할 수 있습니다.

Data Catalog는 BigQuery, Pub/Sub, Dataproc Metastore, Cloud Storage와 같은 Google Cloud 데이터 소스와 Hive, Oracle과 같은 비클라우드 데이터 소스에서 메타데이터를 검색합니다.
그림 1. Data Catalog는 Google Cloud 서비스 및 커스텀 데이터 소스에서 메타데이터를 읽습니다.

Data Catalog 메타데이터

Data Catalog는 기술 메타데이터비즈니스 메타데이터라는 두 가지 유형의 메타데이터를 처리합니다. 메타데이터에 대한 자세한 내용은 Data Catalog 메타데이터를 참조하세요.

검색 및 탐색

Data Catalog는 데이터 항목과 연결된 기술 및 비즈니스 메타데이터에 대해 강력한 조건자 기반 검색 환경을 제공합니다. 메타데이터에 검색 및 탐색을 적용할 수 있도록 데이터 항목의 메타데이터를 읽을 수 있는 권한이 있어야 합니다. Data Catalog는 데이터 항목 내의 데이터에 대한 색인을 생성하지 않습니다. Data Catalog는 애셋을 설명하는 메타데이터의 색인만 생성합니다.

Data Catalog는 사용자가 생성한 태그 같은 일부 메타데이터를 제어합니다. 기본 스토리지 시스템의 모든 메타데이터의 경우 Data Catalog는 기본 스토리지 시스템에서 제공하는 메타데이터와 권한을 반영하는 읽기 전용 서비스입니다. 기본 스토리지 시스템에서 편집하여 데이터 항목의 메타데이터를 추가, 업데이트 또는 삭제할 수 있습니다.

Data Catalog 검색에 대한 자세한 내용은 Data Catalog로 데이터 애셋 검색을 참조하세요.

애셋 자동 카탈로그에 등록

특정 프로젝트의 경우 Data Catalog는 다음 Google Cloud 애셋을 자동으로 분류합니다.

  • Analytics Hub 연결된 데이터 세트
  • BigQuery 데이터 세트, 테이블, 모델, 루틴, 연결
  • Bigtable 인스턴스, 클러스터, 테이블(column family 세부정보 포함)
  • Dataplex 레이크, 영역, 테이블, 파일 세트
  • Dataproc Metastore 서비스, 데이터베이스, 테이블
  • Pub/Sub 주제
  • Spanner 인스턴스, 데이터베이스, 테이블, 뷰
  • Vertex AI 모델, 데이터 세트, Vertex AI Feature Store 리소스

메타데이터 액세스 권한이 있는 프로젝트 ID 내의 애셋을 분류하는 것 외에 Data Catalog는 공개 데이터 세트가 포함된 BigQuery 프로젝트에 저장된 데이터를 분류할 수 있습니다.

Google Cloud 이외의 애셋 분류

조직의 Google Cloud 이외의 시스템에서 메타데이터를 분류하려면 다음을 사용하면 됩니다.

Data Catalog 액세스

다음을 사용하여 Data Catalog 기능에 액세스할 수 있습니다.

다음 단계