Dataplex는 분산 데이터를 통합하고 데이터 관리 및 거버넌스를 자동화하는 지능형 데이터 패브릭입니다. Dataplex를 통해 AI를 사용하여 데이터 쿼리, 품질 보증, 비즈니스 인사이트를 간소화할 수 있습니다.
Dataplex는 대규모로 거버넌스를 실행합니다. 예를 들어 Cloud Storage, Spanner, Pub/Sub에 저장된 대량의 판매, 인벤토리, 고객 데이터를 생성하는 글로벌 소매업체가 있다고 가정해 보겠습니다. 데이터가 여러 시스템에 분산되어 있으면 거버넌스를 관리하고, 품질을 보장하고, 규정 준수를 유지하는 것이 복잡하고 시간이 많이 걸립니다. Dataplex는 조직의 데이터 애셋을 탐색, 프로파일링, 검증하고 계보를 추적하고 액세스를 제어할 수 있는 중앙 뷰를 제공하여 이 프로세스를 간소화합니다.
Dataplex를 사용해야 하는 이유
Dataplex는 다음 기능을 통해 데이터를 관리합니다.
- 메타데이터 분류. 데이터 애셋의 스냅샷을 위해 Google Cloud 리소스(BigQuery, Cloud SQL, Spanner, Vertex AI, Pub/Sub, Dataform, Dataproc Metastore) 및 Dataplex로 가져온 서드 파티 리소스의 메타데이터를 검색합니다.
- 데이터 탐색. Cloud Storage 버킷에서 정형 데이터와 비정형 데이터를 스캔하여 메타데이터를 추출하고 분류합니다.
- 데이터 인사이트. AI를 사용하여 데이터에 관한 자연어 질문을 생성하고, 패턴을 파악하고, 데이터 품질을 평가하고, 통계 분석을 수행합니다.
- 데이터 프로파일링. BigQuery 테이블의 열 데이터의 일반적인 특성(예: 일반적인 데이터 값, 데이터 분포, null 개수)을 식별하여 데이터 분류 및 품질 보증에 참고할 수 있습니다.
- 데이터 품질. 조직 정책에 따라 데이터를 검증하고 데이터가 품질 기준을 충족하지 않는 경우 알림을 로깅하여 BigQuery 테이블의 데이터 품질을 정의하고 측정합니다.
- 비즈니스 용어집. 조직 전반에서 비즈니스 관련 용어 및 정의를 관리하고 용어를 테이블 열에 연결하여 데이터 사용에 대한 일관된 이해를 유도합니다.
- 데이터 계보. 시스템을 통해 데이터가 이동하는 방식, 즉 데이터의 출처, 데이터가 전달되는 위치, 데이터에 적용되는 변환을 추적할 수 있습니다.
Dataplex는 분산된 탐색에서 비즈니스 인사이트에 이르기까지 엔드 투 엔드 데이터 수명 주기를 지원합니다. 거버넌스 기능은 BigQuery를 통해서도 사용할 수 있습니다.
다음 단계
- BigQuery 거버넌스 알아보기
- BigQuery 범용 카탈로그 알아보기
- BigQuery 범용 카탈로그에서 데이터 애셋을 검색하는 방법 알아보기
- 항목 관리 및 커스텀 소스 수집 방법 알아보기
- Dataplex로 메타데이터를 가져오는 방법 알아보기