BigQuery의 데이터 거버넌스 소개
BigQuery에는 데이터 및 AI 애셋을 검색, 관리, 모니터링, 거버넌스, 사용하는 방식을 간소화하는 거버넌스 기능이 내장되어 있습니다.
관리자, 데이터 스튜어드, 데이터 거버넌스 관리자, 데이터 보관자는 BigQuery의 거버넌스 기능을 사용하여 다음 작업을 할 수 있습니다.
- 데이터를 살펴보세요.
- 데이터를 선별합니다.
- 메타데이터를 수집하고 보강합니다.
- 데이터 품질 관리
- 데이터가 조직 정책에 따라 일관되게 사용되는지 확인합니다.
- 안전하게 대규모로 데이터를 공유하세요.
BigQuery 거버넌스 기능의 핵심은 조직의 모든 데이터 애셋에 대한 중앙 집중식 인벤토리인 범용 카탈로그입니다. 범용 카탈로그에는 모든 데이터의 비즈니스, 기술, 런타임 메타데이터가 포함됩니다. 인공지능과 머신러닝을 적용하여 메타데이터에서 관계와 시맨틱을 발견하는 데 도움이 됩니다.
범용 카탈로그는 데이터 카탈로그와 완전 관리형 런타임 metastore를 통합합니다. BigQuery의 메타스토어를 사용하면 여러 데이터 처리 엔진을 사용하여 데이터 중복 없이 단일 스키마로 단일 데이터 사본을 쿼리할 수 있습니다. 사용할 수 있는 데이터 처리 엔진에는 BigQuery, Apache Spark, Apache Flink, Apache Hive가 있습니다. 데이터는 BigQuery 스토리지 테이블, Apache Iceberg용 BigQuery 테이블 또는 BigLake 외부 테이블과 같은 위치에 저장될 수 있습니다.
BigQuery는 데이터 탐색에서 데이터 사용에 이르기까지 엔드 투 엔드 데이터 수명 주기를 지원합니다. 범용 카탈로그는 BigQuery 거버넌스 기능을 지원합니다. Dataplex에서도 거버넌스 기능을 사용할 수 있습니다.
데이터 검색
BigQuery는 Google Cloud에서 조직 전체의 데이터를 검색합니다. 데이터가 BigQuery, Spanner, Cloud SQL, Pub/Sub 또는 Cloud Storage에 있는지 여부는 중요하지 않습니다. BigQuery는 메타데이터를 자동으로 추출하여 범용 카탈로그에 저장합니다. 예를 들어 BigQuery를 사용하여 Cloud Storage에서 구조화된 데이터와 비정형 데이터의 메타데이터를 추출하고 쿼리 준비가 된 BigLake 테이블을 대규모로 자동 생성할 수 있습니다. 이렇게 하면 데이터 중복 없이 오픈소스 엔진으로 분석을 실행할 수 있습니다.
커스텀 커넥터를 사용하여 서드 파티 데이터 소스에서 메타데이터를 추출하고 분류할 수도 있습니다.
BigQuery는 다음과 같은 데이터 탐색 기능을 제공합니다.
- 검색 Google Cloud 콘솔에서 BigQuery를 사용하여 프로젝트 전반의 데이터 및 AI 리소스를 검색합니다. BigQuery는 데이터 탐색을 위한 시맨틱 검색을 지원하므로 자연어 쿼리로 검색할 수 있습니다.
- Cloud Storage 데이터 자동 검색 Cloud Storage 버킷에서 데이터를 스캔하여 메타데이터를 추출하고 분류합니다. 자동 탐색은 정형 데이터와 비정형 데이터 모두의 테이블을 만듭니다.
- 메타데이터 가져오기. 서드 파티 시스템에서 범용 카탈로그로 대규모로 메타데이터를 가져옵니다. 커스텀 커넥터를 빌드하여 데이터 소스에서 데이터를 추출한 후 메타데이터 가져오기 워크플로를 조정하는 관리형 연결 파이프라인을 실행할 수 있습니다.
선별 및 데이터 관리
데이터 스튜어드와 관리자는 데이터의 검색 가능성과 사용성을 개선하기 위해 BigQuery를 사용하여 메타데이터를 검토, 업데이트, 분석할 수 있습니다. BigQuery 데이터 선별 및 관리 기능을 사용하면 데이터가 정확하고 일관되며 조직의 정책을 준수하는지 확인할 수 있습니다.
BigQuery는 다음과 같은 데이터 선별 및 관리 기능을 제공합니다.
- 비즈니스 용어집(미리보기) 용어집에서 조직의 용어를 정의하여 맥락, 공동작업, 검색을 개선하세요. 용어의 데이터 관리자를 식별하고 용어를 데이터 애셋 필드에 연결합니다.
- 데이터 인사이트. Gemini는 메타데이터를 사용하여 테이블에 관한 자연어 질문과 이에 답변하는 SQL 쿼리를 생성합니다. 이러한 데이터 통계는 패턴을 파악하고, 데이터 품질을 평가하고, 통계 분석을 수행하는 데 도움이 됩니다.
- 데이터 프로파일링. BigQuery 테이블의 열에 있는 일반적인 통계적 특성을 식별하여 데이터를 더 효과적으로 이해하고 분석하세요.
- 데이터 품질. BigQuery 및 Cloud Storage의 테이블 간에 데이터 품질 검사를 정의하고 실행하고 BigQuery 환경에 정기적이고 지속적인 데이터 컨트롤을 적용합니다.
- 데이터 계보. 시스템을 통해 데이터가 이동하는 방식, 즉 데이터의 출처, 데이터가 전달되는 위치, 데이터에 적용되는 변환을 추적합니다. BigQuery는 테이블 및 열 수준에서 데이터 라인지를 지원합니다.
선별 및 데이터 관리 책임을 위한 다음 단계
다음 표에서는 선별 및 데이터 관리 책임 기능에 대해 자세히 알아볼 수 있는 다음 단계를 설명합니다.
경험 수준 | 학습 과정 |
---|---|
신규 클라우드 사용자 |
|
숙련된 클라우드 사용자 |
|
보안 및 액세스 제어
데이터 액세스 관리는 데이터에 액세스할 수 있는 사용자를 관리하는 규칙과 정책을 정의, 적용, 모니터링하는 프로세스입니다. 액세스 관리는 데이터에 액세스할 수 있도록 승인된 사용자만 데이터에 액세스할 수 있도록 합니다.
BigQuery는 다음과 같은 보안 및 액세스 제어 기능을 제공합니다.
- Identity and Access Management(IAM). IAM을 사용하면 프로젝트, 데이터 세트, 테이블, 뷰와 같은 BigQuery 리소스에 액세스할 수 있는 사용자를 제어할 수 있습니다. 사용자, 그룹, 서비스 계정에 IAM 역할을 부여할 수 있습니다. 이러한 역할은 리소스로 수행할 수 있는 작업을 정의합니다.
- 열 수준 액세스 제어 및 행 수준 액세스 제어. 열 수준 및 행 수준 액세스 제어를 사용하면 사용자 속성이나 데이터 값을 기반으로 액세스를 테이블의 특정 열과 행으로 제한할 수 있습니다. 이 제어를 통해 무단 액세스로부터 민감한 정보를 보호하도록 세분화된 액세스를 구현할 수 있습니다.
- 데이터 전송 관리. VPC 서비스 제어를 사용하면 Google Cloud리소스 주위에 경계를 만들고 조직 정책에 따라 이러한 리소스에 대한 액세스를 제어할 수 있습니다.
- 감사 로그. 감사 로그는 조직 내에서의 사용자 활동과 시스템 이벤트에 대한 자세한 기록을 제공합니다. 이러한 로그는 데이터 거버넌스 정책을 적용하고 잠재적인 보안 위험을 식별하는 데 도움이 됩니다.
- 데이터 마스킹. 데이터 마스킹을 사용하면 승인된 사용자가 주변 데이터에 액세스하도록 허용하면서 테이블에서 민감한 정보를 숨길 수 있습니다. 데이터 마스킹은 민감한 정보 패턴과 일치하는 데이터를 가려 실수로 인한 데이터 공개를 방지할 수도 있습니다.
- 암호화. BigQuery는 모든 저장 데이터와 전송 중 데이터를 자동으로 암호화하고 특정 요구사항에 맞게 암호화 설정을 맞춤설정할 수 있게 해줍니다.
보안 및 액세스 제어를 위한 다음 단계
다음 표에서는 액세스 제어 기능에 대해 자세히 알아볼 수 있는 다음 단계를 설명합니다.
경험 수준 | 학습 과정 |
---|---|
신규 클라우드 사용자 | |
숙련된 클라우드 사용자 |
|
공유 데이터 및 통계
BigQuery를 사용하면 조직 내부 및 외부에서 대규모로 데이터와 통계를 공유할 수 있습니다. 내장된 데이터 교환 플랫폼을 통해 강력한 보안 및 개인 정보 보호 프레임워크를 갖추고 있습니다. BigQuery 공유를 사용하면 다양한 데이터 제공업체가 선별한 데이터 라이브러리를 찾아 액세스하고 사용할 수 있습니다.
BigQuery는 다음과 같은 공유 기능을 제공합니다.
- 데이터 외의 항목도 공유하세요. BigQuery 데이터 세트, 테이블, 뷰, Pub/Sub 주제의 실시간 스트림, SQL 저장 프로시저, BigQuery ML 모델과 같은 다양한 데이터 및 AI 애셋을 공유할 수 있습니다.
- Google 데이터 세트에 액세스합니다. 검색 동향, DeepMind WeatherNext 모델, Google Maps Platform, Google Earth Engine 등의 Google 데이터 세트를 사용하여 분석 및 ML 이니셔티브를 보강하세요.
- 데이터 거버넌스 원칙과 통합 데이터 소유자는 데이터에 대한 제어 권한을 유지하며 액세스 및 사용을 제한하는 규칙 또는 정책을 정의하고 구성할 수 있습니다.
- 실시간 제로 복사 데이터 공유 통합, 데이터 이동 또는 복제가 필요하지 않으므로 데이터가 제자리에서 공유되므로 최신 정보를 기반으로 분석할 수 있습니다. 생성된 연결된 데이터 세트는 공유 저작물의 실시간 포인터입니다.
- 보안 상황 개선 액세스 제어를 사용하여 내장된 VPC 서비스 제어 지원을 비롯한 과도한 프로비저닝 액세스를 줄일 수 있습니다.
- 제공업체 사용량 측정항목으로 가시성 높이기 데이터 게시자는 실행된 작업 수, 스캔된 총 바이트 수, 각 조직의 구독자 수와 같은 공유 애셋의 사용량을 보고 모니터링할 수 있습니다.
- 데이터 클린룸을 사용하여 민감한 정보에 대해 공동작업 데이터 클린룸은 여러 관계자가 기본 데이터를 이동하거나 공개하지 않고도 데이터 애셋을 공유, 조인, 분석할 수 있는 보안 강화 환경을 제공합니다.
- BigQuery 기반 BigQuery의 확장성과 대규모 처리 기능을 기반으로 구축하여 대규모 공동작업을 할 수 있습니다.
공유를 위한 다음 단계
다음 표에서는 공유 기능에 대해 자세히 알아볼 수 있는 다음 단계를 설명합니다.
경험 수준 | 학습 과정 |
---|---|
신규 클라우드 사용자 | |
숙련된 클라우드 사용자 |
|
다음 단계
- Google에서 인증 알아보기
- Google Cloud의 데이터 삭제에 대해 알아보세요.
- IAM 권장사항 자세히 알아보기
- Google Cloud의 리소스 계층 구조 알아보기
- Google Cloud의 IAM에 대해 알아보세요.