Dataproc Metastore 핵심 개념

다음 개념을 사용하면 Dataproc Metastore의 작동 방식과 서비스로 사용할 수 있는 다양한 기능을 이해할 수 있습니다.

Dataproc Metastore 버전

Dataproc Metastore 서비스를 만들 때 Dataproc Metastore 2 서비스 또는 Dataproc Metastore 1 서비스를 사용하도록 선택할 수 있습니다.

Dataproc Metastore 2

Dataproc Metastore 2는 확장 인수를 사용하여 지정된 시간에 서비스에서 사용하는 리소스 수를 결정합니다. Dataproc Metastore 2를 만든 후 확장 인수를 수정하여 서비스를 확장하거나 축소할 수 있습니다.

  • Dataproc Metastore 2는 Dataproc Metastore 기능 외에도 수평 확장성을 제공하는 차세대 서비스입니다. 자세한 내용은 특징 및 장점을 참조하세요.

  • Dataproc Metastore 2는 Dataproc Metastore와 요금제가 다릅니다. 자세한 내용은 요금제 및 확장 구성을 참조하세요.

Dataproc Metastore 1

Dataproc Metastore 1은 서비스 등급을 사용하여 지정된 시간에 서비스에서 사용하는 리소스 수를 결정합니다. 서비스 등급은 예측 가능한 미리 정해진 리소스 양을 제공합니다.

Dataproc Metastore 버전 확인

사용 중인 Dataproc Metastore 버전은 Google Cloud 콘솔에서 확인할 수 있습니다.

  • Dataproc Metastore 2: 구성 테이블에는 엔터프라이즈 버전 - 단일 리전 값이 포함되어 있습니다.
  • Dataproc Metastore 1: 구성 테이블에는 등급: 개발자 또는 등급: 엔터프라이즈 값 중 하나가 포함되어 있습니다.

일반적인 Dataproc Metastore 용어

다음 용어는 Dataproc 메타스토어 생태계 및 문서 전반에서 일반적으로 사용됩니다.

서비스

  • Apache Hive. Hive는 Apache Hadoop을 기반으로 구축된 널리 사용되는 오픈소스 데이터 웨어하우스입니다. Hive가 제공하는 HiveQL이라는 SQL 스타일의 쿼리 언어를 사용하여 구조화된 대규모 데이터 세트를 분석할 수 있습니다.
  • Apache Hive Metastore Hive 메타스토어는 Hive 테이블에 대한 스키마, 위치 등의 메타데이터를 보유합니다.
  • Dataproc. Dataproc은 Google Cloud에서 간단하고 비용 효율적인 방식으로 Apache Spark 및 Apache Hadoop 워크로드를 실행하는 빠르고 사용하기 쉬운 완전 관리형 서비스입니다. Dataproc Metastore를 만든 후 Dataproc 클러스터에서 서비스에 연결할 수 있습니다.
  • Dataproc 클러스터. Dataproc Metastore 서비스를 만든 후 Dataproc 클러스터에서 서비스에 연결할 수 있습니다. 자체 관리형 Apache Hive, Apache Spark, Presto 클러스터와 같은 다른 여러 클러스터와 함께 Dataproc Metastore를 사용할 수도 있습니다.
  • Dataproc Metastore 서비스. Google Cloud에서 만드는 Metastore 인스턴스의 이름입니다. 구현에 한 개 이상의 서로 다른 Metastore 서비스를 사용할 수 있습니다.
  • Private Service Connect Private Service Connect를 사용하면 VPC 네트워크 간에 Dataproc Metastore 메타데이터에 대해 비공개 연결을 설정할 수 있습니다. VPC 피어링의 대안으로 네트워킹에 이를 사용할 수 있습니다.
  • VPC 서비스 제어. VPC 서비스 제어는 명시적으로 지정하는 리소스 및 서비스 데이터를 보호하는 매개변수를 생성하도록 허용하여 Google Cloud 서비스에서 데이터 무단 반출 위험을 완화하는 기능을 향상시켜 줍니다.

개념

  • 테이블. 모든 Hive 애플리케이션에는 데이터를 저장하는 관리형 내부 또는 비관리형 외부 테이블이 포함됩니다.
  • Hive 웨어하우스 디렉터리. 관리형 테이블 데이터가 저장되는 기본 위치입니다.
  • 아티팩트 버킷. 생성하는 모든 메타스토어 서비스와 함께 프로젝트에 자동으로 생성되는 Cloud Storage 버킷입니다. 이 버킷을 사용하여 내보낸 메타데이터 및 관리형 테이블 데이터와 같은 서비스 아티팩트를 저장할 수 있습니다. 기본적으로 아티팩트 버킷에는 Dataproc Metastore 서비스의 기본 웨어하우스 디렉터리가 저장됩니다.
  • 엔드포인트. Dataproc Metastore 서비스는 하나 이상의 네트워크 엔드포인트를 통해 저장된 Hive Metastore 메타데이터에 대한 액세스 권한을 클라이언트에 제공합니다. Dataproc Metastore는 이러한 엔드포인트에 대해 URI를 제공합니다.
  • 엔드포인트 프로토콜 Dataproc Metastore와 Hive Metastore 클라이언트 간의 통신에 사용되는 데이터 전송 네트워크 프로토콜입니다. Dataproc Metastore는 Apache Thrift 및 gRPC 엔드포인트를 지원합니다.
  • 메타데이터 제휴. 여러 Dataproc Metastore 인스턴스에 저장된 메타데이터에 액세스할 수 있게 해주는 기능입니다.
  • 보조 버전. 여러 Hive 클라이언트 버전을 동일한 Dataproc Metastore 서비스에 연결할 수 있게 해주는 기능입니다.

Hive Metastore 개념

Dataproc Metastore 서비스를 사용하려면 Hive Metastore 기본 개념의 이해가 필요합니다. 자세한 내용은 Hive Metastore를 참조하세요.

네트워크 요구사항

Dataproc Metastore 서비스가 올바르게 작동하려면 네트워킹 액세스 권한이 필요합니다. 자세한 내용은 네트워크 요구사항 구성을 참조하세요.

프로젝트 구성

Dataproc 클러스터 및 Dataproc Metastore 서비스를 배포할 때는 다양한 프로젝트 구성을 사용할 수 있습니다. 자세한 내용은 프로젝트 간 배포를 참조하세요.

다음 단계