Dataproc クラスタを作成する際には、オプション コンポーネント機能を使用して、Apache Pig などの追加コンポーネントをインストールできます。このページでは、大規模なデータセットを分析するためのオープンソース プラットフォームである Pig コンポーネントについて説明します。
コンポーネントをインストールする
Dataproc クラスタの作成時にコンポーネントをインストールします。
Apache Pig は、Dataproc 2.3
以降のイメージ バージョンのオプション コンポーネントです。
最新の Dataproc イメージ リリースに含まれるコンポーネント バージョンについては、サポートされている Dataproc バージョンをご覧ください。
gcloud
Pig コンポーネントを組み込んだ Dataproc クラスタを作成するには、--optional-components
フラグを指定した gcloud dataproc clusters create CLUSTER_NAME
コマンドを使用します(イメージ バージョン 2.3 以降を使用)。
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --optional-components=PIG \ --image-version=2.3 \ ... other flags
REST API
Dataproc API を使用して Pig コンポーネントを指定するには、clusters.create リクエストの一部として SoftwareConfig.Component を使用します。
コンソール
コンポーネントを有効にします。
- Google Cloud コンソールで、Dataproc の [クラスタの作成] ページを開きます。[クラスタの設定] パネルが選択されています。
- [コンポーネント] セクションの [オプション コンポーネント] で、クラスタにインストールする Pig や、他のオプション コンポーネントを選択します。