データ準備を管理する
このドキュメントでは、Identity and Access Management(IAM)ロールの付与や Dataplex でのメタデータの管理など、BigQuery におけるデータ準備の管理方法について説明します。
データ準備は、Dataform を活用した BigQuery リソースです。
始める前に
- Gemini for Google Cloud API が有効になっていることを確認します。
- Dataplex でデータ準備のメタデータを管理するには、Google Cloud プロジェクトで Dataplex API が有効になっていることを確認します。
必要なロール
Dataform サービス アカウントに BigQuery でのデータ準備に必要な権限があることを確認するには、Dataform サービス アカウントに必要なロールをご覧ください。
BigQuery でのデータ準備に必要な権限を取得するには、プロジェクトに対する次の IAM ロールを付与するよう管理者に依頼します。
- BigQuery データ編集者(
roles/bigquery.dataEditor
) -
Service Usage ユーザー(
roles/serviceusage.serviceUsageConsumer
)
ロールの付与については、プロジェクト、フォルダ、組織へのアクセスを管理するをご覧ください。
必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。
Dataplex でデータ準備のメタデータを管理するには、必要な Dataplex ロールと dataform.repositories.get
権限があることを確認します。
既存のデータ準備を表示する
既存のデータ準備のリストを表示する手順は次のとおりです。
- [BigQuery Studio] ページで、[エクスプローラ] ペインに移動します。
- プロジェクトを開きます。
- [データの準備] リストを開きます。
データを増分処理してデータ準備を最適化する
準備されたデータを宛先テーブルに書き込む方法を構成する手順は次のとおりです。
Google Cloud コンソールで [BigQuery Studio] ページに移動します。
[アクティビティ] ペインで、データ準備を選択します。
データ準備のツールバーで、[さらに表示] > [書き込みモード] を選択します。
次のいずれかのオプションを選択します。詳細については、書き込みモードをご覧ください。
[保存] をクリックします。
候補の改善に協力する
プレビュー版の機能に送信したプロンプト データを Google と共有することで、Gemini の候補の改善にご協力いただけます。プロンプト データを共有する手順は次のとおりです。
- BigQuery でデータ準備エディタを開きます。
- データ準備ツールバーの [設定] で [その他] をクリックします。
- [Gemini in BigQuery を改善するためデータを共有] を選択します。
データ共有設定はプロジェクト全体に適用されます。これは、serviceusage.services.enable
と serviceusage.services.list
の IAM 権限を持つプロジェクト管理者のみ設定できます。Trusted Tester プログラムでのデータの使用について詳しくは、 Google Cloud Trusted Tester プログラムの Gemini をご覧ください。
データ準備のバージョン
BigQuery のデータ準備では、データ準備のバージョンの表示、比較、復元はサポートされていません。
データ準備のバージョンを時系列で確認する手順は次のとおりです。
- [BigQuery Studio] ページで、[エクスプローラ] ペインに移動します。
- データ準備を選択します。バージョンは、[エクスプローラ] ペインの [アクティビティ] タブに表示されます。
データ準備をダウンロードする
データ準備を YAML ファイルでダウンロードする手順は次のとおりです。
Google Cloud コンソールで [BigQuery Studio] ページに移動します。
[エクスプローラ] ペインで、プロジェクトと [データ準備] フォルダを開きます。ダウンロードするデータ準備の名前をクリックします。
[ダウンロード] をクリックします。データ準備は YAML ファイル形式(
NAME data preparation.dp.yaml
など)で保存されます。
データ準備をアップロードする
YAML ファイルからデータ準備をアップロードする手順は次のとおりです。
Google Cloud コンソールで [BigQuery Studio] ページに移動します。
[エクスプローラ] ペインでプロジェクトを開きます。
[データの準備] フォルダに移動し、more_vert メニュー > [データ準備へのアップロード] をクリックします。
[データ準備へのアップロード] ダイアログで、アップロードするファイルを選択するか、データ準備の URL を入力します。
データ準備の名前を入力します。
リソースが管理および保存されるデータ準備の場所を選択します。
[アップロード] をクリックします。
Dataplex でメタデータを管理する
Dataplex を使用すると、データ準備のメタデータを保存して管理できます。データ準備は、追加の構成なしでデフォルトで Dataplex で使用できます。
Dataplex を使用すると、すべての BigQuery ロケーションでデータ準備を管理できます。Dataplex でのデータ準備の管理には、Dataplex の割り当てと上限と Dataplex の料金が適用されます。
Dataplex は、データ準備から次のメタデータを自動的に取得します。
- データアセット名
- データアセットの親
- データアセットのロケーション
- データアセットのタイプ
- 対応する Google Cloud プロジェクト
Dataplex は、次のエントリ値を含むエントリとして、データ準備をログに記録します。
- システム エントリ グループ
- データ準備のシステム エントリ グループは
@dataform
です。Dataplex でデータ準備エントリの詳細を表示するには、dataform
システム エントリ グループを表示する必要があります。エントリ グループ内のすべてのエントリのリストを表示する方法については、Dataplex のドキュメントのエントリ グループの詳細を表示するをご覧ください。 - システム エントリのタイプ
- データ準備のシステム エントリタイプは
dataform-code-asset
です。データ準備の詳細を表示するには、dataform-code-asset
システム エントリタイプを表示し、アスペクトベースのフィルタで結果をフィルタして、dataform-code-asset
アスペクト内のtype
フィールドをDATA_PREPARATION
に設定する必要があります。次に、選択したデータ準備のエントリを選択します。選択したエントリタイプの詳細を表示する手順については、Dataplex ドキュメントのエントリタイプの詳細を表示するをご覧ください。選択したエントリの詳細を表示する手順については、Dataplex ドキュメントのエントリの詳細を表示するをご覧ください。 - システム アスペクト タイプ
- データ準備のシステム アスペクト タイプは
dataform-code-asset
です。データ準備エントリにアスペクトをアノテーションして Dataplex のデータ準備に追加のコンテキストを提供するには、dataform-code-asset
アスペクト タイプを表示し、アスペクトベースのフィルタで結果をフィルタして、dataform-code-asset
アスペクト内のtype
フィールドをDATA_PREPARATION
に設定します。エントリにアスペクトをアノテーションする方法については、Dataplex のドキュメントでアスペクトを管理してメタデータを拡充するをご覧ください。 - タイプ
- データ キャンバスのタイプは
DATA_PREPARATION
です。このタイプを使用すると、アスペクトベースのフィルタでaspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION
クエリを使用して、dataform-code-asset
システム エントリタイプとdataform-code-asset
アスペクト タイプのデータ準備をフィルタできます。
Dataplex でアセットを検索する方法については、Dataplex ドキュメントの Dataplex でデータアセットを検索するをご覧ください。
次のステップ
- BigQuery でのデータ準備について詳細を確認する。
- データ準備を手動またはスケジュールで実行する方法を確認する。
- データ準備を作成する方法について確認する。