Gemini でデータを準備する

このドキュメントでは、BigQuery でデータ準備用の SQL コードの候補を生成し、管理する方法について説明します。

詳細については、BigQuery データ準備の概要をご覧ください。

始める前に

BigQuery でデータ準備エディタを開く

BigQuery でデータ準備エディタを開くには、新しいデータ準備を作成するか、既存のテーブルから作成する、あるいは既存のデータ準備を開きます。データ準備の作成時に発生する処理の詳細については、データ準備のエントリ ポイントをご覧ください。

[BigQuery Studio] ページで、次の方法でデータ準備エディタに移動できます。

新規作成

BigQuery で新しいデータ準備を作成する手順は次のとおりです。

  1. Google Cloud コンソールで [BigQuery Studio] ページに移動します。
    [BigQuery] に移動
  2. [新規作成] リストに移動し、[データ準備] をクリックします。データ準備エディタが、新しい無題のデータ準備タブに表示されます。
  3. エディタの検索バーにテーブル名またはキーワードを入力し、テーブルを選択します。テーブルのデータ準備エディタが開き、[データ] タブにデータのプレビューと、Gemini からの最初のデータ準備の候補が表示されます。

    [エクスプローラ] ペインに [データ準備] リソースが表示されます。この準備には、後でアクセスできます。
  4. 省略可: 表示を簡素化するには、全画面表示アイコン 全画面表示をクリックして全画面表示モードをオンにします。

テーブルから新規作成

既存のテーブルから新しいデータ準備を作成する手順は次のとおりです。

  1. Google Cloud コンソールで [BigQuery Studio] ページに移動します。
    [BigQuery] に移動
  2. [エクスプローラ] ペインで、テーブルの上にポインタを置きます。
  3. more_vert [メニュー] > [クエリ] > [データ準備] をクリックします。テーブルのデータ準備エディタが開き、[データ] タブにデータのプレビューと、Gemini からの最初の一連のデータ準備の候補が表示されます。

    [エクスプローラ] ペインに [データ準備] リソースが表示されます。この準備には、後でアクセスできます。
  4. 省略可: 表示を簡素化するには、全画面表示アイコン 全画面表示をクリックして全画面表示モードをオンにします。

既存のものを開く

既存のデータ準備用のエディタを開く手順は次のとおりです。

  1. Google Cloud コンソールで [BigQuery Studio] ページに移動します。
    [BigQuery] に移動
  2. [エクスプローラ] ペインで、プロジェクト名と [データ準備] をクリックします。
  3. 既存のデータ準備を選択します。データ準備パイプラインのグラフビューが表示されます。
  4. グラフ内のいずれかのノードを選択します。テーブルのデータ準備エディタが開き、[データ] タブにデータのプレビューと、Gemini からの最初のデータ準備の候補が表示されます。
  5. 省略可: 表示を簡素化するには、全画面表示アイコン 全画面表示をクリックして全画面表示モードをオンにします。

データ準備手順を作成する

データは段階的に準備します。Gemini が提案した手順をプレビューまたは適用できます。候補を微調整、または独自の手順を適用することもできます。サポートされているデータ準備手順の詳細については、サポートされている手順をご覧ください。

Gemini の候補を表示、編集、適用する

前の手順でテーブルのデータ準備エディタを開くと、Gemini は読み込んだテーブルのデータとスキーマを検査し、候補を生成します。

データビューでデータを表示するときに、列名または特定のセルをタップします。Gemini は、その列またはセルに固有のフィルタと変換の候補を生成します。

Gemini による候補をデータ準備の手順として適用します。

  1. データビューで [ステップ] リストに移動し、候補を確認します。
  2. 省略可: 候補カードの結果をプレビューするには、[プレビュー] をクリックします。
  3. 省略可: 自然言語を使用して候補カードを変更するには、[編集] をクリックします。

    候補の変更の詳細については、例を使用して候補を改善する自然言語または SQL 式を使用して手順を追加するをご覧ください。

  4. [適用] をクリックします。

[適用されたステップ] をクリックしてステップのリストを調べるとき、データビューで次の操作を行うことができます。

  • リスト内のステップを編集または削除するには、more_vert [メニュー] をクリックして変更を加えます。
  • リスト内の任意のステップを選択して、その特定ステップのデータサンプルとスキーマを表示します。
  • リスト内のステップを選択して、選択したステップの後に新しいステップを挿入します。

例を使用して候補を改善する

Gemini からの候補を微調整するには、セル内のデータの例を指定します。

  1. データビューで、1~3 つのセルの値を編集して、その列の値の表示形式を指定します。たとえば、すべての日付の形式を指定する日付を入力します。Gemini は、変更内容に基づいて新しい候補を生成します。

  2. 候補カードを変更するには、[プレビュー] をクリックします。

  3. [適用] をクリックします。

自然言語または SQL 式を使用してステップを追加する

候補がニーズに合わない場合は、[ステップを追加] をクリックしてステップタイプを選択し、意図を説明する自然言語でプロンプトを入力して独自のステップを追加します。

変換を追加する

  1. データビューで [ステップを追加] をクリックし、[変換] オプションを選択します。
  2. [説明] フィールドにプロンプト(Convert the state column to a uppercase など)を入力します。
  3. send [送信] をクリックします。

    Gemini は、プロンプトに基づいて SQL 式と新しい説明を生成します。

  4. [ターゲット列] リストで、列名を選択するか入力します。

  5. 省略可: SQL 式を更新するには、プロンプトを修正して send [送信] をクリックするか、SQL 式を手動で入力します。

  6. 省略可: [プレビュー] をクリックして、ステップを確認します。

  7. [適用] をクリックします。

行のフィルタリング

行を削除するフィルタを追加する手順は次のとおりです。

  1. データビューで、[ステップを追加] > [フィルタ] をクリックします。
  2. [説明] フィールドにプロンプト(Column ID should not be NULL など)を入力します。
  3. [生成] をクリックします。Gemini は、プロンプトに基づいて SQL 式と新しい説明を生成します。
  4. 省略可: SQL 式を更新するには、プロンプトを修正して send [送信] をクリックするか、SQL 式を手動で入力します。
  5. 省略可: [プレビュー] をクリックして、ステップを確認します。
  6. [適用] をクリックします。

フィルタ式の形式

フィルタの SQL 式は、指定された条件に一致する行を保持します。これは SELECT … WHERE SQL_EXPRESSION ステートメントと同じです。

たとえば、列 year2000 以上であるレコードを保持するには、条件は year >= 2000 です。

式は、WHEREの BigQuery SQL 構文に従っている必要があります。

エラーテーブルを構成して検証ルールを追加する

検証ルールを作成するフィルタを追加して、エラーをエラーテーブルに送信、またはデータ準備の実行を失敗させることができます。

エラーテーブルを構成する

エラーテーブルを構成する手順は次のとおりです。

  1. データビューで、ツールバーに移動し、[その他] > [エラーテーブル] をクリックします。
  2. [エラーテーブルを有効にする] をクリックします。
  3. テーブルのロケーションを定義します。
  4. 省略可: エラーの保持期間の上限を定義します。
  5. [保存] をクリックします。

検証ルールを追加する

検証ルールを追加する手順は、次のとおりです。

  1. データビューで、[ステップを追加] > [フィルタ] をクリックします。
  2. ステップの説明を入力します。
  3. WHERE 句の形式で SQL 式を入力します。
  4. 省略可: SQL 式を検証ルールとして機能させる場合は、[検証に失敗した行をエラーテーブルに送信する] チェックボックスをオンにします。データ準備ツールバーで、[その他] > [エラーテーブル] をクリックして、フィルタを検証に変更することもできます。
  5. 省略可: [プレビュー] をクリックして、ステップを確認します。
  6. [適用] をクリックします。

列を削除する

データ準備から列を削除する手順は次のとおりです。

  1. スキーマビューで、削除する列の横にある more_vert [メニュー] をクリックします。
  2. [削除] をクリックします。削除された列に新しい適用ステップが追加されます。

Gemini で結合オペレーションを追加する

データ準備で 2 つのソースの間に結合オペレーション ステップを追加する手順は次のとおりです。

  1. データ準備のノードのデータビューで、[ステップ] リストに移動し、[ステップを追加] > [結合] をクリックします。
  2. [結合を追加] ダイアログで、[参照] をクリックし、結合オペレーションに関連するほかのテーブル(結合の右側)を選択します。
  3. 省略可: 実行する結合オペレーションのタイプ(内結合など)を選択します。
  4. 次のフィールドで、Gemini によって生成された結合キー情報を確認します。

    • 結合の説明: 結合オペレーションの SQL 式の自然言語の説明。この説明を編集して [送信] 送信をクリックすると、Gemini が新しい SQL 結合条件を提案します。
    • 結合条件: 結合オペレーションの ON 句内の SQL 式。L 修飾子と R 修飾子を使用して、左側と右側のソーステーブルをそれぞれ参照できます。たとえば、左側のテーブルの customer_id 列を右側のテーブルの customer_id 列に結合するには、L.customerId = R.customerId と入力します。これらの修飾子では大文字と小文字は区別されません。

  5. 省略可: Gemini からの候補を絞り込むには、[結合説明] フィールドを編集し、[送信] [送信] をクリックします。

  6. 省略可: データ準備の結合オペレーションの設定をプレビューするには、[プレビュー] をクリックします。

  7. [適用] をクリックします。

    結合オペレーションのステップが作成されます。選択したソーステーブル(結合の右側)と結合オペレーションが、適用されたステップのリストと、データ準備のグラフビューのノードに反映されます。

宛先テーブルを追加または変更する

データ準備の出力の宛先テーブルを追加または変更する手順は次のとおりです。

  1. データビューで、[追加] > [宛先] をクリックします。
  2. 宛先テーブルが保存されているプロジェクトを選択します。
  3. いずれかのデータセットを選択するか、新しいデータセットを読み込みます。
  4. 宛先テーブルを入力します。テーブルが存在しない場合、データ準備は最初の実行時に新しいテーブルを作成します。詳細については、書き込みモードをご覧ください。
  5. データセットを宛先データセットとして選択します。
  6. [保存] をクリックします。

データ準備を実行する

データ準備ステップを追加し、宛先を構成して検証エラーを修正したら、データのサンプルでテスト実行を実行するか、ステップをデプロイしてデータ準備実行をスケジュールできます。詳細については、データ準備をスケジュールするをご覧ください。

データ準備のサンプルを更新する

サンプル内のデータは自動的に更新されません。データ準備のソーステーブルのデータが変更されたにもかかわらず、その変更が準備のデータサンプルに反映されていない場合は、[その他 > サンプルを更新] をクリックします。

次のステップ