Gemini でデータを準備する

このドキュメントでは、BigQuery でデータ準備用の SQL コードの候補を生成し、管理する方法について説明します。

詳細については、BigQuery データ準備の概要をご覧ください。

始める前に

BigQuery でデータ準備エディタを開く

BigQuery でデータ準備エディタを開くには、新しいデータ準備を作成するか、既存のテーブルから作成するか、既存のデータ準備を開きます。データ準備の作成時に発生する処理の詳細については、データ準備のエントリ ポイントをご覧ください。

[BigQuery Studio] ページで、次の方法でデータ準備エディタに移動できます。

新規作成

BigQuery で新しいデータ準備を作成する手順は次のとおりです。

  1. Google Cloud コンソールで [BigQuery Studio] ページに移動します。
    BigQuery に移動
  2. [新規作成] リストに移動し、[データ準備] をクリックします。 データ準備エディタが、新しい無題のデータ準備タブに表示されます。
  3. エディタの検索バーにテーブル名またはキーワードを入力し、テーブルを選択します。テーブルのデータ準備エディタが開き、[データ] タブにデータのプレビューと、Gemini からの最初のデータ準備の候補が表示されます。

    [エクスプローラ] ペインに [データ準備] リソースが表示されます。この準備には、後でアクセスできます。
  4. 省略可: 表示を簡素化するには、全画面表示アイコン 全画面表示をクリックして全画面表示モードをオンにします。

テーブルから新規作成

既存のテーブルから新しいデータ準備を作成する手順は次のとおりです。

  1. Google Cloud コンソールで [BigQuery Studio] ページに移動します。
    BigQuery に移動
  2. [エクスプローラ] ペインで、テーブルの上にポインタを置きます。
  3. more_vert メニュー > [> データ準備] の [クエリ] をクリックします。テーブルのデータ準備エディタが開き、[データ] タブにデータのプレビューと、Gemini からの最初の一連のデータ準備の候補が表示されます。

    [エクスプローラ] ペインに [データ準備] リソースが表示されます。この準備には、後でアクセスできます。
  4. 省略可: 表示を簡素化するには、全画面表示アイコン 全画面表示をクリックして全画面表示モードをオンにします。

既存を開きます

既存のデータ準備用のエディタを開く手順は次のとおりです。

  1. Google Cloud コンソールで [BigQuery Studio] ページに移動します。
    BigQuery に移動
  2. [エクスプローラ] ペインで、プロジェクト名と [データ準備] をクリックします。
  3. 既存のデータ準備を選択します。データ準備パイプラインのグラフビューが表示されます。
  4. グラフ内のいずれかのノードを選択します。テーブルのデータ準備エディタが開き、[データ] タブにデータのプレビューと、Gemini からの最初のデータ準備の候補が表示されます。
  5. 省略可: 表示を簡素化するには、全画面表示アイコン 全画面表示をクリックして全画面表示モードをオンにします。

データ準備手順を作成する

データは段階的に準備します。Gemini が提案した手順をプレビューまたは適用できます。提案を微調整したり、独自の手順を適用したりすることもできます。サポートされているデータ準備手順の詳細については、サポートされている手順をご覧ください。

Gemini の候補を表示して適用する

前の手順でテーブルのデータ準備エディタを開くと、Gemini は読み込んだテーブルのデータとスキーマを検査し、候補を生成します。

データビューでデータを表示するときに、列名または特定のセルをタップします。Gemini は、その列またはセルに固有のフィルタと変換の候補を生成します。

Gemini の候補をデータ準備の手順として適用します。

  1. データビューで [ステップ] リストに移動し、候補を確認します。
  2. 省略可: 候補カードの説明または SQL 式を編集するには、[プレビュー] をクリックします。
  3. [適用] をクリックします。
  4. 省略可: Gemini からより適切な候補を取得するには、例を入力して、これらの手順を繰り返します。

[適用されたステップ] をクリックしてステップのリストを調べると、データビューで次の操作を行うことができます。

  • ステップを編集または削除するには、more_vert [メニュー] をクリックして変更を加えます。
  • リスト内の任意のステップを選択すると、そのステップのデータサンプルとスキーマが表示されます。
  • リスト内のステップを選択して、選択したステップの後に新しいステップを挿入します。

例を使用して候補を改善する

Gemini からの候補を微調整するには、セル内のデータの例を指定します。

  1. データビューで、1 ~ 3 つのセルの値を編集して、その列の値の形式を示すようにします。たとえば、すべての日付の形式を指定する日付を入力します。Gemini は、変更内容に基づいて新しい候補を生成します。

  2. 候補カードを変更するには、[プレビュー] をクリックします。

  3. [適用] をクリックします。

手動でステップを追加する

候補がニーズに合わない場合は、[ステップを追加] をクリックしてステップタイプを選択し、説明と SQL 式を入力して独自のステップを追加します。

変換を追加する

  1. データビューで列を選択し、[ステップを追加 > 変換] をクリックします。
  2. ステップの説明を入力します。
  3. SQL 式を入力します。
  4. [ターゲット列] フィールドで、列を選択するか、新しい列を作成します。
  5. 省略可: [プレビュー] をクリックして、手順を確認します。
  6. [適用] をクリックします。

行のフィルタ処理

行を削除するフィルタを追加する手順は次のとおりです。

  1. データビューで、[ステップを追加] > [フィルタ] をクリックします。
  2. ステップの説明を入力します。
  3. SQL 式を入力します。
  4. 省略可: [プレビュー] をクリックして、手順を確認します。
  5. [適用] をクリックします。

フィルタ式の形式

フィルタの SQL 式は、指定された条件に一致する行を保持します。これは SELECT … WHERE SQL_EXPRESSION ステートメントと同じです。

たとえば、列 year2000 以上であるレコードを保持するには、条件は year >= 2000 です。

式は、WHEREの BigQuery SQL 構文に従っている必要があります。

エラーテーブルを構成して検証ルールを追加する

検証ルールを作成するフィルタを追加して、エラーをエラーテーブルに送信したり、データ準備の実行を失敗させたりできます。

エラーテーブルを構成する

エラーテーブルを構成する手順は次のとおりです。

  1. データビューで、ツールバーに移動し、[その他] > [エラーテーブル] をクリックします。
  2. [エラーテーブルを有効にする] をクリックします。
  3. テーブルのロケーションを定義します。
  4. 省略可: エラーの保持期間の上限を定義します。
  5. [保存] をクリックします。

検証ルールを追加する

検証ルールを追加する手順は次のとおりです。

  1. データビューで、[ステップを追加] > [フィルタ] をクリックします。
  2. ステップの説明を入力します。
  3. WHERE 句の形式で SQL 式を入力します。
  4. 省略可: SQL 式を検証ルールとして機能させる場合は、[検証に失敗した行をエラーテーブルに送信する] チェックボックスをオンにします。データ準備ツールバーで、[その他] > [エラーテーブル] をクリックして、フィルタを検証に変更することもできます。
  5. 省略可: [プレビュー] をクリックして、手順を確認します。
  6. [適用] をクリックします。

列を削除する

データ準備から列を削除する手順は次のとおりです。

  1. スキーマビューで、削除する列の横にあるmore_vert メニューをクリックします。
  2. [削除] をクリックします。削除された列に新しい適用ステップが追加されます。

結合演算を追加する

データ準備で 2 つのソースの間に結合オペレーション ステップを追加する手順は次のとおりです。

  1. データ準備のノードのデータビューで、[ステップ] リストに移動し、[ステップを追加 > 結合] をクリックします。
  2. [結合を構成] ダイアログで、結合オペレーションに関連する他のテーブル(結合の右側)を選択します。
  3. 省略可: 各テーブルの結合キーを選択します。結合キーのデータ型は同じである必要があります。
  4. 省略可: 実行する結合オペレーションのタイプ(内結合など)を選択します。
  5. 省略可: 結合キーを指定する前に右側のテーブルを準備するには、結合内の 2 つの列のデータ型が異なる場合など、次の操作を行います。

    1. 結合キーを選択せずに結合を保存する。
    2. グラフビューに移動し、右側のソーステーブルを選択します。
    3. 列のデータ型の変換など、右側のテーブルを準備します。
    4. キーを設定して、前の手順で保存した結合を編集します。
  6. [作成] をクリックします。

いずれかのテーブルに一致する値がない場合でも、すべてのテーブル行が保持されます。

ステップを保存すると、選択したソーステーブル(結合の右側)と結合オペレーションが、適用されたステップのリストと、データ準備のグラフビューのノードに反映されます。

宛先テーブルを追加または変更する

データ準備の出力の宛先テーブルを追加または変更する手順は次のとおりです。

  1. データビューで、[追加 > 宛先] をクリックします。
  2. 宛先テーブルが保存されているプロジェクトを選択します。
  3. いずれかのデータセットを選択するか、新しいデータセットを読み込みます。
  4. 宛先テーブルを入力します。テーブルが存在しない場合、データ準備は最初の実行時に新しいテーブルを作成します。詳細については、書き込みモードをご覧ください。
  5. データセットを宛先データセットとして選択します。
  6. [保存] をクリックします。

データ準備を実行する

データ準備手順を実行し、準備したデータを宛先テーブルに読み込むには、1 回限りまたは定期的なデータ準備実行をスケジュールします。

  1. 保留中の変更をデータ準備に保存します。
  2. データ準備ツールバーで [スケジュール] をクリックします。
  3. スケジュール名を入力します。
  4. 実行に関連付けられているサービス アカウント名を入力します。
  5. 頻度を設定します。
  6. [スケジュールを作成] をクリックします。

詳細については、データ準備のスケジュール設定をご覧ください。

データ準備のサンプルを更新する

サンプル内のデータは自動的に更新されません。データ準備のソーステーブルのデータが変更されたにもかかわらず、その変更が準備のデータサンプルに反映されていない場合は、[その他 > サンプルを更新] をクリックします。

次のステップ