Gemini でデータを準備する
このドキュメントでは、BigQuery でデータ準備用の SQL コードの候補を生成し、管理する方法について説明します。
詳細については、BigQuery データ準備の概要をご覧ください。
始める前に
BigQuery でデータ準備エディタを開く
BigQuery でデータ準備エディタを開くには、新しいデータ準備を作成するか、既存のテーブルから作成するか、既存のデータ準備を開きます。データ準備の作成時に発生する処理の詳細については、データ準備のエントリ ポイントをご覧ください。
[BigQuery Studio] ページで、次の方法でデータ準備エディタに移動できます。
新規作成
BigQuery で新しいデータ準備を作成する手順は次のとおりです。
- Google Cloud コンソールで [BigQuery Studio] ページに移動します。
BigQuery に移動 - [新規作成] リストに移動し、[データ準備] をクリックします。 データ準備エディタが、新しい無題のデータ準備タブに表示されます。
- エディタの検索バーにテーブル名またはキーワードを入力し、テーブルを選択します。テーブルのデータ準備エディタが開き、[データ] タブにデータのプレビューと、Gemini からの最初のデータ準備の候補が表示されます。
[エクスプローラ] ペインに [データ準備] リソースが表示されます。この準備には、後でアクセスできます。 - 省略可: 表示を簡素化するには、全画面表示アイコン 全画面表示をクリックして全画面表示モードをオンにします。
テーブルから新規作成
既存のテーブルから新しいデータ準備を作成する手順は次のとおりです。
- Google Cloud コンソールで [BigQuery Studio] ページに移動します。
BigQuery に移動 - [エクスプローラ] ペインで、テーブルの上にポインタを置きます。
- more_vert
メニュー > [> データ準備] の [クエリ] をクリックします。テーブルのデータ準備エディタが開き、[データ] タブにデータのプレビューと、Gemini からの最初の一連のデータ準備の候補が表示されます。
[エクスプローラ] ペインに [データ準備] リソースが表示されます。この準備には、後でアクセスできます。 - 省略可: 表示を簡素化するには、全画面表示アイコン 全画面表示をクリックして全画面表示モードをオンにします。
既存を開きます
既存のデータ準備用のエディタを開く手順は次のとおりです。
- Google Cloud コンソールで [BigQuery Studio] ページに移動します。
BigQuery に移動 - [エクスプローラ] ペインで、プロジェクト名と [データ準備] をクリックします。
- 既存のデータ準備を選択します。データ準備パイプラインのグラフビューが表示されます。
- グラフ内のいずれかのノードを選択します。テーブルのデータ準備エディタが開き、[データ] タブにデータのプレビューと、Gemini からの最初のデータ準備の候補が表示されます。
- 省略可: 表示を簡素化するには、全画面表示アイコン 全画面表示をクリックして全画面表示モードをオンにします。
データ準備手順を作成する
データは段階的に準備します。Gemini が提案した手順をプレビューまたは適用できます。提案を微調整したり、独自の手順を適用したりすることもできます。サポートされているデータ準備手順の詳細については、サポートされている手順をご覧ください。
Gemini の候補を表示して適用する
前の手順でテーブルのデータ準備エディタを開くと、Gemini は読み込んだテーブルのデータとスキーマを検査し、候補を生成します。
データビューでデータを表示するときに、列名または特定のセルをタップします。Gemini は、その列またはセルに固有のフィルタと変換の候補を生成します。
Gemini の候補をデータ準備の手順として適用します。
- データビューで [ステップ] リストに移動し、候補を確認します。
- 省略可: 候補カードの説明または SQL 式を編集するには、[プレビュー] をクリックします。
- [適用] をクリックします。
- 省略可: Gemini からより適切な候補を取得するには、例を入力して、これらの手順を繰り返します。
経路リストを操作する
[適用されたステップ] をクリックしてステップのリストを調べると、データビューで次の操作を行うことができます。
- ステップを編集または削除するには、more_vert [メニュー] をクリックして変更を加えます。
- リスト内の任意のステップを選択すると、そのステップのデータサンプルとスキーマが表示されます。
- リスト内のステップを選択して、選択したステップの後に新しいステップを挿入します。
例を使用して候補を改善する
Gemini からの候補を微調整するには、セル内のデータの例を指定します。
データビューで、1 ~ 3 つのセルの値を編集して、その列の値の形式を示すようにします。たとえば、すべての日付の形式を指定する日付を入力します。Gemini は、変更内容に基づいて新しい候補を生成します。
候補カードを変更するには、[プレビュー] をクリックします。
[適用] をクリックします。
手動でステップを追加する
候補がニーズに合わない場合は、[ステップを追加] をクリックしてステップタイプを選択し、説明と SQL 式を入力して独自のステップを追加します。
変換を追加する
- データビューで列を選択し、[ステップを追加 > 変換] をクリックします。
- ステップの説明を入力します。
- SQL 式を入力します。
- [ターゲット列] フィールドで、列を選択するか、新しい列を作成します。
- 省略可: [プレビュー] をクリックして、手順を確認します。
- [適用] をクリックします。
行のフィルタ処理
行を削除するフィルタを追加する手順は次のとおりです。
- データビューで、[ステップを追加] > [フィルタ] をクリックします。
- ステップの説明を入力します。
- SQL 式を入力します。
- 省略可: [プレビュー] をクリックして、手順を確認します。
- [適用] をクリックします。
フィルタ式の形式
フィルタの SQL 式は、指定された条件に一致する行を保持します。これは SELECT … WHERE SQL_EXPRESSION
ステートメントと同じです。
たとえば、列 year
が 2000
以上であるレコードを保持するには、条件は year >= 2000
です。
式は、WHERE
句の BigQuery SQL 構文に従っている必要があります。
エラーテーブルを構成して検証ルールを追加する
検証ルールを作成するフィルタを追加して、エラーをエラーテーブルに送信したり、データ準備の実行を失敗させたりできます。
エラーテーブルを構成する
エラーテーブルを構成する手順は次のとおりです。
- データビューで、ツールバーに移動し、[その他] > [エラーテーブル] をクリックします。
- [エラーテーブルを有効にする] をクリックします。
- テーブルのロケーションを定義します。
- 省略可: エラーの保持期間の上限を定義します。
- [保存] をクリックします。
検証ルールを追加する
検証ルールを追加する手順は次のとおりです。
- データビューで、[ステップを追加] > [フィルタ] をクリックします。
- ステップの説明を入力します。
WHERE
句の形式で SQL 式を入力します。- 省略可: SQL 式を検証ルールとして機能させる場合は、[検証に失敗した行をエラーテーブルに送信する] チェックボックスをオンにします。データ準備ツールバーで、[その他] > [エラーテーブル] をクリックして、フィルタを検証に変更することもできます。
- 省略可: [プレビュー] をクリックして、手順を確認します。
- [適用] をクリックします。
列を削除する
データ準備から列を削除する手順は次のとおりです。
- スキーマビューで、削除する列の横にあるmore_vert メニューをクリックします。
- [削除] をクリックします。削除された列に新しい適用ステップが追加されます。
結合演算を追加する
データ準備で 2 つのソースの間に結合オペレーション ステップを追加する手順は次のとおりです。
- データ準備のノードのデータビューで、[ステップ] リストに移動し、[ステップを追加 > 結合] をクリックします。
- [結合を構成] ダイアログで、結合オペレーションに関連する他のテーブル(結合の右側)を選択します。
- 省略可: 各テーブルの結合キーを選択します。結合キーのデータ型は同じである必要があります。
- 省略可: 実行する結合オペレーションのタイプ(内結合など)を選択します。
省略可: 結合キーを指定する前に右側のテーブルを準備するには、結合内の 2 つの列のデータ型が異なる場合など、次の操作を行います。
- 結合キーを選択せずに結合を保存する。
- グラフビューに移動し、右側のソーステーブルを選択します。
- 列のデータ型の変換など、右側のテーブルを準備します。
- キーを設定して、前の手順で保存した結合を編集します。
[作成] をクリックします。
いずれかのテーブルに一致する値がない場合でも、すべてのテーブル行が保持されます。
ステップを保存すると、選択したソーステーブル(結合の右側)と結合オペレーションが、適用されたステップのリストと、データ準備のグラフビューのノードに反映されます。
宛先テーブルを追加または変更する
データ準備の出力の宛先テーブルを追加または変更する手順は次のとおりです。
- データビューで、[追加 > 宛先] をクリックします。
- 宛先テーブルが保存されているプロジェクトを選択します。
- いずれかのデータセットを選択するか、新しいデータセットを読み込みます。
- 宛先テーブルを入力します。テーブルが存在しない場合、データ準備は最初の実行時に新しいテーブルを作成します。詳細については、書き込みモードをご覧ください。
- データセットを宛先データセットとして選択します。
- [保存] をクリックします。
データ準備を実行する
データ準備手順を実行し、準備したデータを宛先テーブルに読み込むには、1 回限りまたは定期的なデータ準備実行をスケジュールします。
- 保留中の変更をデータ準備に保存します。
- データ準備ツールバーで [スケジュール] をクリックします。
- スケジュール名を入力します。
- 実行に関連付けられているサービス アカウント名を入力します。
- 頻度を設定します。
- [スケジュールを作成] をクリックします。
詳細については、データ準備のスケジュール設定をご覧ください。
データ準備のサンプルを更新する
サンプル内のデータは自動的に更新されません。データ準備のソーステーブルのデータが変更されたにもかかわらず、その変更が準備のデータサンプルに反映されていない場合は、[その他 > サンプルを更新] をクリックします。
次のステップ
- データ準備の管理について確認する。
- Gemini in BigQuery の割り当てと上限について学習する。
- Gemini in BigQuery の料金を確認します。