データの読み込み、変換、エクスポートの概要
このドキュメントでは、BigQuery の次のデータ統合機能の概要について説明します。
- 抽出、読み込み、変換(ELT)アプローチまたは抽出、変換、読み込み(ETL)アプローチを使用して、BigQuery でのデータの読み込みと変換。
- BigQuery からデータをエクスポートして、他のシステムで分析情報を適用する(リバース ETL)。
データの読み込みと変換
通常、BigQuery に読み込む前または読み込んだ後にデータを変換します。データ統合の一般的な 2 つのアプローチである ETL と ELT については、以降のセクションで説明します。
ELT データ統合アプローチ
抽出、読み込み、変換のアプローチでは、2 つの個別のステップでデータ統合を行います。
- データを抽出して読み込む
- データの変換
たとえば、JSON ファイル ソースからデータを抽出して BigQuery テーブルに読み込むことができます。次に、パイプラインを使用してフィールドを抽出し、ターゲット テーブルに変換できます。
ELT アプローチでは、次の方法でデータ統合ワークフローを簡素化できます。
- 他のデータ処理ツールを必要としない
- 複雑になりがちなデータ統合プロセスを 2 つの管理可能な部分に分割します。
- BigQuery の機能を最大限に活用して、大規模なデータの準備、変換、最適化を行う
データの抽出と読み込み
ELT データ統合アプローチでは、データソースからデータを抽出し、サポートされている外部データの読み込みまたはアクセス方法のいずれかを使用して BigQuery に読み込みます。
データを変換する
データを BigQuery に読み込んだら、次のツールを使用してデータを準備して変換できます。
- 高度な SQL データ変換パイプラインを共同で構築、テスト、文書化、スケジュール設定するには、Dataform を使用します。
- スケジュールに従って SQL コードまたは Python ノートブックを実行する小規模なデータ変換ワークフローの場合は、ワークフロー(プレビュー版)を使用します。
- 分析用にデータをクリーンアップするには、AI 拡張のデータ準備(プレビュー版)を使用します。
詳細については、変換の概要をご覧ください。
ETL データ統合アプローチ
抽出、変換、読み込みのアプローチでは、BigQuery に到達する前にデータを抽出して変換します。このアプローチは、データ変換に既存のプロセスがある場合や、BigQuery のリソース使用量を削減する場合に便利です。
Cloud Data Fusion は、ETL プロセスを容易にします。BigQuery は、データを変換して BigQuery に読み込むサードパーティ パートナーとも連携しています。
データのエクスポート
BigQuery でデータを処理して分析した後、結果をエクスポートして他のシステムに適用できます。BigQuery は、次のエクスポートをサポートしています。
- クエリ結果をローカル ファイル、Google ドライブ、Google スプレッドシートにエクスポートする
- テーブルまたはクエリ結果を Cloud Storage、Bigtable、Spanner、Pub/Sub にエクスポートする
このプロセスはリバース ETL と呼ばれます。
詳細については、データ エクスポートの概要をご覧ください。
次のステップ
- BigQuery でのデータの読み込みの詳細を確認する。
- BigQuery でのデータ変換の詳細を確認する。
- 詳しくは、BigQuery でのデータのエクスポートをご覧ください。