BigQuery コネクタ

BigQuery コネクタを使用することで、BigQuery へのプログラマティックな読み取り / 書き込みアクセスが可能になります。これは、BigQuery に保存されているデータの処理に最適です。コマンドラインによるアクセスは公開されません。 BigQuery コネクタは、Spark アプリケーションと Hadoop アプリケーションが BigQuery から取得したデータを処理し、ネイティブの用語を使用してデータを BigQuery に書き込むことができるようにするライブラリです。

料金に関する考慮事項

コネクタを使用する場合、料金には BigQuery の使用料金が含まれます。次のサービス固有の料金が適用される場合もあります。

  • Cloud Storage - コネクタは、ジョブの実行前または実行中に Cloud Storage バケットにデータをダウンロードします。ジョブが正常に完了すると、データは Cloud Storage から削除されます。このときの保存量に対して、Cloud Storage の料金に基づき課金されます。余分な料金の発生を避けるために、ご利用の Cloud Storage アカウントを確認し、不要な一時ファイルを削除してください。
  • BigQuery Storage API - パフォーマンスを向上させるために、コネクタは BigQuery Storage API を使用してデータを読み取ります。このときの使用量に対して、BigQuery Storage API の料金に基づき課金されます。

使用可能なコネクタ

Hadoop エコシステムで使用できる BigQuery コネクタは次のとおりです。

  1. Spark BigQuery コネクタを使用すると、Spark のデータソースを追加できます。これにより、Spark の read オペレーションと write オペレーションによって、DataFrame で BigQuery テーブルを直接操作できます。
  2. Hive BigQuery コネクタは Storage Handler を追加します。これにより、Apache Hive は HiveQL 構文を使用して BigQuery テーブルを直接操作できます。
  3. Hadoop BigQuery コネクタによって、Hadoop のマッパーとレデューサは InputFormat クラスおよび OutputFormat クラスの抽象化バージョンを使用して BigQuery テーブルを操作できます。

コネクタの使用

BigQuery コネクタのクイックスタートについては、次の例をご覧ください。

次のステップ