BigQuery コネクタを使用することで、BigQuery へのプログラマティックな読み取り / 書き込みアクセスが可能になります。これは、BigQuery に保存されているデータの処理に最適です。コマンドラインによるアクセスは公開されません。 BigQuery コネクタは、Spark アプリケーションと Hadoop アプリケーションが BigQuery から取得したデータを処理し、ネイティブの用語を使用してデータを BigQuery に書き込むことができるようにするライブラリです。
料金に関する考慮事項
コネクタを使用する場合、料金には BigQuery の使用料金が含まれます。次のサービス固有の料金が適用される場合もあります。
- Cloud Storage - コネクタは、ジョブの実行前または実行中に Cloud Storage バケットにデータをダウンロードします。ジョブが正常に完了すると、データは Cloud Storage から削除されます。このときの保存量に対して、Cloud Storage の料金に基づき課金されます。余分な料金の発生を避けるために、ご利用の Cloud Storage アカウントを確認し、不要な一時ファイルを削除してください。
- BigQuery Storage API - パフォーマンスを向上させるために、コネクタは BigQuery Storage API を使用してデータを読み取ります。このときの使用量に対して、BigQuery Storage API の料金に基づき課金されます。
使用可能なコネクタ
Hadoop エコシステムで使用できる BigQuery コネクタは次のとおりです。
- Spark BigQuery コネクタを使用すると、Spark のデータソースを追加できます。これにより、Spark の
read
オペレーションとwrite
オペレーションによって、DataFrame で BigQuery テーブルを直接操作できます。 - Hive BigQuery コネクタは Storage Handler を追加します。これにより、Apache Hive は HiveQL 構文を使用して BigQuery テーブルを直接操作できます。
- Hadoop BigQuery コネクタによって、Hadoop のマッパーとレデューサは InputFormat クラスおよび OutputFormat クラスの抽象化バージョンを使用して BigQuery テーブルを操作できます。
コネクタの使用
BigQuery コネクタのクイックスタートについては、次の例をご覧ください。
次のステップ
- BigQuery の詳細を見る
- Spark に関する BigQuery の例に沿って操作する
- Hive BigQuery コネクタの詳細
- Java MapReduce に関する BigQuery の例に沿って操作する