Dataproc は、オープンソースのデータツールを利用してバッチ処理、クエリ実行、ストリーミング、ML を行えるマネージド Spark / Hadoop サービスです。Dataproc の自動化機能を利用すると、クラスタを速やかに作成し、簡単に管理できます。また、不要なときにはクラスタを無効にして費用を節約できます。管理にかかる時間と費用が削減されるので、自分の仕事とデータに集中できます。
Dataproc のメリット
クラスタに含まれるノードの数が 3 から数百である場合、従来のオンプレミス製品および競合するクラウド サービスと比べて、Dataproc には他に類を見ない数多くのメリットがあります。
- 低コスト - Dataproc の料金は、他に使用する Cloud Platform リソースに加えて、クラスタの仮想 CPU ごとに 1 時間あたりわずか 1 セントです。この低料金に加え、Dataproc クラスタには計算料金が低いプリエンプティブルなインスタンスを含めることができるので、費用をさらに低く抑えることができます。Dataproc では、使用時間を直近の時間単位に切り上げるのではなく、実際に使用したものに対してのみ分単位(最小請求対象期間は 1 分)で課金されます。
- 超高速 - Dataproc を使用しないと、オンプレミスや IaaS プロバイダで Spark と Hadoop クラスタを作成するのに 5~30 分ほどかかります。これに対し、Dataproc クラスタは起動、スケーリング、シャットダウンが高速で、こうした各オペレーションに要する時間は平均 90 秒以下です。つまり、クラスタの待機時間を減らし、実際にデータを扱う時間を増やすことができます。
- インテグレーション済み - Dataproc には、BigQuery、Cloud Storage、Cloud Bigtable、Cloud Logging、Cloud Monitoring など他の Google Cloud Platform サービスとのインテグレーションがあらかじめ組み込まれているため、単なる Spark クラスタや Hadoop クラスタではなく完全なデータ プラットフォームが得られます。Dataproc では、たとえばテラバイト単位の元のログデータを BigQuery に直接取り込んで、ETL 処理によって簡単にビジネス レポートを作成できます。
- マネージド - 管理者の助けや特別なソフトウェアを必要としないで、Spark クラスタと Hadoop クラスタを使用できます。 Google Cloud コンソール、Cloud SDK、または Dataproc REST API を使用して、クラスタや Spark または Hadoop ジョブを簡単に操作できます。クラスタの使用が終了したら、クラスタをオフにするだけで、アイドル状態のクラスタに費用がかからないようにできます。Dataproc は Cloud Storage、BigQuery、Cloud Bigtable と統合されているため、データの損失について心配する必要はありません。
- 簡単で一般的 - Dataproc を使用するために新しいツールや API を学習する必要はなく、開発し直さなくても既存のプロジェクトを Dataproc に簡単に移行できます。Spark、Hadoop、Pig、Hive は頻繁に更新されるため、生産性を高めることができます。
Dataproc の内容
Dataproc でサポートされているオープンソース(Hadoop、Spark、Hive、Pig)と Google Cloudコネクタのバージョンのリストについては、Dataproc のバージョン リストをご覧ください。
Dataproc を使ってみる
Dataproc をすぐに使い始めるには、Dataproc のクイックスタートをご覧ください。Dataproc には、次の方法でアクセスできます。
- REST API の使用
- Cloud SDK の使用
- Dataproc UI の使用
- Cloud クライアント ライブラリの使用