本頁說明如何安裝 Apache Beam SDK,以便在 Dataflow 服務上執行管道。
安裝 SDK 版本
Apache Beam SDK 是一種用於資料管道的開放原始碼程式設計模型。您可以使用 Apache Beam 程式來定義這些管道,並選擇 Dataflow 等執行器來執行管道。
Java
Java 適用的 Apache Beam SDK 最新版本為 2.66.0。如要瞭解版本的變更內容,請參閱 版本公告。
如要使用 Maven 取得 Java 適用的 Apache Beam SDK,請採用 Maven Central Repository 中已發布的成果。
在 SDK 構件的 pom.xml
檔案中新增依附元件和依附元件管理工具。詳情請參閱「在 Dataflow 中管理管道依附元件」。
如要進一步瞭解 Java 適用的 Apache Beam SDK 依附元件,請參閱 Apache Beam 說明文件中的「Java 適用的 Apache Beam SDK 依附元件」和「管理 Java 中的 Beam 依附元件」。
Python
Python 適用的 Apache Beam SDK 最新版本為 2.66.0。如要瞭解版本的變更內容,請參閱 版本公告。
如要取得 Python 適用的 Apache Beam SDK,請使用 Python Package Index 中其中一個已發布的套件。
執行下列指令,安裝 Python Wheel:
pip install wheel
請從虛擬環境執行下列指令,以便安裝最新版本的 Python 適用的 Apache Beam SDK:
pip install 'apache-beam[gcp]'
視連線狀況而定,安裝作業可能需要一段時間。
如要升級現有的 apache-beam 安裝項目,請使用 --upgrade
旗標:
pip install --upgrade 'apache-beam[gcp]'
Go
Go 適用的 Apache Beam SDK 最新版本為 2.66.0。如要瞭解版本的變更內容,請參閱 版本公告。
如要安裝最新版本的 Go 適用的 Apache Beam SDK,請執行下列指令:
go get -u github.com/apache/beam/sdks/v2/go/pkg/beam
設定開發環境
如要瞭解如何設定 Google Cloud 專案和開發環境以使用 Dataflow,請參閱下列任一教學課程:
原始碼和範例
Apache Beam 原始碼可在 GitHub 上的 Apache Beam 存放區中找到。
Java
程式碼範例位於 GitHub 上的 Apache Beam Examples 目錄。
Python
程式碼範例位於 GitHub 上的 Apache Beam Examples 目錄。
Go
程式碼範例位於 GitHub 上的 Apache Beam Examples 目錄。
找出 Dataflow SDK 版本
安裝細節會因您的開發環境而異。如果您使用 Maven,您可以在一或多個本機 Maven 存放區中「安裝」多個版本的 Dataflow SDK。
Java
如要瞭解特定管道正在執行的 Dataflow SDK 版本,您可以在使用 DataflowPipelineRunner
或 BlockingDataflowPipelineRunner
執行時查看主控台的輸出。主控台將包含如下訊息,其中包括 Dataflow SDK 的版本資訊:
Python
如要瞭解特定管道正在執行的 Dataflow SDK 版本,您可以在使用 DataflowRunner
執行時查看主控台的輸出。主控台將包含如下訊息,其中包括 Dataflow SDK 的版本資訊:
Go
如要瞭解特定管道正在執行的 Dataflow SDK 版本,您可以在使用 DataflowRunner
執行時查看主控台的輸出。主控台將包含如下訊息,其中包括 Dataflow SDK 的版本資訊:
INFO: Executing pipeline on the Dataflow Service, ... Dataflow SDK version: <version>
後續步驟
- Dataflow 會與 Google Cloud CLI 整合。如需安裝 Dataflow 指令列介面的操作說明,請參閱「使用 Dataflow 指令列介面」。
- 如要瞭解 Dataflow 支援哪些 Apache Beam 功能,請參閱 Apache Beam 功能矩陣。