安裝 Apache Beam SDK

本頁說明如何安裝 Apache Beam SDK,以便在 Dataflow 服務上執行管道。

安裝 SDK 版本

Apache Beam SDK 是一種用於資料管道的開放原始碼程式設計模型。您可以使用 Apache Beam 程式來定義這些管道,並選擇 Dataflow 等執行器來執行管道。

Java

Java 適用的 Apache Beam SDK 最新版本為 2.66.0。如要瞭解版本的變更內容,請參閱 版本公告

如要使用 Maven 取得 Java 適用的 Apache Beam SDK,請採用 Maven Central Repository 中已發布的成果。

在 SDK 構件的 pom.xml 檔案中新增依附元件和依附元件管理工具。詳情請參閱「在 Dataflow 中管理管道依附元件」。

如要進一步瞭解 Java 適用的 Apache Beam SDK 依附元件,請參閱 Apache Beam 說明文件中的「Java 適用的 Apache Beam SDK 依附元件」和「管理 Java 中的 Beam 依附元件」。

Python

Python 適用的 Apache Beam SDK 最新版本為 2.66.0。如要瞭解版本的變更內容,請參閱 版本公告

如要取得 Python 適用的 Apache Beam SDK,請使用 Python Package Index 中其中一個已發布的套件。

執行下列指令,安裝 Python Wheel:

pip install wheel

請從虛擬環境執行下列指令,以便安裝最新版本的 Python 適用的 Apache Beam SDK:

pip install 'apache-beam[gcp]'

視連線狀況而定,安裝作業可能需要一段時間。

如要升級現有的 apache-beam 安裝項目,請使用 --upgrade 旗標:

pip install --upgrade 'apache-beam[gcp]'

Go

Go 適用的 Apache Beam SDK 最新版本為 2.66.0。如要瞭解版本的變更內容,請參閱 版本公告

如要安裝最新版本的 Go 適用的 Apache Beam SDK,請執行下列指令:

go get -u github.com/apache/beam/sdks/v2/go/pkg/beam

設定開發環境

如要瞭解如何設定 Google Cloud 專案和開發環境以使用 Dataflow,請參閱下列任一教學課程:

原始碼和範例

Apache Beam 原始碼可在 GitHub 上的 Apache Beam 存放區中找到。

Java

程式碼範例位於 GitHub 上的 Apache Beam Examples 目錄

Python

程式碼範例位於 GitHub 上的 Apache Beam Examples 目錄

Go

程式碼範例位於 GitHub 上的 Apache Beam Examples 目錄

找出 Dataflow SDK 版本

安裝細節會因您的開發環境而異。如果您使用 Maven,您可以在一或多個本機 Maven 存放區中「安裝」多個版本的 Dataflow SDK。

Java

如要瞭解特定管道正在執行的 Dataflow SDK 版本,您可以在使用 DataflowPipelineRunnerBlockingDataflowPipelineRunner 執行時查看主控台的輸出。主控台將包含如下訊息,其中包括 Dataflow SDK 的版本資訊:

Python

如要瞭解特定管道正在執行的 Dataflow SDK 版本,您可以在使用 DataflowRunner 執行時查看主控台的輸出。主控台將包含如下訊息,其中包括 Dataflow SDK 的版本資訊:

Go

如要瞭解特定管道正在執行的 Dataflow SDK 版本,您可以在使用 DataflowRunner 執行時查看主控台的輸出。主控台將包含如下訊息,其中包括 Dataflow SDK 的版本資訊:

  INFO: Executing pipeline on the Dataflow Service, ...
  Dataflow SDK version: <version>

後續步驟