本頁面說明如何建立 Dataproc Serverless 互動式工作階段和工作階段範本。您可以使用工作階段範本,根據工作階段範本設定建立多個互動式工作階段。
建立 Spark Connect 工作階段
您可以使用 Google Cloud 控制台、Google Cloud CLI 或 Dataproc API 建立 Dataproc 無伺服器互動工作階段。
控制台
如要使用 Google Cloud 控制台建立 Dataproc 無伺服器工作階段,請完成下列步驟:
前往 Google Cloud 控制台的「Interactive Sessions」頁面。
- 按一下 [建立]。
在「Add an interactive session (Preview)」頁面中,輸入或確認工作階段設定。注意事項:
- 互動工作階段名稱:必填。接受預設名稱或指定工作階段名稱。
- 區域:必填。接受預設區域,或為工作階段指定可用區域。
- 執行階段設定:選用。可選的工作階段執行階段會對應至可用的 Dataproc Serverless 執行階段版本。您可以指定要用於工作階段的自訂容器映像檔。
- Properties:選用。針對要為工作階段設定的每個屬性,按一下「新增項目」。詳情請參閱「Spark 屬性」。
- Spark UI (預先發布版):選用。您可以使用 Spark UI 收集及監控工作階段執行詳細資料。
- 服務帳戶:選填。要用於工作階段的服務帳戶。如未指定,系統會使用 Compute Engine 預設服務帳戶。
- 網路設定:必填。在工作階段區域中選取子網路。Dataproc Serverless 會在子網路上啟用私人 Google 存取權 (PGA)。如需網路連線需求,請參閱 Dataproc 無伺服器網路設定。
按一下「提交」即可建立工作階段。
gcloud
您可以使用 gcloud beta dataproc sessions create command SESSION_NAME
建立 Dataproc Serverless 互動工作階段。
gcloud beta dataproc sessions create spark SESSION_ID \ --location=REGION \ optional flags ...
取代或新增下列項目:
SESSION_ID:必填。工作階段 ID。
REGION:必填。可用地區,用於定位您的工作階段。
--version
:選填。支援的 Spark 執行階段版本。如果您沒有使用這個旗標指定版本,系統會使用目前的預設 Spark 執行階段版本。--container-image
:選填。要用於工作階段的自訂容器映像檔。--property
:選填。一或多個以半形逗號分隔的工作階段 Spark 屬性。--service-account
:選填。要用於工作階段的服務帳戶。如未指定,系統會使用 Compute Engine 預設服務帳戶。--subnet
:選填。工作階段區域中的子網路名稱。如未指定,Dataproc Serverless 會使用工作階段區域中的default
子網路。Dataproc Serverless 會在子網路上啟用私人 Google 存取權 (PGA)。如需網路連線需求,請參閱 Dataproc 無伺服器網路設定。
REST
您可以使用 Dataproc sessions.create
API 建立 Dataproc Serverless 互動工作階段。
注意:
name
:必填。工作階段名稱。version
:選填。工作階段支援的任何Spark 執行階段版本。如果您沒有指定版本,系統會使用目前的預設版本。containerImage
:選填。要用於工作階段的自訂容器映像檔。properties
:選填。工作階段屬性名稱與值的對應。請參閱Spark 屬性。serviceAccount
:選填。要用於執行工作階段的服務帳戶。如未指定,系統會使用 Compute Engine 預設服務帳戶。subnetworkUri
:選填。工作階段區域中的子網路名稱。如未指定,Dataproc Serverless 會使用工作階段區域中的default
子網路。Dataproc Serverless 會在子網路上啟用私人 Google 存取權 (PGA)。如需網路連線需求,請參閱 Dataproc 無伺服器網路設定。
建立工作階段範本
Dataproc Serverless 工作階段範本會定義建立一或多個 Dataproc Serverless 互動工作階段的設定。您可以使用 Google Cloud 控制台、gcloud CLI 或 Dataproc API,為 Jupyter 或 Spark Connect 工作階段建立 Dataproc Serverless 工作階段範本。
控制台
如要使用 Google Cloud 控制台建立 Dataproc 無伺服器工作階段範本,請完成下列步驟:
在 Google Cloud 控制台中,前往「Session Templates」(工作階段範本) 頁面。
- 按一下 [建立]。
在「Create session template」頁面中,輸入或確認範本設定。注意事項:
- 範本執行階段 ID:必填。接受預設 ID (名稱) 或指定範本執行階段名稱。
- 區域:必填。接受預設區域,或為範本工作階段指定可用區域。
- 執行階段版本:選填。可選取的工作階段執行階段會對應至 Dataproc Serverless 執行階段版本。
- BigQuery Studio 筆記本工作階段需求:如果您要建立範本以用於 BigQuery Studio 筆記本 Spark Connect 工作階段,則該範本必須使用 Spark 執行階段 2.3 以上版本。
- 範本設定類型:必要。選取類型。如果您選取
Jupyter
,請指定「顯示名稱」,然後選取「Jupyter 核心類型」。另請參閱「在 Dataproc 無伺服器上啟動 Jupyter 筆記本」。- BigQuery Studio 筆記本工作階段需求: BigQuery Studio 筆記本工作階段必須指定 Spark Connect 做為範本設定類型。
- 服務帳戶:選填。用於執行範本工作階段的服務帳戶。如未指定,系統會使用 Compute Engine 預設服務帳戶。
- 自訂容器映像檔:選用。用於範本工作階段的自訂容器映像檔。
- Properties:選用。針對每個屬性按一下「新增項目」,為範本工作階段設定屬性。詳情請參閱「Spark 屬性」。
- 網路設定: * 必填。在工作階段區域中選取子網路。Dataproc Serverless 會在指定子網路中啟用私人 Google 存取權 (PGA)。如需網路連線需求,請參閱 Dataproc 無伺服器網路設定。
按一下「提交」,建立工作階段範本。
gcloud
您無法直接使用 gcloud CLI 建立 Dataproc 無伺服器工作階段範本,但可以使用 gcloud beta dataproc session-templates import
指令匯入現有的會話範本。您可以編輯匯入的範本,然後使用 gcloud beta dataproc session-templates export
指令匯出。
REST
您可以使用 Dataproc sessionTemplates.create
API 建立 Dataproc Serverless 工作階段範本。
注意:
name
:必填。工作階段範本名稱。version
:選填。適用於範本工作階段的任何支援Spark 執行階段版本。如果您沒有指定版本,系統會使用預設版本。- BigQuery Studio 筆記本工作階段需求:如果您要建立範本以用於 BigQuery Studio 筆記本 Spark Connect 工作階段,則該範本必須使用 Spark 執行階段 2.3 以上版本。
sessionConfig
:指定jupyter_session
或spark_connect_session
。如果您指定jupyter_session
,請一併指定JupyterConfig.display_name
和JupyterConfig.kernel
。另請參閱「在 Dataproc Serverless 上啟動 Jupyter 筆記本」。- BigQuery Studio 筆記本工作階段需求: BigQuery Studio 筆記本工作階段必須指定 Spark Connect 做為範本設定類型。
containerImage
:選填。用於範本工作階段的自訂容器映像檔。properties
:選填。工作階段屬性名稱與值的對應。請參閱Spark 屬性。serviceAccount
:選填。用來執行範本工作階段的服務帳戶。如未指定,系統會使用 Compute Engine 預設服務帳戶。subnetworkUri
:選填。工作階段區域中的子網路名稱。如未指定,Dataproc Serverless 會使用工作階段區域中的default
子網路。Dataproc Serverless 會在子網路上啟用私人 Google 存取權 (PGA)。如需網路連線需求,請參閱 Dataproc 無伺服器網路設定。