提高 GPU 節點的網路流量速度


本頁面說明如何使用 Google 虛擬 NIC (gVNIC),提高 Google Kubernetes Engine (GKE) 叢集 GPU 節點的網路頻寬。

在 Autopilot 叢集中,執行 GKE 1.30.2-gke.1023000 以上版本的節點會自動安裝 Google 虛擬 NIC (gVNIC)。本頁的操作說明僅適用於標準叢集。

如要增加 CPU 節點的頻寬,請考慮啟用第 1 層頻寬

事前準備

開始之前,請確認你已完成下列工作:

  • 啟用 Google Kubernetes Engine API。
  • 啟用 Google Kubernetes Engine API
  • 如要使用 Google Cloud CLI 執行這項工作,請安裝初始化 gcloud CLI。如果您先前已安裝 gcloud CLI,請執行 gcloud components update,取得最新版本。

限制

需求條件

啟用 gVNIC

您可以建立使用 gVNIC 的節點集區叢集、建立啟用 gVNIC 的節點集區,或更新節點集區以使用 gVNIC。

建立叢集

建立具有使用 gVNIC 的節點集區的叢集:

gcloud container clusters create CLUSTER_NAME \
    --accelerator type=GPU_TYPE,count=AMOUNT \
    --machine-type=MACHINE_TYPE \
    --enable-gvnic

更改下列內容:

  • CLUSTER_NAME:新叢集的名稱。
  • GPU_TYPE:您使用的 GPU 加速器類型。例如:nvidia-tesla-t4
  • AMOUNT:要附加至節點集區中節點的 GPU 數量。
  • MACHINE_TYPE:您要使用的機器類型。記憶體最佳化機器類型不支援 gVNIC。

建立節點集區

建立使用 gVNIC 的節點集區:

gcloud container node-pools create NODEPOOL_NAME \
    --cluster=CLUSTER_NAME \
    --enable-gvnic

更改下列內容:

  • NODEPOOL_NAME:新節點集區的名稱。
  • CLUSTER_NAME:現有叢集的名稱。

更新節點集區

更新節點集區,改用 gVNIC:

gcloud container node-pools update NODEPOOL_NAME \
    --cluster=CLUSTER_NAME \
    --enable-gvnic

更改下列內容:

  • NODEPOOL_NAME:要更新的節點集區名稱。
  • CLUSTER_NAME:現有叢集的名稱。

這項變更需要重新建立節點,可能會導致執行中的工作負載中斷。如要瞭解這項特定變更的詳細資訊,請在「手動變更,使用節點升級策略重建節點,但不遵守維護政策」表格中,找到對應的資料列。如要進一步瞭解節點更新,請參閱「規劃節點更新中斷」。

停用 gVNIC

使用 --no-enable-gvnic 旗標更新節點集區:

gcloud container node-pools update NODEPOOL_NAME \
    --cluster=CLUSTER_NAME \
    --no-enable-gvnic

這項變更需要重新建立節點,可能會導致執行中的工作負載中斷。如要瞭解這項特定變更的詳細資訊,請在「手動變更,使用節點升級策略重建節點,但不遵守維護政策」表格中,找到對應的資料列。如要進一步瞭解節點更新,請參閱「規劃節點更新中斷」。

疑難排解

如要排解 gVNIC 問題,請參閱「排解 Google Virtual NIC 問題」。

後續步驟