RDMA 網路設定檔

本頁面概述 Google Cloud中的 RDMA 網路設定檔。

關於 RDMA 網路設定檔

您可以使用 RDMA 網路設定檔建立虛擬私有雲 (VPC) 網路,在其中執行 AI 工作負載,且 VM 執行個體必須配備 NVIDIA ConnectX NIC。這些網路介面卡支援遠端直接記憶體存取 (RDMA) 連線,且在 Google Cloud中具有網路介面卡類型 MRDMA

採用 RDMA 網路設定檔的 VPC 網路,可在網路中使用 RDMA 透過匯聚以太網路 v2 (RoCE v2) 建立的 VM 的 GPU 之間,支援低延遲、高頻寬的 RDMA 通訊。

如要進一步瞭解如何在 Google Cloud中執行 AI 工作負載,請參閱 AI 超級電腦說明文件。

規格

使用 RDMA 網路設定檔建立的虛擬私有雲端網路具備以下規格:

  • 網路只接受來自 MRDMA NIC 的附件。A3 Ultra VMA4 VMA4X VM 是唯一支援 MRDMA NIC 的 VM 類型。其他 NIC 類型 (例如 A3 Ultra VM 的 GVNIC) 必須連結至一般虛擬私有雲網路。
  • Google Cloud 會預先設定網路支援的功能組合,以便支援需要 RDMA 的 AI 工作負載。採用 RDMA 網路設定檔的 VPC 網路比一般 VPC 網路有更多限制。詳情請參閱「支援與不支援的功能」。
  • 網路會受到限制,只能使用您在建立網路時指定的網路設定檔區域。舉例來說,您在網路中建立的任何執行個體,都必須建立在網路設定檔的可用區中。此外,您在網路中建立的所有子網路,都必須位於與網路設定檔可用區相對應的區域。

    RDMA 網路設定檔並非在所有區域皆可用。如要查看可使用網路設定檔的區域,請參閱「支援的區域」。您也可以列出網路設定檔,查看可用的網路設定檔區域專屬執行個體。

  • 您在建立網路時指定的 RDMA 網路設定檔資源名稱,格式為 ZONE-vpc-roce,例如 europe-west1-b-vpc-roce

  • 使用 RDMA 網路設定檔建立的虛擬私有雲網路中,預設 MTU 為 8896。這個預設值可讓 VM 客體作業系統中的 RDMA 驅動程式靈活使用適當的 MTU。一般虛擬私有雲網路中的預設 MTU 可能對某些 RDMA 工作負載來說太小。為獲得最佳效能,Google 建議您不要變更預設 MTU。

支援的區域

RDMA 網路設定檔適用於下列區域:

  • europe-west1-b
  • us-central1-a
  • us-central1-b
  • us-east4-b
  • us-west1-c

支援及不支援的功能

本節說明使用 RDMA 網路設定檔建立的 VPC 網路中,支援和不支援的功能。

系統支援一般虛擬私有雲網路的功能,除非這些功能已設為由網路設定檔停用、依賴由網路設定檔停用的功能,或是不套用至本節所述的 RDMA NIC 流量。

網路設定檔設定的功能

本表列出網路設定檔資源所設定的特定功能,並說明這些功能是否支援使用 RDMA 網路設定檔建立的虛擬私有雲網路。其中包含由 Google Cloud設定的網路設定檔屬性值。

功能 支援 屬性名稱 屬性值 詳細資料
MRDMA NIC interfaceTypes MRDMA

網路只支援 MRDMA NIC。

網路不支援其他 NIC 類型,例如 GVNICVIRTIO_NET

同一個網路中的多個 NIC allowMultiNicInSameNetwork MULTI_NIC_IN_SAME_NETWORK_ALLOWED 網路支援多 NIC VM,也就是說,同一個 VM 的不同 NIC 可連接至相同的 VPC 網路。不過,NIC 必須連接到網路中的不同子網路。

請參閱「在同一個虛擬私有雲網路中使用多個 NIC 的效能考量」。

僅限 IPv4 的子網路 subnetworkStackTypes SUBNET_STACK_TYPE_IPV4_ONLY

網路支援僅限 IPv4 的子網路,包括與一般虛擬私有雲網路相同的 有效 IPv4 範圍

網路不支援雙重堆疊或僅限 IPv6 的子網路。詳情請參閱「子網路類型」一文。

PRIVATE 子網路用途 subnetworkPurposes SUBNET_PURPOSE_PRIVATE

網路支援一般子網路,其用途為 PRIVATE

網路不支援 Private Service Connect 子網路、僅限 Proxy 的子網路或 Private NAT 子網路。詳情請參閱「子網路的用途」。

GCE_ENDPOINT 地址用途 addressPurposes GCE_ENDPOINT

網路支援用途為 GCE_ENDPOINT 的 IP 位址,用於指派給 VM 執行個體的內部 IP 位址。

網路不支援特殊用途 IP 位址,例如 Cloud Load Balancing 中使用的 SHARED_LOADBALANCER_VIP 用途。詳情請參閱地址資源參考資料

nic0 中的附件 allowDefaultNicAttachment DEFAULT_NIC_ATTACHMENT_BLOCKED 網路不支援 VM nic0 介面 (也稱為預設 NIC) 的附件。
VM 的外部 IP 位址 allowExternalIpAccess EXTERNAL_IP_ACCESS_BLOCKED 網路不支援將外部 IP 位址指派給 VM。連線至網路的網路介面卡無法連上公共網際網路。
Dynamic Network Interface allowSubInterfaces SUBINTERFACES_BLOCKED 網路不支援動態網路介面卡
別名 IP 範圍 allowAliasIpRanges ALIAS_IP_RANGE_BLOCKED 網路不支援使用別名 IP 範圍,包括次要 IPv4 位址範圍,因為只有別名 IP 範圍才能使用這些範圍。
IP 轉送 allowIpForwarding IP_FORWARDING_BLOCKED 網路不支援IP 轉送
VM 網路遷移 allowNetworkMigration NETWORK_MIGRATION_BLOCKED 網路不支援在網路之間遷移 VM
自動模式 allowAutoModeSubnet AUTO_MODE_SUBNET_BLOCKED 無法將 VPC 網路的子網路建立模式設為自動模式。
虛擬私有雲網路對等互連 allowVpcPeering VPC_PEERING_BLOCKED 網路不支援虛擬私有雲網路對等互連。 此外,網路不支援私人服務存取權,因為這項功能需要使用虛擬私有雲網路對等互連。
靜態路徑 allowStaticRoutes STATIC_ROUTES_BLOCKED 網路不支援靜態路徑
封包鏡像 allowPacketMirroring PACKET_MIRRORING_BLOCKED 網路不支援封包鏡像功能。
Cloud NAT allowCloudNat CLOUD_NAT_BLOCKED 網路不支援 Cloud NAT
Cloud Router allowCloudRouter CLOUD_ROUTER_BLOCKED 網路不支援建立 Cloud Router
Cloud Interconnect allowInterconnect INTERCONNECT_BLOCKED 網路不支援 Cloud Interconnect
Cloud VPN allowVpn VPN_BLOCKED 網路不支援 Cloud VPN
Network Connectivity Center allowNcc NCC_BLOCKED 網路不支援 Network Connectivity Center。 您無法將網路新增為 Network Connectivity Center 中樞的輪輻。
Cloud Load Balancing allowLoadBalancing LOAD_BALANCING_BLOCKED 網路不支援 Cloud Load Balancing。您無法在網路中建立負載平衡器。此外,您無法在網路中使用 Google Cloud Armor,因為 Google Cloud Armor 安全性政策只適用於負載平衡器和具有外部 IP 位址的 VM。
私人 Google 存取權 allowPrivateGoogleAccess PRIVATE_GOOGLE_ACCESS_BLOCKED 網路不支援私人 Google 存取權
Private Service Connect allowPsc PSC_BLOCKED 網路不支援任何 Private Service Connect 設定。

不適用於 RDMA NIC 流量的其他功能

一般 VPC 網路的某些功能適用於其他通訊協定的流量,但不適用於採用 RDMA 網路設定檔的網路中的流量,例如:

雖然 Google Cloud 不會阻止您設定這些功能,但在採用 RDMA 網路設定檔的 VPC 網路中,這些功能將無法生效。

在同一虛擬私有雲網路中使用多個 NIC 的效能考量

為支援可從跨軌 GPU 到 GPU 通訊中受益的工作負載,RDMA 網路設定檔可讓您建立 VM,其中有多個 MRDMA NIC 連結至同一個網路。不過,跨欄連線可能會影響網路效能,例如增加延遲時間。具有 MRDMA NIC 的 VM 會使用 NCCL,後者會嘗試將所有網路轉移作業 (包括跨軌道通訊) 對齊,例如在透過網路轉移前,使用 PXN 將資料複製到與軌道對齊的 GPU。

後續步驟