RDMA 網路設定檔
本頁面概述 Google Cloud中的 RDMA 網路設定檔。
關於 RDMA 網路設定檔
您可以使用 RDMA 網路設定檔建立虛擬私有雲 (VPC) 網路,在其中執行 AI 工作負載,且 VM 執行個體必須配備 NVIDIA ConnectX NIC。這些網路介面卡支援遠端直接記憶體存取 (RDMA) 連線,且在 Google Cloud中具有網路介面卡類型 MRDMA
。
採用 RDMA 網路設定檔的 VPC 網路,可在網路中使用 RDMA 透過匯聚以太網路 v2 (RoCE v2) 建立的 VM 的 GPU 之間,支援低延遲、高頻寬的 RDMA 通訊。
如要進一步瞭解如何在 Google Cloud中執行 AI 工作負載,請參閱 AI 超級電腦說明文件。
規格
使用 RDMA 網路設定檔建立的虛擬私有雲端網路具備以下規格:
- 網路只接受來自
MRDMA
NIC 的附件。A3 Ultra VM、A4 VM 和 A4X VM 是唯一支援MRDMA
NIC 的 VM 類型。其他 NIC 類型 (例如 A3 Ultra VM 的 GVNIC) 必須連結至一般虛擬私有雲網路。 - Google Cloud 會預先設定網路支援的功能組合,以便支援需要 RDMA 的 AI 工作負載。採用 RDMA 網路設定檔的 VPC 網路比一般 VPC 網路有更多限制。詳情請參閱「支援與不支援的功能」。
網路會受到限制,只能使用您在建立網路時指定的網路設定檔區域。舉例來說,您在網路中建立的任何執行個體,都必須建立在網路設定檔的可用區中。此外,您在網路中建立的所有子網路,都必須位於與網路設定檔可用區相對應的區域。
RDMA 網路設定檔並非在所有區域皆可用。如要查看可使用網路設定檔的區域,請參閱「支援的區域」。您也可以列出網路設定檔,查看可用的網路設定檔區域專屬執行個體。
您在建立網路時指定的 RDMA 網路設定檔資源名稱,格式為
ZONE-vpc-roce
,例如europe-west1-b-vpc-roce
。使用 RDMA 網路設定檔建立的虛擬私有雲網路中,預設 MTU 為
8896
。這個預設值可讓 VM 客體作業系統中的 RDMA 驅動程式靈活使用適當的 MTU。一般虛擬私有雲網路中的預設 MTU 可能對某些 RDMA 工作負載來說太小。為獲得最佳效能,Google 建議您不要變更預設 MTU。
支援的區域
RDMA 網路設定檔適用於下列區域:
europe-west1-b
us-central1-a
us-central1-b
us-east4-b
us-west1-c
支援及不支援的功能
本節說明使用 RDMA 網路設定檔建立的 VPC 網路中,支援和不支援的功能。
系統支援一般虛擬私有雲網路的功能,除非這些功能已設為由網路設定檔停用、依賴由網路設定檔停用的功能,或是不套用至本節所述的 RDMA NIC 流量。
網路設定檔設定的功能
本表列出網路設定檔資源所設定的特定功能,並說明這些功能是否支援使用 RDMA 網路設定檔建立的虛擬私有雲網路。其中包含由 Google Cloud設定的網路設定檔屬性值。
功能 | 支援 | 屬性名稱 | 屬性值 | 詳細資料 |
---|---|---|---|---|
MRDMA NIC |
interfaceTypes |
MRDMA |
網路只支援 網路不支援其他 NIC 類型,例如 |
|
同一個網路中的多個 NIC | allowMultiNicInSameNetwork |
MULTI_NIC_IN_SAME_NETWORK_ALLOWED |
網路支援多 NIC VM,也就是說,同一個 VM 的不同 NIC 可連接至相同的 VPC 網路。不過,NIC 必須連接到網路中的不同子網路。 | |
僅限 IPv4 的子網路 | subnetworkStackTypes |
SUBNET_STACK_TYPE_IPV4_ONLY |
網路支援僅限 IPv4 的子網路,包括與一般虛擬私有雲網路相同的 有效 IPv4 範圍。 網路不支援雙重堆疊或僅限 IPv6 的子網路。詳情請參閱「子網路類型」一文。 |
|
PRIVATE 子網路用途 |
subnetworkPurposes |
SUBNET_PURPOSE_PRIVATE |
網路支援一般子網路,其用途為 網路不支援 Private Service Connect 子網路、僅限 Proxy 的子網路或 Private NAT 子網路。詳情請參閱「子網路的用途」。 |
|
GCE_ENDPOINT 地址用途 |
addressPurposes |
GCE_ENDPOINT |
網路支援用途為 網路不支援特殊用途 IP 位址,例如 Cloud Load Balancing 中使用的 |
|
nic0 中的附件 |
allowDefaultNicAttachment |
DEFAULT_NIC_ATTACHMENT_BLOCKED |
網路不支援 VM nic0 介面 (也稱為預設 NIC) 的附件。 |
|
VM 的外部 IP 位址 | allowExternalIpAccess |
EXTERNAL_IP_ACCESS_BLOCKED |
網路不支援將外部 IP 位址指派給 VM。連線至網路的網路介面卡無法連上公共網際網路。 | |
Dynamic Network Interface | allowSubInterfaces |
SUBINTERFACES_BLOCKED |
網路不支援動態網路介面卡。 | |
別名 IP 範圍 | allowAliasIpRanges |
ALIAS_IP_RANGE_BLOCKED |
網路不支援使用別名 IP 範圍,包括次要 IPv4 位址範圍,因為只有別名 IP 範圍才能使用這些範圍。 | |
IP 轉送 | allowIpForwarding |
IP_FORWARDING_BLOCKED |
網路不支援IP 轉送。 | |
VM 網路遷移 | allowNetworkMigration |
NETWORK_MIGRATION_BLOCKED |
網路不支援在網路之間遷移 VM。 | |
自動模式 | allowAutoModeSubnet |
AUTO_MODE_SUBNET_BLOCKED |
無法將 VPC 網路的子網路建立模式設為自動模式。 | |
虛擬私有雲網路對等互連 | allowVpcPeering |
VPC_PEERING_BLOCKED |
網路不支援虛擬私有雲網路對等互連。 此外,網路不支援私人服務存取權,因為這項功能需要使用虛擬私有雲網路對等互連。 | |
靜態路徑 | allowStaticRoutes |
STATIC_ROUTES_BLOCKED |
網路不支援靜態路徑。 | |
封包鏡像 | allowPacketMirroring |
PACKET_MIRRORING_BLOCKED |
網路不支援封包鏡像功能。 | |
Cloud NAT | allowCloudNat |
CLOUD_NAT_BLOCKED |
網路不支援 Cloud NAT。 | |
Cloud Router | allowCloudRouter |
CLOUD_ROUTER_BLOCKED |
網路不支援建立 Cloud Router。 | |
Cloud Interconnect | allowInterconnect |
INTERCONNECT_BLOCKED |
網路不支援 Cloud Interconnect。 | |
Cloud VPN | allowVpn |
VPN_BLOCKED |
網路不支援 Cloud VPN。 | |
Network Connectivity Center | allowNcc |
NCC_BLOCKED |
網路不支援 Network Connectivity Center。 您無法將網路新增為 Network Connectivity Center 中樞的輪輻。 | |
Cloud Load Balancing | allowLoadBalancing |
LOAD_BALANCING_BLOCKED |
網路不支援 Cloud Load Balancing。您無法在網路中建立負載平衡器。此外,您無法在網路中使用 Google Cloud Armor,因為 Google Cloud Armor 安全性政策只適用於負載平衡器和具有外部 IP 位址的 VM。 | |
私人 Google 存取權 | allowPrivateGoogleAccess |
PRIVATE_GOOGLE_ACCESS_BLOCKED |
網路不支援私人 Google 存取權。 | |
Private Service Connect | allowPsc |
PSC_BLOCKED |
網路不支援任何 Private Service Connect 設定。 |
不適用於 RDMA NIC 流量的其他功能
一般 VPC 網路的某些功能適用於其他通訊協定的流量,但不適用於採用 RDMA 網路設定檔的網路中的流量,例如:
- 不支援 Cloud Next Generation 防火牆規則。
- 不支援虛擬私有雲流量記錄。
- 不支援 Connectivity Tests。
雖然 Google Cloud 不會阻止您設定這些功能,但在採用 RDMA 網路設定檔的 VPC 網路中,這些功能將無法生效。
在同一虛擬私有雲網路中使用多個 NIC 的效能考量
為支援可從跨軌 GPU 到 GPU 通訊中受益的工作負載,RDMA 網路設定檔可讓您建立 VM,其中有多個 MRDMA
NIC 連結至同一個網路。不過,跨欄連線可能會影響網路效能,例如增加延遲時間。具有 MRDMA
NIC 的 VM 會使用 NCCL,後者會嘗試將所有網路轉移作業 (包括跨軌道通訊) 對齊,例如在透過網路轉移前,使用 PXN 將資料複製到與軌道對齊的 GPU。