Perfil de rede de RDMA
Nesta página, você encontra uma visão geral do perfil de rede de RDMA no Google Cloud.
Sobre o perfil de rede de RDMA
Com o perfil de rede RDMA, é possível criar uma rede de nuvem privada virtual (VPC) em que é possível executar cargas de trabalho de IA em instâncias de VM que tenham placas de rede (NICs) do NVIDIA ConnectX. Essas NICs são compatíveis com a conectividade de acesso direto à memória (RDMA, na sigla em inglês)
e têm o tipo de NIC MRDMA
em Google Cloud.
Uma rede VPC com o perfil de rede RDMA oferece suporte à comunicação RDMA de baixa latência e alta largura de banda entre as GPUs de VMs criadas na rede usando RDMA sobre Ethernet convergente v2 (RoCE v2).
Para mais informações sobre como executar cargas de trabalho de IA em Google Cloud, consulte a documentação do Hipercomputador da IA.
Especificações
As redes VPC criadas com o perfil de rede RDMA têm as seguintes especificações:
- A rede só aceita anexos de NICs
MRDMA
. VMs A3 Ultra e VMs A4 são os únicos tipos de VM compatíveis com NICsMRDMA
. Outros tipos de NIC, como os GVNICs de uma VM do A3 Ultra, precisam ser conectados a uma rede VPC normal. - O conjunto de recursos com suporte na rede é pré-configurado por Google Cloud para oferecer suporte à execução de cargas de trabalho de IA que exigem RDMA. As redes VPC com o perfil de rede RDMA têm mais restrições do que as redes VPC normais. Para mais informações, consulte Recursos compatíveis e incompatíveis.
A rede é restrita à zona do perfil de rede que você especifica ao criá-la. Por exemplo, toda instância criada na rede precisa ser criada na zona do perfil da rede. Além disso, todas as sub-redes que você criar na rede precisam estar na região que corresponde à zona do perfil de rede.
O perfil de rede RDMA não está disponível em todas as zonas. Para ver as zonas em que o perfil de rede está disponível, consulte Zonas compatíveis. Você também pode ver as instâncias específicas da zona do perfil de rede que estão disponíveis listando perfis de rede.
O nome do recurso do perfil de rede de RDMA que você especifica ao criar a rede tem o seguinte formato
ZONE-vpc-roce
, por exemplo,europe-west1-b-vpc-roce
.A MTU padrão em uma rede VPC criada com o perfil de rede RDMA é
8896
. Esse padrão dá ao driver RDMA no SO convidado da VM a flexibilidade de usar uma MTU apropriada. A MTU padrão em redes VPC regulares pode ser muito pequena para algumas cargas de trabalho de RDMA. Para ter o melhor desempenho, o Google recomenda não mudar a MTU padrão.
Zonas compatíveis
O perfil de rede RDMA está disponível nas zonas a seguir:
europe-west1-b
us-central1-a
us-central1-b
us-east4-b
us-west1-c
Recursos compatíveis e incompatíveis
Nesta seção, descrevemos os recursos compatíveis e incompatíveis em redes VPC criadas com o perfil de rede de RDMA.
Os recursos de redes VPC normais são aceitos, a menos que estejam configurados para serem desativados pelo perfil de rede, sejam dependentes de um recurso desativado pelo perfil de rede ou não se apliquem ao tráfego de placas de rede (NICs, na sigla em inglês) RDMA, conforme descrito nesta seção.
Recursos configurados pelo perfil de rede
Esta tabela lista os recursos específicos que são configurados pelo recurso do perfil de rede e descreve se eles são compatíveis ou não com as redes VPC criadas com o perfil de rede RDMA. Ele inclui os valores de propriedade do perfil de rede definidos por Google Cloud.
Recurso | Com suporte | Nome da propriedade | Valor da propriedade | Detalhes |
---|---|---|---|---|
MRDMA NIC |
interfaceTypes |
MRDMA |
A rede oferece suporte apenas a NICs A rede não oferece suporte a outros tipos de NIC, como |
|
Várias placas de rede (NIC) na mesma rede | allowMultiNicInSameNetwork |
MULTI_NIC_IN_SAME_NETWORK_ALLOWED |
A rede oferece suporte a VMs multi-NIC, em que NICs diferentes da mesma VM podem ser anexadas à mesma rede VPC. No entanto, as NICs precisam ser anexadas a sub-redes diferentes na rede.
Consulte Considerações de desempenho para várias placas de rede (NIC) na mesma rede VPC. |
|
Sub-redes somente IPv4 | allowedSubnetStackTypes |
SUBNET_STACK_TYPE_IPV4_ONLY |
A rede oferece suporte a sub-redes somente IPv4, incluindo os mesmos intervalos IPv4 válidos que as redes VPC normais. A rede não oferece suporte a sub-redes de pilha dupla ou somente IPv6. Para mais informações, consulte Tipos de sub-redes. |
|
Finalidade de sub-rede PRIVATE |
allowedSubnetPurposes |
SUBNET_PURPOSE_PRIVATE |
A rede é compatível com sub-redes regulares, que têm uma finalidade de
A rede não oferece suporte a sub-redes do Private Service Connect, sub-redes somente proxy ou sub-redes NAT particulares. Para mais informações, consulte Finalidades das sub-redes. |
|
Finalidade do endereço GCE_ENDPOINT |
addressPurposes |
GCE_ENDPOINT |
A rede aceita endereços IP com uma finalidade de A rede não aceita endereços IP de propósitos especiais, como a finalidade |
|
Endereços IP externos para VMs | allowExternalIpAccess |
EXTERNAL_IP_ACCESS_BLOCKED |
A rede não oferece suporte à atribuição de endereços IP externos a VMs. As placas de rede (NICs) conectadas à rede não podem se conectar à Internet pública. | |
Intervalos de IP de alias | allowAliasIpRanges |
ALIAS_IP_RANGE_BLOCKED |
A rede não aceita o uso de intervalos de IP de alias, incluindo intervalos de endereços IPv4 secundários, que só podem ser usados por intervalos de IP de alias. | |
Automática | allowAutoModeSubnet |
AUTO_MODE_SUBNET_BLOCKED |
O modo de criação de sub-rede da rede VPC não pode ser definido como o modo automático. | |
Peering de rede VPC | allowVpcPeering |
VPC_PEERING_BLOCKED |
A rede não oferece suporte ao peering de rede VPC. Além disso, a rede não é compatível com o acesso a serviços particulares, que depende do peering de rede VPC. | |
Rotas estáticas | allowStaticRoutes |
STATIC_ROUTES_BLOCKED |
A rede não oferece suporte a rotas estáticas. | |
Espelhamento de pacotes | allowPacketMirroring |
PACKET_MIRRORING_BLOCKED |
A rede não é compatível com o Espelhamento de pacotes. | |
Cloud NAT | allowCloudNat |
CLOUD_NAT_BLOCKED |
A rede não é compatível com o Cloud NAT. | |
Cloud Router | allowCloudRouter |
CLOUD_ROUTER_BLOCKED |
A rede não permite a criação de Cloud Routers. | |
Cloud Interconnect | allowInterconnect |
INTERCONNECT_BLOCKED |
A rede não oferece suporte ao Cloud Interconnect. | |
Cloud VPN | allowVpn |
VPN_BLOCKED |
A rede não oferece suporte ao Cloud VPN. | |
Cloud Load Balancing | allowLoadBalancing |
LOAD_BALANCING_BLOCKED |
A rede não é compatível com o Cloud Load Balancing. Não é possível criar balanceadores de carga na rede. Além disso, não é possível usar o Google Cloud Armor na rede, porque as políticas de segurança do Google Cloud Armor se aplicam apenas a balanceadores de carga e VMs com endereços IP externos. | |
Acesso privado do Google | allowPrivateGoogleAccess |
PRIVATE_GOOGLE_ACCESS_BLOCKED |
A rede não é compatível com o Acesso privado do Google. | |
Private Service Connect | allowPsc |
PSC_BLOCKED |
A rede não oferece suporte a nenhuma configuração do Private Service Connect. |
Recursos adicionais que não se aplicam ao tráfego de placas de rede (NICs, na sigla em inglês) RDMA
Alguns recursos de redes VPC regulares disponíveis para o tráfego de outros protocolos não se aplicam ao tráfego em uma rede com o perfil de rede RDMA, como os seguintes:
- As regras de firewall de última geração do Cloud não são compatíveis.
- Os registros de fluxo de VPC não são compatíveis.
- Os Testes de conectividade não são compatíveis.
Embora Google Cloud não impeça a configuração desses recursos, eles não são eficazes em redes VPC com o perfil de rede RDMA.
Considerações de desempenho para várias NICs na mesma rede VPC
Para oferecer suporte a cargas de trabalho que se beneficiam da comunicação entre GPUs, o
perfil de rede RDMA permite criar VMs com várias NICs MRDMA
anexadas à mesma rede. No entanto, a conectividade entre
trilhos pode afetar o desempenho da rede, por exemplo, pelo
aumento da latência. As VMs que têm NICs MRDMA
usam o NCCL,
que tenta alinhar todas as transferências de rede, mesmo para a comunicação entre
trilhos, por exemplo, usando o PXN para copiar dados pelo NVlink para uma
GPU alinhada ao trilho antes de transferi-los pela rede.