Configurar a rede para o Gemini

Nesta página, mostramos como configurar o Gemini em um ambiente isolado do Google Distributed Cloud (GDC). Este guia é destinado a operadores de infraestrutura (IOs, na sigla em inglês) que gerenciam implantações de sistemas. Ele aborda detalhes sobre a infraestrutura necessária, a configuração de hardware para pods de GPU e as configurações de rede necessárias para implantar o Gemini.

Antes de começar

Para configurar a rede do Gemini, é necessário ter o cluster de administrador raiz instalado com sucesso nos racks de base. Para mais informações, consulte Bootstrap do cluster de administrador raiz.

Configurar o hardware de GPU para o Gemini

Para executar o Gemini no GDC, é necessário implantar o hardware necessário na forma de um pod de GPU. Um pod de GPU consiste em um a oito servidores de GPU que consomem energia e é a unidade mínima implantável de racks compatíveis com GPU. Cada servidor de GPU fica em um rack próprio e se conecta a um switch de gerenciamento dedicado e a dois switches compartilhados de topo de rack (TOR, na sigla em inglês). O número de servidores por rack depende do orçamento de energia e dos seus requisitos.

O diagrama a seguir mostra duas configurações diferentes de pods de GPU:

Configuração de rack de um pod de GPU

Figura 1. Dois pods de GPU são mostrados. O primeiro pod de GPU consiste em oito servidores de GPU. O segundo pod de GPU consiste em cinco servidores de GPU.

Na Figura 1, o primeiro pod de GPU consiste no seguinte:

  • Um par de nuvens privadas virtuais (VPCs) dedicadas, que podem oferecer suporte a até oito servidores de GPU. Para mais conexões de servidor, é preciso criar novos pods de GPU.
  • Cada GPU XE9680 no pod de GPU tem uso exclusivo de um switch TOR. Os TORs no pod da GPU não são compartilhados com outros recursos de computação ou armazenamento.
  • Dois switches TOR são conectados para oferecer conectividade de alta largura de banda aos servidores de GPU.
  • Esse pod de GPU consiste em até oito servidores de GPU. Cada servidor fica em um rack próprio.
  • Cada servidor de GPU se conecta a um switch de gerenciamento dedicado e aos switches TOR de GPU compartilhados que formam um par de VPCs.

Na figura 1, o segundo pod de GPU mostrado compartilha a mesma arquitetura, mas consiste em cinco servidores de GPU em vez de oito.

Configurar a rede para o Gemini

Para configurar sua rede para o Gemini no GDC, siga estas etapas:

  1. Faça uma expansão dinâmica no pod da GPU. Siga as etapas descritas em Fazer uma expansão dinâmica. Se você tiver um problema em que os recursos do SubcomponentOverride não podem ser aplicados durante a expansão zonal, siga o runbook OLT-R0003.

  2. Valide se a conexão foi bem-sucedida. Defina a variável de ambiente KUBECONFIG para se conectar ao cluster de administrador raiz:

    KUBECONFIG=KUBECONFIG_PATH
    

    Substitua KUBECONFIG_PATH pelo caminho do arquivo kubeconfig do cluster de administrador raiz.

  3. Confira o status das chaves TOR e de gerenciamento:

    kubectl --kubeconfig=$KUBECONFIG get torswitch -n gpc-system
    kubectl --kubeconfig=$KUBECONFIG get managementswitch -n gpc-system
    
  4. Confira a saída e verifique se a coluna READY mostra um valor de True para as duas chaves:

    NAME AGE VENDOR SERIAL-NUMBER MANAGEMENT-IP READY OSVERSION CREDENTIAL-NAME LICENSE-NAME
    aa-aa-torsw01 10h Cisco 005056B4FC41 172.100.1.130 True 10.3(3) aa-aa-torsw01-admin
    aa-aa-torsw02 10h Cisco 005056B4966C 172.100.1.131 True 10.3(3) aa-aa-torsw02-admin
    
  5. Se você estiver enfrentando problemas de hardware que afetam a configuração da sua rede, consulte Resolver falhas de hardware.

Resolver falhas de hardware

Se você tiver falhas de hardware nos switches dos racks expandidos, siga o processo de devoluções e substituições de produtos (RMA) para os switches TOR e de gerenciamento. Siga as instruções em PNET-R2001.

A seguir