Configura la red para Gemini

En esta página, se explica cómo configurar Gemini en un entorno aislado de Google Distributed Cloud (GDC). Esta guía está destinada a los operadores de infraestructura (IO) que administran las implementaciones del sistema y abarca detalles sobre la infraestructura requerida, la configuración de hardware para los pods de GPU y los parámetros de configuración de red necesarios para implementar Gemini.

Antes de comenzar

Para configurar la red de Gemini, debes haber instalado correctamente el clúster de administrador raíz en los racks base. Para obtener más información, consulta Bootstrapping del clúster de administrador raíz.

Configura el hardware de la GPU para Gemini

Para ejecutar Gemini en GDC, debes implementar el hardware necesario en forma de un pod de GPU. Un pod de GPU consta de uno a ocho servidores de GPU que consumen energía y es la unidad mínima implementable de los racks compatibles con GPU. Cada servidor de GPU se encuentra en su propio rack y se conecta a un conmutador de administración dedicado y a dos conmutadores compartidos de la parte superior del rack (TOR). La cantidad de servidores por rack depende del presupuesto de energía y tus requisitos.

En el siguiente diagrama, se muestran dos configuraciones diferentes de Pods con GPU:

Configuración del bastidor de un pod de GPU

Figura 1. Se muestran dos Pods de GPU. El primer Pod de GPU consta de ocho servidores de GPU. El segundo pod de GPU consta de cinco servidores de GPU.

En la figura 1, el primer pod de GPU consta de lo siguiente:

  • Un par de nubes privadas virtuales (VPC) dedicadas, que pueden admitir hasta ocho servidores de GPU Las conexiones adicionales del servidor requieren la creación de nuevos pods de GPU.
  • Cada GPU XE9680 del pod de GPU usa de forma exclusiva un conmutador TOR. Los TOR del pod de GPU no se comparten con otros recursos de procesamiento o almacenamiento.
  • Se conectan dos conmutadores TOR para proporcionar conectividad de gran ancho de banda a los servidores de GPU.
  • Este pod de GPU consta de hasta ocho servidores de GPU. Cada servidor se encuentra en su propio rack.
  • Cada servidor de GPU se conecta a un conmutador de administración dedicado y a los conmutadores TOR de GPU compartidos que forman un par de VPC.

En la figura 1, el segundo Pod de GPU que se muestra comparte la misma arquitectura, pero consta de cinco servidores de GPU en lugar de ocho.

Configura la red para Gemini

Para configurar tu red para Gemini en GDC, sigue estos pasos:

  1. Realiza una expansión dinámica en el pod de GPU. Sigue los pasos que se indican en Cómo realizar una expansión dinámica. Si tienes un problema en el que no se pueden aplicar recursos de SubcomponentOverride durante la expansión zonal, sigue el manual de ejecución OLT-R0003.

  2. Valida que la conexión se haya realizado correctamente. Configura la variable de entorno KUBECONFIG para conectarte al clúster de administrador raíz:

    KUBECONFIG=KUBECONFIG_PATH
    

    Reemplaza KUBECONFIG_PATH por la ruta de acceso al archivo kubeconfig del clúster de administrador raíz.

  3. Obtén el estado de los interruptores de TOR y de administración:

    kubectl --kubeconfig=$KUBECONFIG get torswitch -n gpc-system
    kubectl --kubeconfig=$KUBECONFIG get managementswitch -n gpc-system
    
  4. Revisa el resultado y verifica que la columna READY muestre un valor de True para ambos conmutadores:

    NAME AGE VENDOR SERIAL-NUMBER MANAGEMENT-IP READY OSVERSION CREDENTIAL-NAME LICENSE-NAME
    aa-aa-torsw01 10h Cisco 005056B4FC41 172.100.1.130 True 10.3(3) aa-aa-torsw01-admin
    aa-aa-torsw02 10h Cisco 005056B4966C 172.100.1.131 True 10.3(3) aa-aa-torsw02-admin
    
  5. Si tienes problemas de hardware que afectan la configuración de tu red, consulta Cómo resolver fallas de hardware.

Cómo resolver fallas de hardware

Si experimentas alguna falla de hardware en los conmutadores de los racks expandidos, realiza el proceso de devoluciones y reemplazos de productos de conmutadores (RMA) para los conmutadores TOR y de administración. Sigue las instrucciones en PNET-R2001.

¿Qué sigue?