Tiempo estimado para completar la actividad: 2 horas
Propietario del componente operable: OELCMPerfil de habilidad: ingeniero de implementación
18.1. Verificación de la configuración
Para confirmar la calidad, la seguridad y la eficacia de los recursos de hardware y software aislados de Google Distributed Cloud (GDC) que HPE entrega para garantizar que estén listos para la producción, usa la CLI de validación de tu distribución de Distributed Cloud.
El paquete de validación prueba el estado, la instalación y la configuración de los dispositivos, y también incluye pruebas para validar servidores, conmutadores de red, almacenamiento de archivos o bloques, almacenamiento de objetos, firewalls y HSM, entre otros.
Para validar el hardware, completa los siguientes pasos:
Ejecuta el comando de CLI de validación con acceso raíz
sudoen la máquina de arranque:sudo RELEASE_DIR/gdcloud system check-config --config CELL_CONFIG_PATH --artifacts-directory ARTIFACTS_DIR --scenario ConfigCheckEste comando registra todos los registros en ARTIFACTS_DIR.
Si se encuentran errores, corrige todos los problemas según los mensajes de error. Vuelve a ejecutar la validación.
Si todos los informes indican que el estado es correcto, continúa con el siguiente paso.
18.2. Posibles problemas
En esta sección, se incluyen los posibles problemas que podrías encontrar cuando realices la validación posterior a la instalación de tu instancia de Distributed Cloud.
18.2.1. Posibles problemas en todas las versiones de Google Distributed Cloud
18.2.1.1. La verificación de red marca incorrectamente los dispositivos de almacenamiento conectados al panel de conexión
Problema:
Falla una verificación con el texto de resumen: Storage network connection mismatched
Con un texto de detalle similar al siguiente:
Got: xx-ab-stge01-01:e0g<>xx-ab-torsw02 (:::::):Ethernet1/1/1,
want: expected: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft
El síntoma clave es la segunda parte de la verificación que contiene algún tipo de etiqueta de panel de conexión, como r04Ap01BO-ft.
Solución alternativa:
Realiza una verificación manual en la CR de la celda, que se encuentra en el archivo assets/inv/inv-core.yaml:
Con el ejemplo de falla: Got: xx-ab-stge01-01:e0g<>xx-ab-torsw02 (:::::):Ethernet1/1/1,
want: expected: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft
- Confirma que exista la entrada con el dispositivo de almacenamiento y el panel de conexión nombrados.
Por ejemplo, xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft se convierte en lo siguiente:
- cableType: MMF
color: Aqua
endA: xx-ab-stge01-01:e0g
endATransceiverMPN: X65404-N-C
endB: xx-ab-ppl01:r04Ap01BO-ft
length: 2m
mpn: 'OM4LCDX #40220 (2m)'
- Confirma que el panel de conexión de la asignación se vincule al interruptor de torsión con nombre.
Para ubicar el otro lado del panel de conexión, toma r04Ap01BO-ft y la primera parte con la letra "r" y el dígito, y cambia -ft por -bk.
r04Ap01BO-ft y r04Ap02BO-ft se asignan a r04Ap01BO-bk
- cableType: MMF
color: Magenta
endA: xx-ab-torsw02:Eth1/1
endATransceiverMPN: QSFP-100G-SL4
endB: xx-ab-ppl01:r04Ap01BO-bk
length: 1.5m
mpn: '12FMTPOM4 #73704 (1.5m)'
notes: 25Gb breakout
El otro extremo de la entrada del cable debe coincidir con la primera parte de la verificación, en este caso:
Ethernet 1/1/1 significa que torsw02 en el puerto físico 1 está conectado con un casete de separación al primer separador.
Si la asignación parece correcta, puedes ignorar esta verificación.
18.2.1.2. Error de conciliación en el sitio de almacenamiento de objetos (error de sufijo de DNS)
Problema:
El recurso personalizado ObjectStorageSite se establece en Ready: false, y sus registros informan Reconcile error, retrying: failed to parse location, found malformed DNSSuffix.
Solución alternativa:
Ignora los errores. Desaparecen después del paso "root admin cluster bootstrap" en el proceso de instalación.
18.2.1.3. Configuración incorrecta de la máquina de equipos físicos para el clúster de administrador raíz
Ejemplo de falla en el resultado de la validación:
- passed: false
description: |-
BMM setting validation on server xx-yy-bm01 failed with error:
server has unexpected settings:
/redfish/v1/Systems/1/SecureBoot.SecureBootEnable is true, want false
target: xx-yy-bm01
targettype: ServerSettings
vendorerrorcode: SERVER_TEST_FAIL(0x04)
gpcerrorcode: FailedInBMMSetting
mitigation: Refer to the artifact to see which server flags. Check the connection
to the server iLO port. Check the account of iLO. Check if the iLO and server
are fully powered up. Check the concerned settings of server ah-ab-bm01.
18.2.1.4. Discrepancia en el panel de conexiones
Problema:
La verificación de hardware debe dirigirse al dispositivo que se encuentra al final de la conexión y no al dispositivo conectado directamente (xx-xx-ppl).
Ejemplo:
- description: This check validates the storage network connection against the cell
configuration.
target: xx-yy-stge01-01:e0e<>xx-yy-torsw01 (aa:aa:aa:aa:aa:aa):Ethernet1/1/1
targettype: ""
checkresult:
passed: false
summary: Storage network connection mismatched.
detail: 'Got: xx-yy-stge01-01:e0e<>xx-yy-torsw01 (aa:aa:aa:aa:aa:aa):Ethernet1/1/1,
want: expected: xx-yy-stge01-01:e0e<>xx-yy-ppl01:r03Ap01BO-ft'
vendorerrorcode: ""
errorcode: VAL-E3026
mitigation: If this check fails, it can indicate that the Storage system is not
configurated according to the configuration file. Adjust the cabling so it matches
with the cell configuration.
Solución alternativa:
Ignora los errores.
18.2.1.5. Error en la prueba de ping
Problema:
Este es un comportamiento fisiológico de la CDP, ya que la inundación de ARP debe ocurrir para completar la tabla CAM en los conmutadores y poder llegar a los dispositivos. Se espera que los primeros 1 a 5 paquetes tengan una alta probabilidad de descartarse.
Ejemplo:
- description: This check validates the link quality from the management switches
to other switches and baremetal node by measuring the packet delivery ratio of
100 ping requests.
target: xx-yy-mgmtsw01
targettype: ManagementSwitch
checkresult:
passed: false
summary: Link quality from ManagementSwitch to other devices is degraded.
detail: |-
Check the cable connections of management switch xx-yy-mgmtsw01.
Error:
ping test failed on link xx-yy-mgmtsw01:Eth1/52<>xx-yz-mgmtaggsw01:Eth1/1 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/32<>xx-yy-aggsw01:mgmt0 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/36<>xx-yy-mgmtaggsw01:mgmt0 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/41<>xx-yy-torsw02:mgmt0 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/42<>xx-yy-torsw01:mgmt0 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/51<>xx-yy-mgmtaggsw01:Eth1/1 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/45<>xx-yy-base02:ilo with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/46<>xx-yy-base03:ilo with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/24<>xx-yy-base03:LOM1 with 1 packets dropped in 100 packets send.
vendorerrorcode: SWITCH_TEST_FAIL(0x01)
errorcode: VAL-E1003
mitigation: If this check failed, it usually means the network cables from the
management switch need to be inspected or replaced. Check the artifacts directory
or stdout to see which cable flagged.
Solución alternativa:
Ignora los errores.
18.2.1.6. Verificación del nombre del clúster de almacenamiento de ONTAP
Problema:
La automatización busca el nombre de host del dispositivo ONTAP, mientras que el dispositivo ONTAP se presenta en el conmutador como un número de serie.
Ejemplo:
- description: This check validates the storage cluster name and management interface
are consistent between netapp ontap client and the cell configuration.
target: yy-stge-clus-01
targettype: StorageCluster
checkresult:
passed: false
summary: StorageCluster management interface cannot be found.
detail: StorageCluster management interface x.x.x.x in the cell configuration
cannot be found in the netapp ontap client.
vendorerrorcode: STORAGE_TEST_FAIL(0x03)
errorcode: VAL-E3007
mitigation: Review if management IPfor StorageCluster yy-stge-clus-01 in the cell
configuration is correct.
Solución alternativa:
Ignora los errores.
18.2.1.7. Falla en la detección de LLDP del programa de arranque
Problema:
show lldp neighbors no puede encontrar el programa de arranque desde el interruptor de TOR. Esto se debe a que el SO del programa de arranque (Ubuntu) no responde a las solicitudes de LLDP.
Ejemplo:
- description: This check validates the connection between TorSwitch and Server. The
connection is retriveved via "show lldp neighbors" and cross check with the MAC
address for NIC port from Server defined in the cell configuration.
target: xx-yy-torsw02
targettype: TORSwitch
checkresult:
passed: false
summary: Connection between TorSwitch and Server does not match with the cell
configuration.
detail: |-
Check the cable connection between TorSwitch and Server.
Error:
the BM server port xx-yy-bm15:s1p2 could not be found in the rack. Check if the server xx-yy-bm15 is powered up. If the server is powered up, check th
e cell.yaml file to see if the connection to switch port xx-yy-torsw02:Eth1/10/2 comply with the rack mount
vendorerrorcode: SWITCH_TEST_FAIL(0x01)
errorcode: VAL-E1001
mitigation: If this check failed, it usually means the connection from TorSwitch
to Server does not match the cell configuration. Or the Server has the wrong
MAC address for NIC port in the cell configuration. Check the artifacts directory
or stdout to see which connection flagged.
Solución alternativa:
Asegúrate de que se configure una conexión al programa de arranque desde el conmutador TOR con show mac address-table.