Tempo estimado para a conclusão: 2 horas
Proprietário do componente operacional: OELCMPerfil de habilidade: engenheiro de implantação
18.1. Verificação da configuração
Para confirmar a qualidade, a segurança e a eficácia dos recursos de hardware e software isolados do Google Distributed Cloud (GDC) entregues pela HPE e garantir que ele esteja pronto para produção, use a CLI de validação da sua distribuição do Distributed Cloud.
O pacote de validação testa a integridade, a instalação e a configuração dos dispositivos e inclui testes para validar servidores, switches de rede, armazenamento de arquivos/ blocos, armazenamento de objetos, firewalls e HSMs, entre outros.
Para validar o hardware, siga estas etapas:
Execute o comando da CLI de validação com acesso root
sudona máquina de bootstrap:sudo RELEASE_DIR/gdcloud system check-config --config CELL_CONFIG_PATH --artifacts-directory ARTIFACTS_DIR --scenario ConfigCheckEsse comando registra todos os registros em ARTIFACTS_DIR.
Se forem encontrados erros, corrija todos os problemas com base nas mensagens de erro. Execute a validação novamente.
Se todos os relatórios estiverem íntegros, vá para a próxima etapa.
18.2. Possíveis problemas
Esta seção contém possíveis problemas que você pode encontrar ao realizar a validação pós-instalação da sua instância do Distributed Cloud.
18.2.1. Possíveis problemas em todas as versões do Google Distributed Cloud
18.2.1.1. A verificação de rede sinaliza incorretamente os dispositivos de armazenamento conectados ao painel de conexão
Problema:
Uma verificação falha com o texto de resumo: Storage network connection mismatched
Com um texto de detalhe parecido com este:
Got: xx-ab-stge01-01:e0g<>xx-ab-torsw02 (:::::):Ethernet1/1/1,
want: expected: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft
O principal sintoma é a segunda parte da verificação, que contém algum tipo de rótulo de painel de conexão, como r04Ap01BO-ft.
Alternativa:
Faça uma verificação manual na resposta automática da célula, encontrada no arquivo assets/inv/inv-core.yaml:
Usando o exemplo de falha: Got: xx-ab-stge01-01:e0g<>xx-ab-torsw02 (:::::):Ethernet1/1/1,
want: expected: xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft
- Confirme se a entrada com o dispositivo de armazenamento nomeado e o painel de conexão existe.
Por exemplo, xx-ab-stge01-01:e0g<>xx-ab-ppl01:r04Ap01BO-ft se torna:
- cableType: MMF
color: Aqua
endA: xx-ab-stge01-01:e0g
endATransceiverMPN: X65404-N-C
endB: xx-ab-ppl01:r04Ap01BO-ft
length: 2m
mpn: 'OM4LCDX #40220 (2m)'
- Confirme se o painel de conexão de mapeamento está vinculado ao torswitch nomeado.
Para localizar o outro lado do painel de conexão, pegue r04Ap01BO-ft
e a primeira parte com o r e o dígito e mude -ft para -bk.
r04Ap01BO-ft e r04Ap02BO-ft são mapeados para r04Ap01BO-bk
- cableType: MMF
color: Magenta
endA: xx-ab-torsw02:Eth1/1
endATransceiverMPN: QSFP-100G-SL4
endB: xx-ab-ppl01:r04Ap01BO-bk
length: 1.5m
mpn: '12FMTPOM4 #73704 (1.5m)'
notes: 25Gb breakout
A outra extremidade da entrada do cabo precisa corresponder à primeira parte da verificação, neste caso:
Ethernet 1/1/1 significa que torsw02 na porta física 1 está conectado usando um cassete de breakout ao primeiro breakout.
Se o mapeamento estiver correto, ignore essa verificação.
18.2.1.2. Erro de reconciliação no site de armazenamento de objetos (erro de sufixo de DNS)
Problema:
O recurso personalizado ObjectStorageSite está definido como Ready: false, e os registros dele informam Reconcile error, retrying: failed to parse location, found malformed DNSSuffix.
Alternativa:
Ignore os erros. Eles desaparecem após a etapa "inicialização do cluster de administrador raiz" no processo de instalação.
18.2.1.3. Configurações incorretas da máquina bare metal para o cluster de administrador raiz
Exemplo de falha na saída da validação:
- passed: false
description: |-
BMM setting validation on server xx-yy-bm01 failed with error:
server has unexpected settings:
/redfish/v1/Systems/1/SecureBoot.SecureBootEnable is true, want false
target: xx-yy-bm01
targettype: ServerSettings
vendorerrorcode: SERVER_TEST_FAIL(0x04)
gpcerrorcode: FailedInBMMSetting
mitigation: Refer to the artifact to see which server flags. Check the connection
to the server iLO port. Check the account of iLO. Check if the iLO and server
are fully powered up. Check the concerned settings of server ah-ab-bm01.
18.2.1.4. Incompatibilidade do painel de conexões
Problema:
A verificação de hardware deve ser direcionada ao dispositivo no final da conexão e não ao dispositivo conectado diretamente (xx-xx-ppl).
Exemplo:
- description: This check validates the storage network connection against the cell
configuration.
target: xx-yy-stge01-01:e0e<>xx-yy-torsw01 (aa:aa:aa:aa:aa:aa):Ethernet1/1/1
targettype: ""
checkresult:
passed: false
summary: Storage network connection mismatched.
detail: 'Got: xx-yy-stge01-01:e0e<>xx-yy-torsw01 (aa:aa:aa:aa:aa:aa):Ethernet1/1/1,
want: expected: xx-yy-stge01-01:e0e<>xx-yy-ppl01:r03Ap01BO-ft'
vendorerrorcode: ""
errorcode: VAL-E3026
mitigation: If this check fails, it can indicate that the Storage system is not
configurated according to the configuration file. Adjust the cabling so it matches
with the cell configuration.
Alternativa:
Ignore os erros.
18.2.1.5. Falha no teste de ping
Problema:
Esse é um comportamento fisiológico do CDP, já que o flooding de ARP precisa acontecer para preencher a tabela CAM nos switches e alcançar os dispositivos. Os primeiros 1 a 5 pacotes têm uma alta probabilidade de serem descartados.
Exemplo:
- description: This check validates the link quality from the management switches
to other switches and baremetal node by measuring the packet delivery ratio of
100 ping requests.
target: xx-yy-mgmtsw01
targettype: ManagementSwitch
checkresult:
passed: false
summary: Link quality from ManagementSwitch to other devices is degraded.
detail: |-
Check the cable connections of management switch xx-yy-mgmtsw01.
Error:
ping test failed on link xx-yy-mgmtsw01:Eth1/52<>xx-yz-mgmtaggsw01:Eth1/1 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/32<>xx-yy-aggsw01:mgmt0 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/36<>xx-yy-mgmtaggsw01:mgmt0 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/41<>xx-yy-torsw02:mgmt0 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/42<>xx-yy-torsw01:mgmt0 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/51<>xx-yy-mgmtaggsw01:Eth1/1 with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/45<>xx-yy-base02:ilo with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/46<>xx-yy-base03:ilo with 1 packets dropped in 100 packets send
ping test failed on link xx-yy-mgmtsw01:Eth1/24<>xx-yy-base03:LOM1 with 1 packets dropped in 100 packets send.
vendorerrorcode: SWITCH_TEST_FAIL(0x01)
errorcode: VAL-E1003
mitigation: If this check failed, it usually means the network cables from the
management switch need to be inspected or replaced. Check the artifacts directory
or stdout to see which cable flagged.
Alternativa:
Ignore os erros.
18.2.1.6. Verificação do nome do cluster de armazenamento do ONTAP
Problema:
A automação procura o nome do host do dispositivo ONTAP, enquanto o dispositivo ONTAP se apresenta no switch como um número de série.
Exemplo:
- description: This check validates the storage cluster name and management interface
are consistent between netapp ontap client and the cell configuration.
target: yy-stge-clus-01
targettype: StorageCluster
checkresult:
passed: false
summary: StorageCluster management interface cannot be found.
detail: StorageCluster management interface x.x.x.x in the cell configuration
cannot be found in the netapp ontap client.
vendorerrorcode: STORAGE_TEST_FAIL(0x03)
errorcode: VAL-E3007
mitigation: Review if management IPfor StorageCluster yy-stge-clus-01 in the cell
configuration is correct.
Alternativa:
Ignore os erros.
18.2.1.7. Falha na descoberta de LLDP do bootstrapper
Problema:
O show lldp neighbors não consegue encontrar o bootstrap do switch TOR. Isso acontece porque o SO no bootstrap (Ubuntu) não responde a solicitações LLDP.
Exemplo:
- description: This check validates the connection between TorSwitch and Server. The
connection is retriveved via "show lldp neighbors" and cross check with the MAC
address for NIC port from Server defined in the cell configuration.
target: xx-yy-torsw02
targettype: TORSwitch
checkresult:
passed: false
summary: Connection between TorSwitch and Server does not match with the cell
configuration.
detail: |-
Check the cable connection between TorSwitch and Server.
Error:
the BM server port xx-yy-bm15:s1p2 could not be found in the rack. Check if the server xx-yy-bm15 is powered up. If the server is powered up, check th
e cell.yaml file to see if the connection to switch port xx-yy-torsw02:Eth1/10/2 comply with the rack mount
vendorerrorcode: SWITCH_TEST_FAIL(0x01)
errorcode: VAL-E1001
mitigation: If this check failed, it usually means the connection from TorSwitch
to Server does not match the cell configuration. Or the Server has the wrong
MAC address for NIC port in the cell configuration. Check the artifacts directory
or stdout to see which connection flagged.
Alternativa:
Verifique se uma conexão está configurada para o bootstrap do switch TOR usando show mac address-table.