Monitoraggio dello stato di integrità

Le istanze Vertex AI Workbench forniscono diversi metodi per monitorare l'integrità dei notebook. Questa pagina descrive come utilizzare ciascun metodo.

Metodi per monitorare lo stato di salute

Puoi monitorare l'integrità delle tue istanze Vertex AI Workbench in diversi modi. Questa pagina descrive come utilizzare i seguenti metodi:

Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Notebooks API.

    Enable the API

  5. Install the Google Cloud CLI.

  6. If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.

  7. To initialize the gcloud CLI, run the following command:

    gcloud init
  8. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  9. Make sure that billing is enabled for your Google Cloud project.

  10. Enable the Notebooks API.

    Enable the API

  11. Install the Google Cloud CLI.

  12. If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.

  13. To initialize the gcloud CLI, run the following command:

    gcloud init
  14. Utilizza gli attributi guest per segnalare l'integrità del sistema

    Puoi utilizzare gli attributi guest per segnalare lo stato di integrità del sistema dei seguenti servizi di base:

    • Servizio Docker
    • Agente reverse proxy Docker
    • Servizio Jupyter
    • API Jupyter

    Gli attributi guest sono un tipo specifico di metadati personalizzati su cui le applicazioni possono scrivere durante l'esecuzione sull'istanza Vertex AI Workbench. Per saperne di più sugli attributi guest, consulta Informazioni sui metadati della VM.

    In che modo le istanze utilizzano gli attributi guest per segnalare l'integrità del sistema

    Il servizio notebooks-collection-agent esegue un processo Python in background che verifica lo stato dei servizi principali dell'istanza Vertex AI Workbench e aggiorna gli attributi guest come 1 se non vengono rilevati problemi o -1 se viene rilevato un errore.

    Per utilizzare il servizio notebooks-collection-agent per generare report sullo stato dell'istanza Vertex AI Workbench, devi abilitare i seguenti attributi guest durante la creazione di un'istanza Vertex AI Workbench:

    • enable-guest-attributes=TRUE: consente gli attributi guest sull'istanza Vertex AI Workbench. Tutte le nuove istanze attivano questo attributo per impostazione predefinita.
    • report-event-health=TRUE: Questo sistema registra i risultaticontrollo di integritàl'integrità negli attributi degli ospiti.

    Il servizio notebooks-collection-agent non richiede autorizzazioni speciali per scrivere negli attributi guest dell'istanza.

    Crea un'istanza di Vertex AI Workbench con gli attributi guest di integrità del sistema abilitati

    Per utilizzare gli attributi guest di integrità del sistema per generare report sull'integrità dell'istanza Vertex AI Workbench, devi selezionare la casella di controllo Attiva report sull'integrità del sistema quando crei un'istanza Vertex AI Workbench.

    Puoi abilitare il report sull'integrità del sistema utilizzando la console Google Cloud .

    1. Nella console Google Cloud , vai alla pagina Istanze.

      Vai a Istanze

    2. Fai clic su  Crea nuova.

    3. Nella finestra di dialogo Nuova istanza, fai clic su Opzioni avanzate.

    4. Nella finestra di dialogo Crea istanza, nella sezione Dettagli, fornisci le seguenti informazioni per la nuova istanza:

      • Nome: fornisci un nome per la nuova istanza.
      • Regione e Zona: seleziona una regione e una zona per la nuova istanza. Per ottenere le migliori prestazioni di rete, seleziona la regione geograficamente più vicina a te.
    5. Nella sezione Integrità del sistema, in Reporting, seleziona Segnala integrità del sistema.

    6. Completa il resto della finestra di dialogo di creazione dell'istanza e poi fai clic su Crea.

    Monitorare lo stato di integrità del sistema tramite gli attributi guest

    Per le istanze di Vertex AI Workbench che hanno gli attributi guest correlati abilitati, puoi recuperare i valori degli attributi guest di integrità del sistema utilizzando la console Google Cloud , Google Cloud CLI con i comandi Compute Engine o Google Cloud CLI con i comandi Vertex AI Workbench.

    Console

    1. Nella console Google Cloud , vai alla pagina Istanze.

      Vai a Istanze

    2. Fai clic sul nome dell'istanza di cui vuoi visualizzare lo stato di integrità del sistema.

    3. Nella pagina Dettagli istanza, fai clic sulla scheda Stato. Controlla lo stato della tua istanza e dei relativi servizi principali.

    gcloud con Compute Engine

    gcloud compute instances get-guest-attributes INSTANCE_NAME \
        --zone ZONE
    

    Sostituisci quanto segue:

    • INSTANCE_NAME: il nome dell'istanza
    • ZONE: la zona in cui si trova l'istanza

    Se i servizi di base sono integri, i risultati sono simili a quelli riportati di seguito. Un valore pari a 1 indica che non è stato rilevato alcun errore.

     NAMESPACE   KEY                         VALUE
     notebooks   docker_proxy_agent_status   1
     notebooks   docker_status               1
     notebooks   jupyterlab_api_status       1
     notebooks   jupyterlab_status           1
     notebooks   system-health               1
     notebooks   updated                     2023-06-20 17:00:00.12345
    

    Se uno dei quattro servizi principali non funziona, system-health segnala un valore -1 per indicare l'errore del sistema. Nella maggior parte dei casi, un errore di sistema significa che JupyterLab non è accessibile.

    Un esempio di risultato di errore potrebbe avere il seguente aspetto.

     NAMESPACE   KEY                         VALUE
     notebooks   docker_proxy_agent_status   -1
     notebooks   docker_status               -1
     notebooks   jupyterlab_api_status       1
     notebooks   jupyterlab_status           1
     notebooks   system-health               -1
     notebooks   updated                     2023-06-20 17:00:00.12345
    

    Segnala metriche personalizzate a Monitoring

    Le istanze Vertex AI Workbench consentono di raccogliere le metriche JupyterLab e quelle relative allo stato del sistema e di inviarle a Cloud Monitoring. Queste metriche personalizzate sono diverse dalle metriche standard segnalate quando installi il monitoraggio sull'istanza Vertex AI Workbench.

    Le metriche personalizzate segnalate a Monitoring includono:

    • L'integrità del sistema dei seguenti servizi principali di Vertex AI Workbench:

      • Servizio Docker
      • Agente reverse proxy Docker
      • Servizio Jupyter
      • API Jupyter
    • Le seguenti metriche JupyterLab:

      • Numero di kernel
      • Numero di terminali
      • Numero di connessioni
      • Numero di sessioni
      • Memoria massima
      • Con memoria elevata
      • Memoria attuale

    In che modo le istanze segnalano le metriche personalizzate a Monitoring

    Per segnalare metriche personalizzate a Monitoring, devi attivare l'impostazione dei metadati report-notebook-metrics durante la creazione di un'istanza di Vertex AI Workbench.

    Devi anche assicurarti che il service account dell'istanza Vertex AI Workbench disponga delle autorizzazioni di scrittura delle metriche di monitoraggio (roles/monitoring.metricWriter). Per saperne di più, consulta la pagina Gestire l'accesso a progetti, cartelle e organizzazioni.

    Crea un'istanza di Vertex AI Workbench che invia metriche personalizzate a Monitoring

    Per segnalare metriche personalizzate a Monitoring, devi selezionare la casella di controllo Segnala metriche personalizzate a Cloud Monitoring quando crei un'istanza Vertex AI Workbench.

    Puoi attivare la segnalazione di metriche personalizzate a Cloud Monitoring utilizzando la console Google Cloud .

    1. Nella console Google Cloud , vai alla pagina Istanze.

      Vai a Istanze

    2. Fai clic su  Crea nuova.

    3. Nella finestra di dialogo Nuova istanza, fai clic su Opzioni avanzate.

    4. Nella finestra di dialogo Crea istanza, nella sezione Dettagli, fornisci le seguenti informazioni per la nuova istanza:

      • Nome: fornisci un nome per la nuova istanza.
      • Regione e Zona: seleziona una regione e una zona per la nuova istanza. Per ottenere le migliori prestazioni di rete, seleziona la regione geograficamente più vicina a te.
    5. Nella sezione Stato del sistema, in Report, seleziona Segnala metriche personalizzate a Cloud Monitoring.

    6. Completa il resto della finestra di dialogo di creazione dell'istanza e poi fai clic su Crea.

    Concedi le autorizzazioni di scrittura delle metriche di Monitoring al account di servizio

    Dopo aver creato la nuova istanza di Vertex AI Workbench, concedi le autorizzazioni di scrittura delle metriche di monitoraggio (roles/monitoring.metricWriter) all'account di servizio per l'istanza di Vertex AI Workbench. Per saperne di più, consulta la pagina Gestire l'accesso a progetti, cartelle e organizzazioni.

    Monitorare le metriche personalizzate tramite Monitoring

    Per le istanze di Vertex AI Workbench che hanno l'opzione di report delle metriche personalizzate abilitata, puoi monitorare le metriche personalizzate utilizzando la console Google Cloud .

    1. Nella console Google Cloud , vai alla pagina Istanze.

      Vai a Istanze

    2. Fai clic sul nome dell'istanza di cui vuoi visualizzare le metriche personalizzate.

    3. Nella pagina Dettagli istanza, fai clic sulla scheda Monitoraggio. Esamina le metriche personalizzate per la tua istanza.

    Installa Monitoring su un'istanza

    Questa opzione installa automaticamente Monitoring. L'installazione richiede 256 MB di spazio su disco. Perché le metriche vengano inviate a Monitoring è necessaria una connessione a internet.

    Come le istanze segnalano le metriche di sistema e dell'applicazione

    Per generare report sulle metriche di sistema e delle applicazioni installando Cloud Monitoring sull'istanza di Vertex AI Workbench, devi selezionare la casella di controllo Installa agente Cloud Monitoring quando crei un'istanza di Vertex AI Workbench. Queste metriche sono diverse da quelle personalizzate riportate quando attivi l'impostazione dei metadati report-notebook-metrics.

    Crea un'istanza di Vertex AI Workbench che invia metriche di sistema e applicazioni a Monitoring

    Per installare il monitoraggio sull'istanza Vertex AI Workbench, puoi utilizzare la console Google Cloud .

    1. Nella console Google Cloud , vai alla pagina Istanze.

      Vai a Istanze

    2. Fai clic su  Crea nuova.

    3. Nella finestra di dialogo Nuova istanza, fai clic su Opzioni avanzate.

    4. Nella finestra di dialogo Crea istanza, nella sezione Dettagli, fornisci le seguenti informazioni per la nuova istanza:

      • Nome: fornisci un nome per la nuova istanza.
      • Regione e Zona: seleziona una regione e una zona per la nuova istanza. Per ottenere le migliori prestazioni di rete, seleziona la regione geograficamente più vicina a te.
    5. Nella sezione Stato del sistema, in Report, seleziona Installa Cloud Monitoring.

    6. Completa il resto della finestra di dialogo di creazione dell'istanza e poi fai clic su Crea.

    Monitora le metriche di sistema e delle applicazioni tramite Monitoring

    Per le istanze Vertex AI Workbench in cui è installato Monitoring, puoi monitorare le metriche di sistema e delle applicazioni utilizzando la console Google Cloud :

    1. Nella console Google Cloud , vai alla pagina Istanze.

      Vai a Istanze

    2. Fai clic sul nome dell'istanza di cui vuoi visualizzare le metriche di sistema e delle applicazioni.

    3. Nella pagina Dettagli istanza, fai clic sulla scheda Monitoraggio. Esamina le metriche di sistema e delle applicazioni per la tua istanza. Per scoprire come interpretare queste metriche, consulta Esaminare le metriche delle risorse.

    Utilizzare lo strumento di diagnostica per monitorare l'integrità del sistema

    Le istanze di Vertex AI Workbench includono uno strumento di diagnostica integrato che può aiutarti a monitorare lo stato del sistema delle tue istanze.

    Attività eseguite dallo strumento di diagnostica

    Lo strumento di diagnostica esegue le seguenti attività:

    • Verifica lo stato dei seguenti servizi principali di Vertex AI Workbench:

      • Servizio Docker
      • Agente reverse proxy Docker
      • Servizio Jupyter
      • API Jupyter
    • Controlla se lo spazio su disco per i dischi di avvio e dati è utilizzato oltre una soglia dell'85%.

    • Installa lsof (è necessaria una connessione a internet).

    • Raccoglie i seguenti log dell'istanza:

      • Informazioni sull'emittente (ifconfig, netstat)
      • Log nella cartella /var/log/
      • Informazioni sullo stato di Docker
      • Dati lsof (apri file)
      • Stato del servizio Docker
      • Stato dell'agente proxy inverso
      • Stato del servizio Jupyter
      • Stato dell'API Jupyter
      • File di configurazione dell'agente proxy
      • Processi Python
    • Esegue i seguenti comandi e raccoglie i risultati:

      • pip freeze
      • conda list
      • gcloud compute instances describe INSTANCE_NAME
      • gcloud config list

    Esegui lo strumento di diagnostica

    Se la tua istanza utilizza un container personalizzato, consulta Esegui lo strumento di diagnostica nella documentazione del container personalizzato di Vertex AI Workbench.

    Per eseguire lo strumento di diagnostica in un'istanza che non utilizza un container personalizzato, completa i seguenti passaggi:

    1. Utilizza SSH per connetterti all'istanza di Vertex AI Workbench.

    2. Nel terminale SSH, esegui i seguenti comandi:

      sudo -i
      cd /opt/deeplearning/bin/
      ./diagnostic_tool.sh

      Lo strumento di diagnostica raccoglie i log, li comprime in un file .tar.gz e li inserisce nella cartella /tmp/.

    3. Estrai il file e valuta i contenuti. I contenuti includono:

      • Cartella log: log della cartella var/log/
      • report.log: Output per tutti i comandi raccolti
      • proxy-agent-config.json: Informazioni sulla configurazione del proxy
      • Log Docker: un file -json.log che include i log dei container Docker

    Puoi utilizzare le seguenti opzioni con lo strumento di diagnostica.

    Opzione Descrizione
    -r Un'opzione di riparazione che tenta di ripristinare lo stato dei servizi principali non riusciti di Vertex AI Workbench
    -s Esegue senza una conferma
    -b Carica il file .tar.gz in un bucket Cloud Storage.
    -v Un'opzione di debug per la risoluzione dei problemi dello strumento in caso di errori
    -c Acquisisce 30 secondi di traffico dei pacchetti nella tua istanza di Vertex AI Workbench, filtrando l'SSH
    -d Una cartella di destinazione in cui salvare i log
    -h Guida

    Passaggi successivi