Risoluzione dei problemi di Vertex AI

Questa pagina descrive i passaggi per la risoluzione dei problemi, utili in caso di problemi nell'utilizzo di Vertex AI.

I passaggi per la risoluzione dei problemi per alcuni componenti di Vertex AI sono elencati separatamente. Vedi quanto segue:

Per filtrare i contenuti di questa pagina, fai clic su un argomento:

Modelli AutoML

Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili in caso di problemi con AutoML.

Etichette mancanti nel set di test, convalida o addestramento

Problema

Quando utilizzi la suddivisione predefinita dei dati durante l'addestramento di un modello di classificazione AutoML, Vertex AI potrebbe assegnare un numero troppo basso di istanze di una classe a un determinato set (test, convalida o addestramento), il che causa un errore durante l'addestramento. Questo problema si verifica più frequentemente quando le classi non sono bilanciate o quando la quantità di dati di addestramento è ridotta.

Soluzione:

Per risolvere il problema, aggiungi altri dati di addestramento, dividi manualmente i dati per assegnare un numero sufficiente di classi a ogni set o rimuovi le etichette meno frequenti dal set di dati. Per saperne di più, consulta l'articolo Informazioni sulle suddivisioni di dati per i modelli AutoML.

Vertex AI Studio

Quando lavori con Vertex AI Studio, potresti ricevere i seguenti errori:

Il tentativo di ottimizzare un modello restituisce Internal error encountered

Problema

Si verifica un errore Internal error encountered quando provi a ottimizzare un modello.

Soluzione:

Esegui il seguente comando curl per creare un set di dati Vertex AI vuoto. Assicurati di configurare l'ID progetto nel comando.

PROJECT_ID=PROJECT_ID

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://europe-west4-aiplatform.googleapis.com/ui/projects/$PROJECT_ID/locations/europe-west4/datasets \
-d '{
    "display_name": "test-name1",
    "metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/image_1.0.0.yaml",
    "saved_queries": [{"display_name": "saved_query_name", "problem_type": "IMAGE_CLASSIFICATION_MULTI_LABEL"}]
}'

Una volta completato il comando, attendi cinque minuti e riprova a eseguire l'ottimizzazione del modello.

Codice di errore: 429

Problema

Si verifica il seguente errore:

429: The online prediction request quota is exceeded for
PUBLIC_BASE_MODEL_NAME.

Soluzione:

Riprova più tardi con backoff. Se continui a riscontrare errori, contatta l'assistenza Vertex AI.

Codice di errore: 410

Problema

Si verifica il seguente errore:

410: The request is missing the required authentication credential. Expected
OAuth 2.0 access token, login cookie, or other valid authentication credential.

Soluzione:

Per saperne di più, consulta la panoramica sull'autenticazione.

Codice di errore: 403

Problema

Si verifica il seguente errore:

403: Permission denied.

Soluzione:

Assicurati che l'account che accede all'API disponga delle autorizzazioni corrette.

Vertex AI Pipelines

Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili in caso di problemi con Vertex AI Pipelines.

Non hai l'autorizzazione per agire come account di servizio

Problema

Quando esegui il flusso di lavoro Vertex AI Pipelines, potresti visualizzare il seguente messaggio di errore:

You do not have permission to act as service account: SERVICE_ACCOUNT. (or it may not exist).

Soluzione:

Questo errore significa che l'account di servizio che esegue il flusso di lavoro non ha accesso alle risorse che deve utilizzare.

Per risolvere il problema, prova una delle seguenti soluzioni:

  • Aggiungi il ruolo Vertex AI Service Agent all'account di servizio.
  • Concedi all'utente l'autorizzazione iam.serviceAccounts.actAs per l'account di servizio.

Errore Internal error happened

Problema

Se la pipeline non va a buon fine e viene visualizzato un messaggio Internal error happened, controlla Esplora log e cerca il nome della pipeline. Potresti visualizzare un errore simile al seguente:

java.lang.IllegalStateException: Failed to validate vpc
network projects/PROJECT_ID/global/networks/VPC_NETWORK.

APPLICATION_ERROR;google.cloud.servicenetworking.v1/ServicePeeringManagerV1.GetConsumerConfig;Reserved
range: 'RANGE_NAME' not found for consumer project:
'PROJECT_ID' network: 'VPC_NETWORK'.
com.google.api.tenant.error.TenantManagerException: Reserved range:
'RANGE_NAME' not found for consumer project

Ciò significa che il peering VPC per Vertex AI include un intervallo IP che è stato eliminato.

Soluzione:

Per risolvere il problema, aggiorna il peering VPC utilizzando il comando update e includi intervalli IP validi.

Ambito OAuth o pubblico del token ID fornito non valido

Problema

Quando esegui il flusso di lavoro di Vertex AI Pipelines, viene visualizzato il seguente messaggio di errore:

google.auth.exceptions.RefreshError: ('invalid_scope: Invalid OAuth scope
or ID token audience provided.', {'error': 'invalid_scope',
'error_description': 'Invalid OAuth scope or ID token audience provided.'})

Soluzione:

Ciò significa che non hai fornito le credenziali in uno dei componenti della pipeline o non hai utilizzato ai_platform.init() per impostarle.

Per risolvere il problema, imposta le credenziali per il componente della pipeline pertinente o imposta le credenziali dell'ambiente e utilizza ai_platform.init() all'inizio del codice.

os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = PATH_TO_JSON_KEY

I componenti di Vertex AI Pipelines richiedono più spazio su disco di 100 GB

Problema

Lo spazio su disco predefinito allocato ai componenti di Vertex AI Pipelines è di 100 GB e l'aumento dello spazio su disco non è supportato. Consulta il monitoraggio problemi pubblico per questo problema.

Soluzione:

Affinché un componente utilizzi più di 100 GB di spazio su disco, convertilo in un job personalizzato utilizzando il metodo components. Con questo operatore, puoi assegnare il tipo di macchina e la dimensione del disco utilizzati dal componente.

Per un esempio di come utilizzare questo operatore, consulta Vertex AI Pipelines: addestramento personalizzato con componenti pipeline Google Cloud predefiniti nella sezione Convertire il componente in un job personalizzato Vertex AI.

Problemi di networking di Vertex AI

Questa sezione descrive i passaggi per la risoluzione dei problemi, utili in caso di problemi di networking per Vertex AI.

gcloud services vpc-peerings get-vpc-service-controls \
  --network YOUR_NETWORK

I carichi di lavoro non possono accedere agli endpoint nella tua rete VPC quando utilizzi intervalli IP pubblici utilizzati privatamente per Vertex AI

Problema

Gli intervalli IP pubblici utilizzati privatamente non vengono importati per impostazione predefinita.

Soluzione:

Per utilizzare intervalli IP pubblici utilizzati privatamente, devi abilitare l'importazione di intervalli IP pubblici utilizzati privatamente.

com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project

Problema

Quando esegui i workload o esegui il deployment degli endpoint, ricevi errori del modulo com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project.

Ciò si verifica quando modifichi le prenotazioni dell'accesso privato ai servizi per i tuoi carichi di lavoro. Gli intervalli eliminati potrebbero non essere stati registrati con l'API Vertex AI.

Soluzione:

Esegui gcloud services vpc-peerings update per servicenetworking dopo aver aggiornato le allocazioni di accesso privato ai servizi.

La pipeline o il job non può accedere agli endpoint all'interno della rete VPC in peering

Problema

La pipeline Vertex AI va in timeout quando tenta di connettersi alle risorse nella tua rete VPC.

Soluzione:

Prova a risolvere il problema procedendo nel seguente modo:

  • Assicurati di aver completato tutti i passaggi descritti in Configurare il peering di rete VPC.
  • Rivedi la configurazione della rete VPC con peering. Assicurati che la tua rete importi le route dall'intervallo di service networking corretto durante l'esecuzione del job.

    Vai a Peering di rete VPC

  • Assicurati di avere una regola firewall che consenta le connessioni da questo intervallo alla destinazione nella tua rete.

  • Se la connessione di peering non importa route durante l'esecuzione del job, significa che la configurazione del service networking non viene utilizzata. Ciò è probabilmente dovuto al fatto che hai completato la configurazione del peering con una rete diversa da quella predefinita. In questo caso, assicurati di specificare la tua rete quando avvii un job. Utilizza il nome di rete completo nel seguente formato: projects/$PROJECT_ID/global/networks/$NETWORK_NAME.

    Per ulteriori informazioni, consulta la panoramica delle route.

La pipeline o il job non possono accedere agli endpoint in altre reti oltre alla tua

Problema

La pipeline o il job non è in grado di accedere agli endpoint in reti diverse dalla tua.

Soluzione:

Per impostazione predefinita, la configurazione del peering esporta solo le route nelle subnet locali del VPC.

Inoltre, il peering transitivo non è supportato e solo le reti in peering diretto possono comunicare.

  • Per consentire a Vertex AI di connettersi tramite la tua rete e raggiungere gli endpoint in altre reti, devi esportare le route di rete nella connessione in peering. Modifica la configurazione della tua rete VPC con peering e abilita Export custom routes.

Vai a Peering di rete VPC

Poiché il peering transitivo non è supportato, Vertex AI non apprende le route verso altri servizi e reti in peering, anche con Export Custom Routes abilitato. Per informazioni sulle soluzioni alternative, consulta Estensione della raggiungibilità di rete di Vertex AI Pipelines.

No route to host senza conflitti di percorso evidenti nella console Google Cloud

Problema

Le uniche route che puoi visualizzare nella console Google Cloud sono quelle note al tuo VPC, nonché gli intervalli riservati quando completi la configurazione del peering di rete VPC.

In rari casi, un job Vertex AI potrebbe generare un errore no route to host quando tenta di raggiungere un indirizzo IP che il VPC sta esportando nella rete Vertex AI.

Ciò potrebbe essere dovuto al fatto che i job Vertex AI vengono eseguiti all'interno di uno spazio dei nomi di rete in un cluster GKE gestito il cui intervallo IP è in conflitto con l'IP di destinazione. Per ulteriori informazioni, consulta Nozioni di base sul networking GKE.

In queste condizioni, il carico di lavoro tenta di connettersi all'IP all'interno del proprio spazio dei nomi di rete e genera l'errore se non riesce a raggiungerlo.

Soluzione:

Crea il workload in modo che restituisca gli indirizzi IP dello spazio dei nomi locale e verifica che non entri in conflitto con le route che esporti tramite la connessione di peering. In caso di conflitto, trasmetti un elenco di reservedIpRanges[] nei parametri del job che non si sovrappongono ad alcun intervallo nella tua rete VPC. Il job utilizza questi intervalli per gli indirizzi IP interni del workload.

RANGES_EXHAUSTED, RANGES_NOT_RESERVED

Problema

Gli errori del modulo RANGES_EXHAUSTED e RANGES_NOT_RESERVED e RANGES_DELETED_LATER indicano un problema con la configurazione del peering di rete VPC sottostante. Si tratta di errori di rete e non di errori del servizio Vertex AI stesso.

Soluzione:

In caso di errore RANGES_EXHAUSTED, devi prima valutare se il reclamo è valido.

  • Visita Network Analyzer nella console Cloud e cerca gli approfondimenti del modulo "Riepilogo dell'allocazione degli indirizzi IP" nella rete VPC. Se questi indicano che l'allocazione è pari o prossima al 100%, puoi aggiungere un nuovo intervallo alla prenotazione.
  • Considera anche il numero massimo di job paralleli che possono essere eseguiti con una prenotazione di una determinata dimensione.

Per saperne di più, vedi Errori di convalida dell'infrastruttura di servizio.

Se l'errore persiste, contatta l'assistenza.

Router status is temporarily unavailable

Problema

Quando avvii Vertex AI Pipelines, ricevi un messaggio di errore simile al seguente:

Router status is temporarily unavailable. Please try again later

Soluzione:

Il messaggio di errore indica che si tratta di una condizione temporanea. Prova ad avviare di nuovo Vertex AI Pipelines.

Se l'errore persiste, contatta l'assistenza.

I carichi di lavoro non sono in grado di risolvere i nomi host per i domini DNS nel tuo VPC

Problema

I workload Vertex AI non riescono a connettersi ai nomi host configurati nel tuo VPC. Hai già confermato che questi nomi host sono accessibili dai client all'interno del tuo VPC.

Questo perché i carichi di lavoro vengono eseguiti in un progetto gestito da Google. Il VPC in questo ambiente gestito deve essere sottoposto a peering con il tuo per poter utilizzare le tue risorse di rete. Inoltre, tutte le zone DNS a cui questi carichi di lavoro devono accedere devono essere condivise in modo specifico con il VPC gestito da Google.

Soluzione:

  • Assicurati di aver configurato il peering di rete VPC per Vertex AI nella tua rete VPC.
  • Completa i passaggi per condividere le tue zone DNS private con la rete del producer Vertex AI.
  • Assicurati che i tuoi carichi di lavoro Vertex AI vengano avviati con il flag --network che specifica la tua rete VPC. In questo modo possono essere eseguiti nella rete gestita da Google e accedere alle zone DNS che hai condiviso.

Problemi di connettività causati da comportamenti lato client

Se riscontri problemi di connettività quando tenti di utilizzare le API Google Cloud, la causa principale potrebbe essere lato client. Questa sezione suggerisce soluzioni lato client che potrebbero migliorare la tua esperienza.

Reimpostazioni della connessione e pacchetti eliminati

Problema

Quando tenti di utilizzare le Google Cloud API, si verificano reimpostazioni della connessione e pacchetti ignorati.

Soluzione:

Per risolvere il problema, considera quanto segue:

  • Per il traffico di transazioni ad alto volume che hanno requisiti di bassa latenza, valuta se eventuali problemi noti con le line card dei client on-premise potrebbero causare la reimpostazione delle connessioni TCP o l'eliminazione dei pacchetti.
  • Valuta se i servizi lato client nel percorso della richiesta utilizzano iptables. Questi possono includere cluster Kubernetes o alcuni firewall stateful e dispositivi NAT. Per impostazione predefinita, il sottosistema di monitoraggio delle connessioni (conntrack) di Linux seguirà rigorosamente le specifiche del protocollo TCP e, ad esempio, eliminerà i pacchetti TCP non in sequenza. Per disattivare questo comportamento, attiva il parametro del kernel Linux net.netfilter.nf_conntrack_tcp_be_liberal o il suo equivalente.

Connessioni incomplete

Problema

Quando tenti di utilizzare le API Google Cloud , riscontri connessioni incomplete.

Soluzione:

Per risolvere il problema, considera quanto segue:

  • Quando il percorso di inoltro ha più route di ritorno al client, assicurati di comprendere il concetto di Reverse Path Forwarding. Disattiva questo comportamento se sospetti che stia bloccando le connessioni.
  • Per le connessioni con bilanciamento del carico, valuta se le regole firewall in entrata consentono i pacchetti di risposta a entrambi i bilanciatori del carico.

Altri problemi di connessione non API

Per risolvere i problemi di connessione non API, considera quanto segue:

Vertex AI Prediction

Questa sezione descrive i passaggi per la risoluzione dei problemi, utili in caso di problemi con la previsione di Vertex AI.

Errore relativo al superamento dei tentativi

Problema

Quando esegui job di previsione in batch, viene visualizzato un errore come il seguente, che indica che la macchina che esegue il modello personalizzato potrebbe non essere in grado di completare le previsioni entro il limite di tempo.

('Post request fails. Cannot get predictions. Error: Exceeded retries: Non-OK
result 504 (upstream request timeout) from server, retry=3, elapsed=600.04s.', 16)

Ciò può verificarsi quando il servizio di previsione Vertex AI si registra con il servizio Google Front End, che funge da proxy per le connessioni dal client all'API Vertex AI Prediction.

Il servizio Google Front End interrompe la connessione e restituisce un codice di risposta HTTP 500 al client se non riceve una risposta dall'API entro 10 minuti.

Soluzione:

Per risolvere il problema, prova una delle seguenti soluzioni:

  • Aumenta i nodi di calcolo o modifica il tipo di macchina.
  • Crea il container di previsione in modo che invii codici di risposta HTTP 102 periodici. In questo modo viene reimpostato il timer di 10 minuti sul servizio Google Front End (GFE).

Il progetto è già collegato al VPC

Problema

Quando esegui il deployment di un endpoint, potresti visualizzare un messaggio di errore come il seguente, che indica che gli endpoint Vertex AI hanno precedentemente utilizzato una rete Virtual Private Cloud e le risorse non sono state pulite in modo appropriato.

Currently only one VPC network per user project is supported. Your project is
already linked to "projects/YOUR_SHARED_VPC_HOST_PROJECT/global/networks/YOUR_SHARED_VPC_NETWORK".
To change the VPC network, please undeploy all Vertex AI deployment resources,
delete all endpoint resources, and then retry creating resources in 30 mins.

Soluzione:

Per risolvere il problema, prova a eseguire questo comando in Cloud Shell.

gcloud services vpc-peerings delete \
    --service=servicenetworking.googleapis.com \
    --network=YOUR_SHARED_VPC_NETWORK \
    --project=YOUR_SHARED_VPC_HOST_PROJECT

In questo modo, la vecchia rete VPC viene disconnessa manualmente dal VPC Service Networking.

Errore di deployment imprevisto o eliminazione dell'endpoint

Problema

Il deployment di un modello non riesce in modo imprevisto, un endpoint viene eliminato o il deployment di un modello precedente è stato annullato.

Il tuo account di fatturazione potrebbe non essere valido. Se rimane non valido per un lungo periodo di tempo, alcune risorse potrebbero essere rimosse dai progetti associati al tuo account. Ad esempio, i tuoi endpoint e modelli potrebbero essere eliminati. Le risorse rimosse non sono recuperabili.

Soluzione:

Per risolvere il problema, puoi provare a:

Per ulteriori informazioni, vedi Domande sulla fatturazione.

Problemi relativi all'account di servizio personalizzato Vertex AI

Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili in caso di problemi con gli account di servizio.

Il deployment del modello non riesce a causa dell'errore del account di servizio serviceAccountAdmin

Problema

Il deployment del modello non va a buon fine e viene visualizzato un errore simile al seguente:

Failed to deploy model MODEL_NAME to endpoint ENDPOINT_NAME due to the error: Failed to add IAM policy binding. Please grant SERVICE_ACC_NAME@gcp-sa-aiplatform.iam.gserviceaccount.com the iam.serviceAccountAdmin role on service account vertex-prediction-role@PROJECT_INFO.iam.gserviceaccount.com

Soluzione:

Questo errore indica che il account di servizio personalizzato potrebbe non essere stato configurato correttamente. Per creare un account di servizio personalizzato con le autorizzazioni IAM corrette, consulta Utilizzo di un service account personalizzato.

Impossibile recuperare il token ID quando si utilizza un account di servizio personalizzato

Problema

Quando utilizzi un account di servizio personalizzato, i job di addestramento eseguiti su una singola replica non sono in grado di raggiungere il servizio di metadati di Compute Engine necessario per recuperare un token.

Visualizzerai un errore simile a questo:

Failed to refresh jwt, retry number 0: ("Failed to retrieve http://metadata.google.internal/computeMetadata/v1/instance/service-accounts/default/identity?audience=...&format=full
from the Google Compute Engine Metadata service. Status: 404 Response:
\nb'Not Found\n'", <google.auth.transport.requests._Response object at
0x7fb19f058c50>)

Soluzione:

Per recuperare il token di identità con un account di servizio personalizzato, devi utilizzare iamcredentials.googleapis.com.

Modelli con addestramento personalizzato

Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili in caso di problemi con i modelli addestrati personalizzati.

Problemi relativi all'addestramento personalizzato

Durante l'addestramento personalizzato possono verificarsi i seguenti problemi. I problemi si applicano alle risorse CustomJob e HyperparameterTuningJob, incluse quelle create dalle risorse TrainingPipeline.

Codice di errore: 400

Problema

Si verifica il seguente errore:

400 Machine type MACHINE_TYPE is not supported.

Potresti visualizzare questo messaggio di errore se il tipo di macchina selezionato non è supportato per l'addestramento di Vertex AI o se una risorsa specifica non è disponibile nella regione selezionata.

Soluzione:

Utilizza solo i tipi di macchine disponibili nelle regioni appropriate.

La replica è uscita con un codice di stato diverso da zero

Problema

Durante l'addestramento distribuito, un errore di qualsiasi worker causa l'interruzione dell'addestramento.

Soluzione:

Per controllare lo analisi dello stack del worker, visualizza i log di addestramento personalizzati nella Google Cloud console.

Consulta gli altri argomenti per la risoluzione dei problemi per correggere gli errori comuni, quindi crea una nuova risorsa CustomJob, HyperparameterTuningJob o TrainingPipeline. In molti casi, i codici di errore sono causati da problemi nel codice di addestramento, non dal servizio Vertex AI. Per determinare se questo è il caso, puoi eseguire il codice di addestramento sulla macchina locale o su Compute Engine.

La replica ha esaurito la memoria

Problema

Può verificarsi un errore se un'istanza di macchina virtuale (VM) di addestramento esaurisce la memoria durante l'addestramento.

Soluzione:

Puoi visualizzare l'utilizzo della memoria delle VM di addestramento nella console Google Cloud .

Anche quando ricevi questo errore, potresti non visualizzare un utilizzo della memoria del 100% sulla VM, perché anche i servizi diversi dall'applicazione di addestramento in esecuzione sulla VM consumano risorse. Per i tipi di macchina con meno memoria, altri servizi potrebbero consumare una percentuale relativamente elevata di memoria. Ad esempio, su una VM n1-standard-4, i servizi possono consumare fino al 40% della memoria.

Puoi ottimizzare il consumo di memoria della tua applicazione di addestramento oppure puoi scegliere un tipo di macchina più grande con più memoria.

Risorse insufficienti in una regione

Problema

Si verifica un problema di esaurimento scorte in una regione.

Soluzione:

Vertex AI addestra i tuoi modelli utilizzando le risorse Compute Engine. Vertex AI non può pianificare il carico di lavoro se Compute Engine ha raggiunto la capacità per una determinata CPU o GPU in una regione. Questo problema non è correlato alla quota di progetti.

Quando raggiunge la capacità di Compute Engine, Vertex AI ritenta automaticamente l'esecuzione di CustomJob o HyperparameterTuningJob fino a tre volte. Il job non riesce se tutti i tentativi non vanno a buon fine.

Di solito, l'esaurimento delle scorte si verifica quando utilizzi le GPU. Se si verifica questo errore quando utilizzi le GPU, prova a passare a un tipo di GPU diverso. Se puoi utilizzare un'altra regione, prova a eseguire l'addestramento in una regione diversa.

Errore di autorizzazione durante l'accesso a un altro servizio Google Cloud

Se riscontri un errore di autorizzazione quando accedi a un altro servizio Google Cloud dal codice di addestramento (ad esempio: google.api_core.exceptions.PermissionDenied: 403), potresti riscontrare uno dei seguenti problemi:

Problemi di prestazioni durante l'utilizzo di Cloud Storage FUSE

Problema

I job Cloud Storage FUSE vengono eseguiti lentamente.

Soluzione:

Consulta "Linee guida per l'ottimizzazione del rendimento" in Utilizzare Cloud Storage come file system montato.

pip install non riesce quando utilizzi KFP con Controlli di servizio VPC

Problema

Viene visualizzato il seguente errore:

ModuleNotFoundError: No module named MODULE_NAME. WARNING: Retrying (Retry(total=0, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ConnectTimeoutError(&lt;pip._vendor.urllib3.connection.HTTPSConnection object at 0x7f70250bac10&gt;, 'Connection to pypi.org timed out. (connect timeout=15)')': /simple/nltk/

Soluzione:

Il perimetro di servizio di Controlli di servizio VPC blocca l'accesso da Vertex AI ad API e servizi di terze parti su internet. Per installare i pacchetti, utilizza packageUris per installare le dipendenze dai bucket Cloud Storage. Per una discussione generale sull'utilizzo di questa tecnica, consulta la sezione "Utilizzare container personalizzati" in Controlli di servizio VPC con Vertex AI.

Errore interno

Problema

L'addestramento non è riuscito a causa di un errore di sistema.

Soluzione:

Il problema potrebbe essere temporaneo. Prova a inviare di nuovo CustomJob, HyperparameterTuningJob o TrainingPipeline. Se l'errore persiste, contatta l'assistenza.

Codice di errore 500 quando si utilizza un'immagine container personalizzata

Problema

Nei log viene visualizzato un errore 500.

Soluzione:

Questo tipo di errore è probabilmente un problema con l'immagine container personalizzata e non un errore di Vertex AI.

Il service account non può accedere al bucket Cloud Storage durante il deployment a un endpoint

Problema

Quando provi a eseguire il deployment di un modello in un endpoint e il tuo account di servizio non dispone dell'accesso storage.objects.list al bucket Cloud Storage correlato, potresti visualizzare il seguente errore:

custom-online-prediction@TENANT_PROJECT_ID.iam.gserviceaccount.com
does not have storage.objects.list access to the Cloud Storage bucket.

Per impostazione predefinita, il container personalizzato che esegue il deployment del modello utilizza un account di servizio che non ha accesso al tuo bucket Cloud Storage.

Soluzione:

Per risolvere il problema, prova una delle seguenti soluzioni:

  • Copia il file a cui stai tentando di accedere dal contenitore in artefatti del modello durante il caricamento del modello. Vertex AI lo copierà in una posizione a cui ha accesso l'account di servizio predefinito, in modo simile a tutti gli altri artefatti del modello.

  • Copia il file nel container nell'ambito del processo di compilazione del container.

  • Specifica un service account personalizzato.

Ricerca di architetture neurali

Problemi noti

  • Dopo l'annullamento del job NAS, il job principale (il job padre) si arresta, ma alcuni dei tentativi secondari continuano a mostrare lo stato In esecuzione. Ignora lo stato della prova secondaria che in questo caso mostra In esecuzione. Le prove sono state interrotte, ma l'interfaccia utente continua a mostrare lo stato In esecuzione. Se il job principale è stato interrotto, non ti verranno addebitati costi aggiuntivi.
  • Dopo aver segnalato le ricompense nell'addestratore, attendi 10 minuti prima che i job di prova vengano chiusi.
  • Quando utilizzi Cloud Shell per eseguire TensorBoard, il link di output generato potrebbe non funzionare. In questo caso, annota il numero di porta, utilizza lo strumento Anteprima web e seleziona il numero di porta corretto per visualizzare i grafici.

    Accedere allo strumento Web Preview:

    Un grafico dell&#39;attribuzione delle funzionalità per una durata prevista della corsa in bicicletta.

  • Se nei log dell'addestratore vengono visualizzati messaggi di errore come i seguenti:

    gcsfuse errors: fuse: writeMessage: no such file or directory [16 0 0 0 218 255 255 255 242 25 111 1 0 0 0 0]
    

    utilizza una macchina con più RAM, perché questo errore è causato da una condizione di esaurimento della memoria.

  • Se il tuo trainer personalizzato non riesce a trovare la directory dei lavori job-dir FLAG, importa job_dir con un trattino basso anziché un trattino. Questo aspetto è spiegato in una nota del tutorial 1.

  • Errore NaN durante l'addestramento Potrebbero verificarsi errori NaN nel job di addestramento, ad esempio NaN : Tensor had NaN values. Il tasso di apprendimento potrebbe essere troppo elevato per l'architettura suggerita. Per ulteriori informazioni, vedi Errori relativi a esaurimento della memoria (OOM) e learning rate.

  • Errore OOM durante l'addestramento Potrebbero verificarsi errori OOM (out-of-memory) nel job di addestramento. La dimensione del batch potrebbe essere troppo grande per la memoria dell'acceleratore. Per ulteriori informazioni, vedi Errori relativi a esaurimento della memoria (OOM) e learning rate.

  • Il job del controller di selezione del modello proxy-task non funziona Nel raro caso in cui il job del controller di selezione del modello proxy-task non funzioni, puoi riprenderlo seguendo questi passaggi.

  • Il job del controller di ricerca proxy-task termina Nel raro caso in cui il job del controller di ricerca proxy-task termini, puoi riprenderlo seguendo questi passaggi.

  • Il service account non dispone dell'autorizzazione per accedere ad Artifact Registry o al bucket. Se ricevi un errore come Vertex AI Service Agent service-123456789@gcp-sa-aiplatform-cc.iam.gserviceaccount.com does not have permission to access Artifact Registry repository projects/my-project/locations/my-region/repositories/nas o un errore simile per l'accesso al bucket, assegna a questo account di servizio un ruolo di editor Storage nel tuo progetto.

Vertex AI Feature Store

Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili in caso di problemi con Vertex AI Feature Store.

Errore Resource not found durante l'invio di una richiesta di importazione di flussi di dati o di pubblicazione online

Problema

Dopo aver configurato un featurestore, un tipo di entità o risorse di funzionalità, si verifica un ritardo prima che queste risorse vengano propagate al servizio FeaturestoreOnlineServingService. A volte questa propagazione ritardata potrebbe causare un errore resource not found quando invii una richiesta diimportazione di flussi di datig o di pubblicazione online subito dopo aver creato una risorsa.

Soluzione:

Se ricevi questo errore, attendi qualche minuto e riprova a inviare la richiesta.

L'importazione in batch è riuscita per le caratteristiche appena create, ma la richiesta di recupero dati online restituisce valori vuoti

Problema

Solo per le funzionalità appena create, si verifica un ritardo prima che queste vengano propagate al servizio FeaturestoreOnlineServingService. Le funzionalità e i valori esistono, ma la propagazione richiede tempo. Ciò potrebbe comportare la restituzione di valori vuoti nella richiesta di pubblicazione online.

Soluzione:

Se noti questa incongruenza, attendi qualche minuto e riprova a inviare la richiesta di pubblicazione online.

L'utilizzo della CPU è elevato per un nodo di gestione online

Problema

L'utilizzo della CPU per un nodo di gestione online è elevato.

Soluzione:

Per risolvere questo problema, puoi aumentare il numero di nodi di servizio online aumentando manualmente il numero di nodi o abilitando la scalabilità automatica. Tieni presente che, anche se la scalabilità automatica è abilitata, Vertex AI Feature Store ha bisogno di tempo per ribilanciare i dati quando vengono aggiunti o rimossi nodi. Per informazioni su come visualizzare le metriche di distribuzione dei valori delle funzionalità nel tempo, consulta Visualizzare le metriche dei valori delle funzionalità.

L'utilizzo della CPU è elevato per il nodo di gestione online più attivo

Problema

Se l'utilizzo della CPU è elevato per il nodo più attivo, puoi aumentare il numero di nodi di servizio o modificare il pattern di accesso alle entità in modo pseudo-casuale.

Soluzione:

L'impostazione del pattern di accesso alle entità su pseudo-random riduce l'utilizzo elevato della CPU derivante dall'accesso frequente a entità che si trovano vicine tra loro nello store delle funzionalità. Se nessuna delle due soluzioni è efficace, implementa una cache lato client per evitare di accedere ripetutamente alle stesse entità.

La latenza della pubblicazione online è elevata quando QPS è basso

Problema

Il periodo di inattività o di attività ridotta a QPS basso potrebbe comportare la scadenza di alcune cache lato server. Ciò può comportare una latenza elevata quando il traffico verso i nodi di pubblicazione online riprende a QPS normale o superiore.

Soluzione:

Per risolvere questo problema, devi mantenere attiva la connessione inviando traffico artificiale di almeno 5 QPS al feature store.

Il job di importazione batch non riesce dopo sei ore

Problema

Il job di importazione batch può non riuscire perché la sessione di lettura scade dopo sei ore.

Soluzione:

Per evitare il timeout, aumenta il numero di worker per completare il job di importazione entro il limite di tempo di sei ore.

Errore Resource exceeded durante l'esportazione dei valori delle caratteristiche

Problema

L'esportazione di un volume elevato di dati può non riuscire con un errore di risorse superate se il job di esportazione supera la quota interna.

Soluzione:

Per evitare questo errore, puoi configurare i parametri dell'intervallo di tempo, start_time e end_time, per elaborare quantità minori di dati alla volta. Per informazioni sull'esportazione completa, vedi Esportazione completa.

Vertex AI Vizier

Quando utilizzi Vertex AI Vizier, potresti riscontrare i seguenti problemi.

Errore interno

Problema

L'errore interno si verifica quando si verifica un errore di sistema.

Soluzione:

Potrebbe essere temporaneo. Prova a inviare di nuovo la richiesta e, se l'errore persiste, contatta l'assistenza.

Errori di autorizzazione durante l'utilizzo dei ruoli dell'account di servizio con Vertex AI

Problema

Quando utilizzi i ruoli del account di servizio con Vertex AI, si verificano errori di autorizzazione generali.

Questi errori possono essere visualizzati in Cloud Logging nei log dei componenti del prodotto o nei log di controllo. Potrebbero anche essere visualizzati in qualsiasi combinazione dei progetti interessati.

Questi problemi possono essere causati da uno o entrambi i seguenti motivi:

  • Utilizzo del ruolo Service Account Token Creator quando avrebbe dovuto essere utilizzato il ruolo Service Account User o viceversa. Questi ruoli concedono autorizzazioni diverse su un account di servizio e non sono intercambiabili. Per scoprire le differenze tra i ruoli Service Account Token Creator e Service Account User, consulta Ruoli degli account di servizio.

  • Hai concesso a un account di servizio autorizzazioni per più progetti, il che non è consentito per impostazione predefinita.

Soluzione:

Per risolvere il problema, prova una o più delle seguenti soluzioni:

  • Determina se è necessario il ruolo Service Account Token Creator o Service Account User. Per saperne di più, leggi la documentazione di IAM per i servizi Vertex AI che utilizzi, nonché per qualsiasi altra integrazione di prodotto che utilizzi.

  • Se hai concesso a un account di servizio autorizzazioni per più progetti, consenti l'allegato dei service account a più progetti assicurandoti che iam.disableCrossProjectServiceAccountUsage. non è applicata in modo forzato. Per assicurarti che iam.disableCrossProjectServiceAccountUsage non sia applicato, esegui questo comando:

    gcloud resource-manager org-policies disable-enforce \
      iam.disableCrossProjectServiceAccountUsage \
      --project=PROJECT_ID