Questa pagina descrive i passaggi per la risoluzione dei problemi, utili in caso di problemi nell'utilizzo di Vertex AI.
I passaggi per la risoluzione dei problemi per alcuni componenti di Vertex AI sono elencati separatamente. Vedi quanto segue:
Per filtrare i contenuti di questa pagina, fai clic su un argomento:
Modelli AutoML
Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili in caso di problemi con AutoML.
Etichette mancanti nel set di test, convalida o addestramento
Problema
Quando utilizzi la suddivisione predefinita dei dati durante l'addestramento di un modello di classificazione AutoML, Vertex AI potrebbe assegnare un numero troppo basso di istanze di una classe a un determinato set (test, convalida o addestramento), il che causa un errore durante l'addestramento. Questo problema si verifica più frequentemente quando le classi non sono bilanciate o quando la quantità di dati di addestramento è ridotta.
Soluzione:
Per risolvere il problema, aggiungi altri dati di addestramento, dividi manualmente i dati per assegnare un numero sufficiente di classi a ogni set o rimuovi le etichette meno frequenti dal set di dati. Per saperne di più, consulta l'articolo Informazioni sulle suddivisioni di dati per i modelli AutoML.
Vertex AI Studio
Quando lavori con Vertex AI Studio, potresti ricevere i seguenti errori:
Il tentativo di ottimizzare un modello restituisce Internal error encountered
Problema
Si verifica un errore Internal error encountered
quando provi a ottimizzare un modello.
Soluzione:
Esegui il seguente comando curl per creare un set di dati Vertex AI vuoto. Assicurati di configurare l'ID progetto nel comando.
PROJECT_ID=PROJECT_ID
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://europe-west4-aiplatform.googleapis.com/ui/projects/$PROJECT_ID/locations/europe-west4/datasets \
-d '{
"display_name": "test-name1",
"metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/image_1.0.0.yaml",
"saved_queries": [{"display_name": "saved_query_name", "problem_type": "IMAGE_CLASSIFICATION_MULTI_LABEL"}]
}'
Una volta completato il comando, attendi cinque minuti e riprova a eseguire l'ottimizzazione del modello.
Codice di errore: 429
Problema
Si verifica il seguente errore:
429: The online prediction request quota is exceeded for PUBLIC_BASE_MODEL_NAME.
Soluzione:
Riprova più tardi con backoff. Se continui a riscontrare errori, contatta l'assistenza Vertex AI.
Codice di errore: 410
Problema
Si verifica il seguente errore:
410: The request is missing the required authentication credential. Expected OAuth 2.0 access token, login cookie, or other valid authentication credential.
Soluzione:
Per saperne di più, consulta la panoramica sull'autenticazione.
Codice di errore: 403
Problema
Si verifica il seguente errore:
403: Permission denied.
Soluzione:
Assicurati che l'account che accede all'API disponga delle autorizzazioni corrette.
Vertex AI Pipelines
Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili in caso di problemi con Vertex AI Pipelines.
Non hai l'autorizzazione per agire come account di servizio
Problema
Quando esegui il flusso di lavoro Vertex AI Pipelines, potresti visualizzare il seguente messaggio di errore:
You do not have permission to act as service account: SERVICE_ACCOUNT. (or it may not exist).
Soluzione:
Questo errore significa che l'account di servizio che esegue il flusso di lavoro non ha accesso alle risorse che deve utilizzare.
Per risolvere il problema, prova una delle seguenti soluzioni:
- Aggiungi il ruolo
Vertex AI Service Agent
all'account di servizio. - Concedi all'utente l'autorizzazione
iam.serviceAccounts.actAs
per l'account di servizio.
Errore Internal error happened
Problema
Se la pipeline non va a buon fine e viene visualizzato un messaggio Internal error happened
,
controlla Esplora log e cerca il nome della pipeline. Potresti visualizzare un
errore simile al seguente:
java.lang.IllegalStateException: Failed to validate vpc network projects/PROJECT_ID/global/networks/VPC_NETWORK.APPLICATION_ERROR;google.cloud.servicenetworking.v1/ServicePeeringManagerV1.GetConsumerConfig;Reserved range: 'RANGE_NAME' not found for consumer project: 'PROJECT_ID' network: 'VPC_NETWORK'. com.google.api.tenant.error.TenantManagerException: Reserved range: 'RANGE_NAME' not found for consumer project
Ciò significa che il peering VPC per Vertex AI include un intervallo IP che è stato eliminato.
Soluzione:
Per risolvere il problema, aggiorna il peering VPC utilizzando il comando update e includi intervalli IP validi.
Ambito OAuth o pubblico del token ID fornito non valido
Problema
Quando esegui il flusso di lavoro di Vertex AI Pipelines, viene visualizzato il seguente messaggio di errore:
google.auth.exceptions.RefreshError: ('invalid_scope: Invalid OAuth scope
or ID token audience provided.', {'error': 'invalid_scope',
'error_description': 'Invalid OAuth scope or ID token audience provided.'})
Soluzione:
Ciò significa che non hai fornito le credenziali in uno dei componenti della pipeline o non hai utilizzato ai_platform.init()
per impostarle.
Per risolvere il problema, imposta le credenziali per il componente della pipeline pertinente o imposta le credenziali dell'ambiente e utilizza ai_platform.init()
all'inizio del codice.
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = PATH_TO_JSON_KEY
I componenti di Vertex AI Pipelines richiedono più spazio su disco di 100 GB
Problema
Lo spazio su disco predefinito allocato ai componenti di Vertex AI Pipelines è di 100 GB e l'aumento dello spazio su disco non è supportato. Consulta il monitoraggio problemi pubblico per questo problema.
Soluzione:
Affinché un componente utilizzi più di 100 GB di spazio su disco, convertilo in un job personalizzato utilizzando il metodo components. Con questo operatore, puoi assegnare il tipo di macchina e la dimensione del disco utilizzati dal componente.
Per un esempio di come utilizzare questo operatore, consulta Vertex AI Pipelines: addestramento personalizzato con componenti pipeline Google Cloud predefiniti nella sezione Convertire il componente in un job personalizzato Vertex AI.
Problemi di networking di Vertex AI
Questa sezione descrive i passaggi per la risoluzione dei problemi, utili in caso di problemi di networking per Vertex AI.
gcloud services vpc-peerings get-vpc-service-controls \
--network YOUR_NETWORK
I carichi di lavoro non possono accedere agli endpoint nella tua rete VPC quando utilizzi intervalli IP pubblici utilizzati privatamente per Vertex AI
Problema
Gli intervalli IP pubblici utilizzati privatamente non vengono importati per impostazione predefinita.
Soluzione:
Per utilizzare intervalli IP pubblici utilizzati privatamente, devi abilitare l'importazione di intervalli IP pubblici utilizzati privatamente.
com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project
Problema
Quando esegui i workload o esegui il deployment degli endpoint, ricevi errori del modulo com.google.api.tenant.error.TenantManagerException:
Reserved range: nnn not found for consumer project
.
Ciò si verifica quando modifichi le prenotazioni dell'accesso privato ai servizi per i tuoi carichi di lavoro. Gli intervalli eliminati potrebbero non essere stati registrati con l'API Vertex AI.
Soluzione:
Esegui gcloud services vpc-peerings update
per servicenetworking
dopo aver aggiornato le allocazioni di accesso privato ai servizi.
La pipeline o il job non può accedere agli endpoint all'interno della rete VPC in peering
Problema
La pipeline Vertex AI va in timeout quando tenta di connettersi alle risorse nella tua rete VPC.
Soluzione:
Prova a risolvere il problema procedendo nel seguente modo:
- Assicurati di aver completato tutti i passaggi descritti in Configurare il peering di rete VPC.
Rivedi la configurazione della rete VPC con peering. Assicurati che la tua rete importi le route dall'intervallo di service networking corretto durante l'esecuzione del job.
Assicurati di avere una regola firewall che consenta le connessioni da questo intervallo alla destinazione nella tua rete.
Se la connessione di peering non importa route durante l'esecuzione del job, significa che la configurazione del service networking non viene utilizzata. Ciò è probabilmente dovuto al fatto che hai completato la configurazione del peering con una rete diversa da quella predefinita. In questo caso, assicurati di specificare la tua rete quando avvii un job. Utilizza il nome di rete completo nel seguente formato:
projects/$PROJECT_ID/global/networks/$NETWORK_NAME
.Per ulteriori informazioni, consulta la panoramica delle route.
La pipeline o il job non possono accedere agli endpoint in altre reti oltre alla tua
Problema
La pipeline o il job non è in grado di accedere agli endpoint in reti diverse dalla tua.
Soluzione:
Per impostazione predefinita, la configurazione del peering esporta solo le route nelle subnet locali del VPC.
Inoltre, il peering transitivo non è supportato e solo le reti in peering diretto possono comunicare.
- Per consentire a Vertex AI di connettersi tramite la tua rete e raggiungere gli endpoint in altre reti, devi esportare le route di rete nella connessione in peering. Modifica la configurazione della tua rete VPC con peering e abilita
Export custom routes
.
Poiché il peering transitivo non è supportato, Vertex AI non apprende le route verso altri servizi e reti in peering, anche con Export Custom Routes
abilitato. Per informazioni sulle soluzioni alternative, consulta
Estensione della raggiungibilità di rete di Vertex AI Pipelines.
No route to host
senza conflitti di percorso evidenti nella console Google Cloud
Problema
Le uniche route che puoi visualizzare nella console Google Cloud sono quelle note al tuo VPC, nonché gli intervalli riservati quando completi la configurazione del peering di rete VPC.
In rari casi, un job Vertex AI potrebbe generare un errore no route to host
quando tenta di raggiungere un indirizzo IP che il VPC sta esportando nella rete Vertex AI.
Ciò potrebbe essere dovuto al fatto che i job Vertex AI vengono eseguiti all'interno di uno spazio dei nomi di rete in un cluster GKE gestito il cui intervallo IP è in conflitto con l'IP di destinazione. Per ulteriori informazioni, consulta Nozioni di base sul networking GKE.
In queste condizioni, il carico di lavoro tenta di connettersi all'IP all'interno del proprio spazio dei nomi di rete e genera l'errore se non riesce a raggiungerlo.
Soluzione:
Crea il workload in modo che restituisca gli indirizzi IP dello spazio dei nomi locale e verifica che non
entri in conflitto con le route che esporti tramite la connessione di peering.
In caso di conflitto, trasmetti un elenco di reservedIpRanges[]
nei parametri del job che non si sovrappongono ad alcun intervallo nella tua rete VPC.
Il job utilizza questi intervalli per gli indirizzi IP interni del workload.
RANGES_EXHAUSTED
, RANGES_NOT_RESERVED
Problema
Gli errori del modulo RANGES_EXHAUSTED
e RANGES_NOT_RESERVED
e
RANGES_DELETED_LATER
indicano un problema con la configurazione
del peering di rete VPC sottostante. Si tratta di errori di rete
e non di errori del servizio Vertex AI stesso.
Soluzione:
In caso di errore RANGES_EXHAUSTED
, devi prima valutare se
il reclamo è valido.
- Visita Network Analyzer nella console Cloud e cerca gli approfondimenti del modulo "Riepilogo dell'allocazione degli indirizzi IP" nella rete VPC. Se questi indicano che l'allocazione è pari o prossima al 100%, puoi aggiungere un nuovo intervallo alla prenotazione.
- Considera anche il numero massimo di job paralleli che possono essere eseguiti con una prenotazione di una determinata dimensione.
Per saperne di più, vedi Errori di convalida dell'infrastruttura di servizio.
Se l'errore persiste, contatta l'assistenza.
Router status is temporarily unavailable
Problema
Quando avvii Vertex AI Pipelines, ricevi un messaggio di errore simile al seguente:
Router status is temporarily unavailable. Please try again later
Soluzione:
Il messaggio di errore indica che si tratta di una condizione temporanea. Prova ad avviare di nuovo Vertex AI Pipelines.
Se l'errore persiste, contatta l'assistenza.
I carichi di lavoro non sono in grado di risolvere i nomi host per i domini DNS nel tuo VPC
Problema
I workload Vertex AI non riescono a connettersi ai nomi host configurati nel tuo VPC. Hai già confermato che questi nomi host sono accessibili dai client all'interno del tuo VPC.
Questo perché i carichi di lavoro vengono eseguiti in un progetto gestito da Google. Il VPC in questo ambiente gestito deve essere sottoposto a peering con il tuo per poter utilizzare le tue risorse di rete. Inoltre, tutte le zone DNS a cui questi carichi di lavoro devono accedere devono essere condivise in modo specifico con il VPC gestito da Google.
Soluzione:
- Assicurati di aver configurato il peering di rete VPC per Vertex AI nella tua rete VPC.
- Completa i passaggi per condividere le tue zone DNS private con la rete del producer Vertex AI.
- Assicurati che i tuoi carichi di lavoro Vertex AI vengano avviati con il
flag
--network
che specifica la tua rete VPC. In questo modo possono essere eseguiti nella rete gestita da Google e accedere alle zone DNS che hai condiviso.
Problemi di connettività causati da comportamenti lato client
Se riscontri problemi di connettività quando tenti di utilizzare le API Google Cloud, la causa principale potrebbe essere lato client. Questa sezione suggerisce soluzioni lato client che potrebbero migliorare la tua esperienza.
Reimpostazioni della connessione e pacchetti eliminati
Problema
Quando tenti di utilizzare le Google Cloud API, si verificano reimpostazioni della connessione e pacchetti ignorati.
Soluzione:
Per risolvere il problema, considera quanto segue:
- Per il traffico di transazioni ad alto volume che hanno requisiti di bassa latenza, valuta se eventuali problemi noti con le line card dei client on-premise potrebbero causare la reimpostazione delle connessioni TCP o l'eliminazione dei pacchetti.
- Valuta se i servizi lato client nel percorso della richiesta utilizzano
iptables. Questi possono includere
cluster Kubernetes o alcuni firewall stateful e dispositivi NAT. Per impostazione predefinita,
il sottosistema di monitoraggio delle connessioni (conntrack) di Linux seguirà rigorosamente
le specifiche del protocollo TCP e, ad esempio, eliminerà i pacchetti TCP
non in sequenza. Per disattivare questo comportamento, attiva il parametro del kernel Linux
net.netfilter.nf_conntrack_tcp_be_liberal
o il suo equivalente.
Connessioni incomplete
Problema
Quando tenti di utilizzare le API Google Cloud , riscontri connessioni incomplete.
Soluzione:
Per risolvere il problema, considera quanto segue:
- Quando il percorso di inoltro ha più route di ritorno al client, assicurati di comprendere il concetto di Reverse Path Forwarding. Disattiva questo comportamento se sospetti che stia bloccando le connessioni.
- Per le connessioni con bilanciamento del carico, valuta se le regole firewall in entrata consentono i pacchetti di risposta a entrambi i bilanciatori del carico.
Altri problemi di connessione non API
Per risolvere i problemi di connessione non API, considera quanto segue:
- Se nel percorso della richiesta sono presenti proxy, valuta se possono introdurre uno dei problemi che stai riscontrando. Esamina la documentazione e assicurati di risolvere i problemi del proxy quando riscontri problemi come latenza inspiegabile, connessioni interrotte, override DNS, blocchi cross-origin e altri problemi simili.
- Soprattutto quando si gestiscono
risposte
429
dalle API Google Cloud , la logica lato client che riprova immediatamente la connessione può peggiorare il problema. Assicurati di comprendere e implementare il backoff esponenziale quando implementi i nuovi tentativi.
Vertex AI Prediction
Questa sezione descrive i passaggi per la risoluzione dei problemi, utili in caso di problemi con la previsione di Vertex AI.
Errore relativo al superamento dei tentativi
Problema
Quando esegui job di previsione in batch, viene visualizzato un errore come il seguente, che indica che la macchina che esegue il modello personalizzato potrebbe non essere in grado di completare le previsioni entro il limite di tempo.
('Post request fails. Cannot get predictions. Error: Exceeded retries: Non-OK
result 504 (upstream request timeout) from server, retry=3, elapsed=600.04s.', 16)
Ciò può verificarsi quando il servizio di previsione Vertex AI si registra con il servizio Google Front End, che funge da proxy per le connessioni dal client all'API Vertex AI Prediction.
Il servizio Google Front End interrompe la connessione e restituisce un codice di risposta HTTP 500 al client se non riceve una risposta dall'API entro 10 minuti.
Soluzione:
Per risolvere il problema, prova una delle seguenti soluzioni:
- Aumenta i nodi di calcolo o modifica il tipo di macchina.
- Crea il container di previsione in modo che invii codici di risposta HTTP 102 periodici. In questo modo viene reimpostato il timer di 10 minuti sul servizio Google Front End (GFE).
Il progetto è già collegato al VPC
Problema
Quando esegui il deployment di un endpoint, potresti visualizzare un messaggio di errore come il seguente, che indica che gli endpoint Vertex AI hanno precedentemente utilizzato una rete Virtual Private Cloud e le risorse non sono state pulite in modo appropriato.
Currently only one VPC network per user project is supported. Your project is
already linked to "projects/YOUR_SHARED_VPC_HOST_PROJECT/global/networks/YOUR_SHARED_VPC_NETWORK".
To change the VPC network, please undeploy all Vertex AI deployment resources,
delete all endpoint resources, and then retry creating resources in 30 mins.
Soluzione:
Per risolvere il problema, prova a eseguire questo comando in Cloud Shell.
gcloud services vpc-peerings delete \
--service=servicenetworking.googleapis.com \
--network=YOUR_SHARED_VPC_NETWORK \
--project=YOUR_SHARED_VPC_HOST_PROJECT
In questo modo, la vecchia rete VPC viene disconnessa manualmente dal VPC Service Networking.
Errore di deployment imprevisto o eliminazione dell'endpoint
Problema
Il deployment di un modello non riesce in modo imprevisto, un endpoint viene eliminato o il deployment di un modello precedente è stato annullato.
Il tuo account di fatturazione potrebbe non essere valido. Se rimane non valido per un lungo periodo di tempo, alcune risorse potrebbero essere rimosse dai progetti associati al tuo account. Ad esempio, i tuoi endpoint e modelli potrebbero essere eliminati. Le risorse rimosse non sono recuperabili.
Soluzione:
Per risolvere il problema, puoi provare a:
- Verifica lo stato di fatturazione dei tuoi progetti.
- Contatta l'assistenza per la fatturazione Cloud per richiedere aiuto in merito alle domande sulla fatturazione.
Per ulteriori informazioni, vedi Domande sulla fatturazione.
Problemi relativi all'account di servizio personalizzato Vertex AI
Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili in caso di problemi con gli account di servizio.
Il deployment del modello non riesce a causa dell'errore del account di servizio serviceAccountAdmin
Problema
Il deployment del modello non va a buon fine e viene visualizzato un errore simile al seguente:
Failed to deploy model MODEL_NAME to
endpoint ENDPOINT_NAME due to the error: Failed to add IAM policy binding.
Please grant SERVICE_ACC_NAME@gcp-sa-aiplatform.iam.gserviceaccount.com the
iam.serviceAccountAdmin role on service account
vertex-prediction-role@PROJECT_INFO.iam.gserviceaccount.com
Soluzione:
Questo errore indica che il account di servizio personalizzato potrebbe non essere stato configurato correttamente. Per creare un account di servizio personalizzato con le autorizzazioni IAM corrette, consulta Utilizzo di un service account personalizzato.
Impossibile recuperare il token ID quando si utilizza un account di servizio personalizzato
Problema
Quando utilizzi un account di servizio personalizzato, i job di addestramento eseguiti su una singola replica non sono in grado di raggiungere il servizio di metadati di Compute Engine necessario per recuperare un token.
Visualizzerai un errore simile a questo:
Failed to refresh jwt, retry number 0: ("Failed to retrieve http://metadata.google.internal/computeMetadata/v1/instance/service-accounts/default/identity?audience=...&format=full
from the Google Compute Engine Metadata service. Status: 404 Response:
\nb'Not Found\n'", <google.auth.transport.requests._Response object at
0x7fb19f058c50>)
Soluzione:
Per recuperare il token di identità con un account di servizio personalizzato, devi utilizzare iamcredentials.googleapis.com.
Modelli con addestramento personalizzato
Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili in caso di problemi con i modelli addestrati personalizzati.
Problemi relativi all'addestramento personalizzato
Durante l'addestramento personalizzato possono verificarsi i seguenti problemi. I problemi si applicano alle risorse
CustomJob
e HyperparameterTuningJob
, incluse quelle create
dalle risorse TrainingPipeline
.
Codice di errore: 400
Problema
Si verifica il seguente errore:
400 Machine type MACHINE_TYPE is not supported.
Potresti visualizzare questo messaggio di errore se il tipo di macchina selezionato non è supportato per l'addestramento di Vertex AI o se una risorsa specifica non è disponibile nella regione selezionata.
Soluzione:
Utilizza solo i tipi di macchine disponibili nelle regioni appropriate.
La replica è uscita con un codice di stato diverso da zero
Problema
Durante l'addestramento distribuito, un errore di qualsiasi worker causa l'interruzione dell'addestramento.
Soluzione:
Per controllare lo analisi dello stack del worker, visualizza i log di addestramento personalizzati nella Google Cloud console.
Consulta gli altri argomenti per la risoluzione dei problemi per correggere gli errori comuni, quindi crea una nuova risorsa
CustomJob
, HyperparameterTuningJob
o TrainingPipeline
. In molti
casi, i codici di errore sono causati da problemi nel codice di addestramento, non dal
servizio Vertex AI. Per determinare se questo è il caso, puoi eseguire il codice di addestramento sulla macchina locale o su Compute Engine.
La replica ha esaurito la memoria
Problema
Può verificarsi un errore se un'istanza di macchina virtuale (VM) di addestramento esaurisce la memoria durante l'addestramento.
Soluzione:
Puoi visualizzare l'utilizzo della memoria delle VM di addestramento nella console Google Cloud .
Anche quando ricevi questo errore, potresti non visualizzare un utilizzo della memoria del 100% sulla VM,
perché anche i servizi diversi dall'applicazione di addestramento in esecuzione sulla VM
consumano risorse. Per i tipi di macchina con meno memoria, altri servizi potrebbero consumare una percentuale relativamente elevata di memoria.
Ad esempio, su una VM n1-standard-4
, i servizi possono consumare fino al 40% della memoria.
Puoi ottimizzare il consumo di memoria della tua applicazione di addestramento oppure puoi scegliere un tipo di macchina più grande con più memoria.
Risorse insufficienti in una regione
Problema
Si verifica un problema di esaurimento scorte in una regione.
Soluzione:
Vertex AI addestra i tuoi modelli utilizzando le risorse Compute Engine. Vertex AI non può pianificare il carico di lavoro se Compute Engine ha raggiunto la capacità per una determinata CPU o GPU in una regione. Questo problema non è correlato alla quota di progetti.
Quando raggiunge la capacità di Compute Engine, Vertex AI ritenta automaticamente
l'esecuzione di CustomJob
o HyperparameterTuningJob
fino a tre volte. Il
job non riesce se tutti i tentativi non vanno a buon fine.
Di solito, l'esaurimento delle scorte si verifica quando utilizzi le GPU. Se si verifica questo errore quando utilizzi le GPU, prova a passare a un tipo di GPU diverso. Se puoi utilizzare un'altra regione, prova a eseguire l'addestramento in una regione diversa.
Errore di autorizzazione durante l'accesso a un altro servizio Google Cloud
Se riscontri un errore di autorizzazione quando accedi a un altro servizio Google Cloud
dal codice di addestramento (ad esempio:
google.api_core.exceptions.PermissionDenied: 403
), potresti riscontrare uno
dei seguenti problemi:
-
Problema
L'agente di servizio o il account di servizio che esegue il codice (l'agente di servizio del codice personalizzato Vertex AI per il progetto o un service account personalizzato) non dispone dell'autorizzazione richiesta.
Soluzione:
Scopri come concedere le autorizzazioni all'agente di servizio del codice personalizzato Vertex AI o configurare un account di servizio personalizzato con le autorizzazioni necessarie.
-
Problema
L'agente di servizio o il account di servizio che esegue il codice dispone dell'autorizzazione richiesta, ma il codice tenta di accedere a una risorsa nel progetto sbagliato. È molto probabile che il problema sia questo se il messaggio di errore fa riferimento a un ID progetto che termina con
-tp
.Soluzione:
A causa del modo in cui Vertex AI esegue il codice di addestramento, questo problema può verificarsi inavvertitamente se non specifichi esplicitamente un ID progetto o un numero di progetto nel codice.
Scopri come risolvere il problema specificando un ID progetto o un numero di progetto.
-
Problema
Il job di Vertex AI Training viene eseguito correttamente con i dati locali, ma non con i dati di Cloud Storage.
Soluzione:
Aggiungi l'autorizzazione
storage.buckets.create
al ruolo dell'agente di servizio del codice personalizzato Vertex AI per il progetto.Scopri come risolvere il problema aggiungendo ruoli specifici agli agenti di servizio di Vertex AI.
Problemi di prestazioni durante l'utilizzo di Cloud Storage FUSE
Problema
I job Cloud Storage FUSE vengono eseguiti lentamente.
Soluzione:
Consulta "Linee guida per l'ottimizzazione del rendimento" in Utilizzare Cloud Storage come file system montato.
pip install
non riesce quando utilizzi KFP con Controlli di servizio VPC
Problema
Viene visualizzato il seguente errore:
ModuleNotFoundError: No module named MODULE_NAME. WARNING: Retrying (Retry(total=0, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ConnectTimeoutError(<pip._vendor.urllib3.connection.HTTPSConnection object at 0x7f70250bac10>, 'Connection to pypi.org timed out. (connect timeout=15)')': /simple/nltk/
Soluzione:
Il perimetro di servizio di Controlli di servizio VPC blocca l'accesso da Vertex AI ad API e servizi di terze parti su internet. Per installare i pacchetti, utilizza packageUris per installare le dipendenze dai bucket Cloud Storage. Per una discussione generale sull'utilizzo di questa tecnica, consulta la sezione "Utilizzare container personalizzati" in Controlli di servizio VPC con Vertex AI.
Errore interno
Problema
L'addestramento non è riuscito a causa di un errore di sistema.
Soluzione:
Il problema potrebbe essere temporaneo. Prova a inviare di nuovo CustomJob
,
HyperparameterTuningJob
o TrainingPipeline
. Se l'errore persiste,
contatta l'assistenza.
Codice di errore 500 quando si utilizza un'immagine container personalizzata
Problema
Nei log viene visualizzato un errore 500.
Soluzione:
Questo tipo di errore è probabilmente un problema con l'immagine container personalizzata e non un errore di Vertex AI.
Il service account non può accedere al bucket Cloud Storage durante il deployment a un endpoint
Problema
Quando provi a eseguire il deployment di un modello in un endpoint e il tuo account di servizio
non dispone
dell'accesso
storage.objects.list
al bucket Cloud Storage correlato,
potresti visualizzare il seguente errore:
custom-online-prediction@TENANT_PROJECT_ID.iam.gserviceaccount.com
does not have storage.objects.list access to the Cloud Storage bucket.
Per impostazione predefinita, il container personalizzato che esegue il deployment del modello utilizza un account di servizio che non ha accesso al tuo bucket Cloud Storage.
Soluzione:
Per risolvere il problema, prova una delle seguenti soluzioni:
Copia il file a cui stai tentando di accedere dal contenitore in artefatti del modello durante il caricamento del modello. Vertex AI lo copierà in una posizione a cui ha accesso l'account di servizio predefinito, in modo simile a tutti gli altri artefatti del modello.
Copia il file nel container nell'ambito del processo di compilazione del container.
Specifica un service account personalizzato.
Ricerca di architetture neurali
Problemi noti
- Dopo l'annullamento del job NAS, il job principale (il job padre) si arresta, ma alcuni dei tentativi secondari continuano a mostrare lo stato In esecuzione. Ignora lo stato della prova secondaria che in questo caso mostra In esecuzione. Le prove sono state interrotte, ma l'interfaccia utente continua a mostrare lo stato In esecuzione. Se il job principale è stato interrotto, non ti verranno addebitati costi aggiuntivi.
- Dopo aver segnalato le ricompense nell'addestratore, attendi 10 minuti prima che i job di prova vengano chiusi.
Quando utilizzi Cloud Shell per eseguire
TensorBoard
, il link di output generato potrebbe non funzionare. In questo caso, annota il numero di porta, utilizza lo strumento Anteprima web e seleziona il numero di porta corretto per visualizzare i grafici.Accedere allo strumento
Web Preview
:Se nei log dell'addestratore vengono visualizzati messaggi di errore come i seguenti:
gcsfuse errors: fuse: writeMessage: no such file or directory [16 0 0 0 218 255 255 255 242 25 111 1 0 0 0 0]
utilizza una macchina con più RAM, perché questo errore è causato da una condizione di esaurimento della memoria.
Se il tuo trainer personalizzato non riesce a trovare la directory dei lavori
job-dir
FLAG, importajob_dir
con un trattino basso anziché un trattino. Questo aspetto è spiegato in una nota del tutorial 1.Errore NaN durante l'addestramento Potrebbero verificarsi errori NaN nel job di addestramento, ad esempio
NaN : Tensor had NaN values
. Il tasso di apprendimento potrebbe essere troppo elevato per l'architettura suggerita. Per ulteriori informazioni, vedi Errori relativi a esaurimento della memoria (OOM) e learning rate.Errore OOM durante l'addestramento Potrebbero verificarsi errori OOM (out-of-memory) nel job di addestramento. La dimensione del batch potrebbe essere troppo grande per la memoria dell'acceleratore. Per ulteriori informazioni, vedi Errori relativi a esaurimento della memoria (OOM) e learning rate.
Il job del controller di selezione del modello proxy-task non funziona Nel raro caso in cui il job del controller di selezione del modello proxy-task non funzioni, puoi riprenderlo seguendo questi passaggi.
Il job del controller di ricerca proxy-task termina Nel raro caso in cui il job del controller di ricerca proxy-task termini, puoi riprenderlo seguendo questi passaggi.
Il service account non dispone dell'autorizzazione per accedere ad Artifact Registry o al bucket. Se ricevi un errore come
Vertex AI Service Agent service-123456789@gcp-sa-aiplatform-cc.iam.gserviceaccount.com does not have permission to access Artifact Registry repository projects/my-project/locations/my-region/repositories/nas
o un errore simile per l'accesso al bucket, assegna a questo account di servizio un ruolo di editor Storage nel tuo progetto.
Vertex AI Feature Store
Questa sezione descrive i passaggi per la risoluzione dei problemi che potrebbero esserti utili in caso di problemi con Vertex AI Feature Store.
Errore Resource not found
durante l'invio di una richiesta di importazione di flussi di dati o di pubblicazione online
Problema
Dopo aver configurato un featurestore, un tipo di entità o risorse di funzionalità, si verifica un ritardo prima che queste risorse vengano propagate al servizio FeaturestoreOnlineServingService
. A volte questa propagazione ritardata
potrebbe causare un errore resource not found
quando invii una richiesta diimportazione di flussi di datig
o di pubblicazione online subito dopo aver creato una risorsa.
Soluzione:
Se ricevi questo errore, attendi qualche minuto e riprova a inviare la richiesta.
L'importazione in batch è riuscita per le caratteristiche appena create, ma la richiesta di recupero dati online restituisce valori vuoti
Problema
Solo per le funzionalità appena create, si verifica un ritardo prima che queste vengano
propagate al servizio FeaturestoreOnlineServingService
. Le funzionalità e
i valori esistono, ma la propagazione richiede tempo. Ciò potrebbe comportare la restituzione di valori vuoti
nella richiesta di pubblicazione online.
Soluzione:
Se noti questa incongruenza, attendi qualche minuto e riprova a inviare la richiesta di pubblicazione online.
L'utilizzo della CPU è elevato per un nodo di gestione online
Problema
L'utilizzo della CPU per un nodo di gestione online è elevato.
Soluzione:
Per risolvere questo problema, puoi aumentare il numero di nodi di servizio online aumentando manualmente il numero di nodi o abilitando la scalabilità automatica. Tieni presente che, anche se la scalabilità automatica è abilitata, Vertex AI Feature Store ha bisogno di tempo per ribilanciare i dati quando vengono aggiunti o rimossi nodi. Per informazioni su come visualizzare le metriche di distribuzione dei valori delle funzionalità nel tempo, consulta Visualizzare le metriche dei valori delle funzionalità.
L'utilizzo della CPU è elevato per il nodo di gestione online più attivo
Problema
Se l'utilizzo della CPU è elevato per il nodo più attivo, puoi aumentare il numero di nodi di servizio o modificare il pattern di accesso alle entità in modo pseudo-casuale.
Soluzione:
L'impostazione del pattern di accesso alle entità su pseudo-random riduce l'utilizzo elevato della CPU derivante dall'accesso frequente a entità che si trovano vicine tra loro nello store delle funzionalità. Se nessuna delle due soluzioni è efficace, implementa una cache lato client per evitare di accedere ripetutamente alle stesse entità.
La latenza della pubblicazione online è elevata quando QPS è basso
Problema
Il periodo di inattività o di attività ridotta a QPS basso potrebbe comportare la scadenza di alcune cache lato server. Ciò può comportare una latenza elevata quando il traffico verso i nodi di pubblicazione online riprende a QPS normale o superiore.
Soluzione:
Per risolvere questo problema, devi mantenere attiva la connessione inviando traffico artificiale di almeno 5 QPS al feature store.
Il job di importazione batch non riesce dopo sei ore
Problema
Il job di importazione batch può non riuscire perché la sessione di lettura scade dopo sei ore.
Soluzione:
Per evitare il timeout, aumenta il numero di worker per completare il job di importazione entro il limite di tempo di sei ore.
Errore Resource exceeded
durante l'esportazione dei valori delle caratteristiche
Problema
L'esportazione di un volume elevato di dati può non riuscire con un errore di risorse superate se il job di esportazione supera la quota interna.
Soluzione:
Per evitare questo errore, puoi configurare i parametri dell'intervallo di tempo, start_time
e end_time
, per elaborare quantità minori di dati alla volta. Per informazioni
sull'esportazione completa, vedi Esportazione completa.
Vertex AI Vizier
Quando utilizzi Vertex AI Vizier, potresti riscontrare i seguenti problemi.
Errore interno
Problema
L'errore interno si verifica quando si verifica un errore di sistema.
Soluzione:
Potrebbe essere temporaneo. Prova a inviare di nuovo la richiesta e, se l'errore persiste, contatta l'assistenza.
Errori di autorizzazione durante l'utilizzo dei ruoli dell'account di servizio con Vertex AI
Problema
Quando utilizzi i ruoli del account di servizio con Vertex AI, si verificano errori di autorizzazione generali.
Questi errori possono essere visualizzati in Cloud Logging nei log dei componenti del prodotto o nei log di controllo. Potrebbero anche essere visualizzati in qualsiasi combinazione dei progetti interessati.
Questi problemi possono essere causati da uno o entrambi i seguenti motivi:
Utilizzo del ruolo
Service Account Token Creator
quando avrebbe dovuto essere utilizzato il ruoloService Account User
o viceversa. Questi ruoli concedono autorizzazioni diverse su un account di servizio e non sono intercambiabili. Per scoprire le differenze tra i ruoliService Account Token Creator
eService Account User
, consulta Ruoli degli account di servizio.Hai concesso a un account di servizio autorizzazioni per più progetti, il che non è consentito per impostazione predefinita.
Soluzione:
Per risolvere il problema, prova una o più delle seguenti soluzioni:
Determina se è necessario il ruolo
Service Account Token Creator
oService Account User
. Per saperne di più, leggi la documentazione di IAM per i servizi Vertex AI che utilizzi, nonché per qualsiasi altra integrazione di prodotto che utilizzi.Se hai concesso a un account di servizio autorizzazioni per più progetti, consenti l'allegato dei service account a più progetti assicurandoti che
iam.disableCrossProjectServiceAccountUsage
. non è applicata in modo forzato. Per assicurarti cheiam.disableCrossProjectServiceAccountUsage
non sia applicato, esegui questo comando:gcloud resource-manager org-policies disable-enforce \ iam.disableCrossProjectServiceAccountUsage \ --project=PROJECT_ID