Differenza tra inferenze online e batch
Le inferenze online sono richieste sincrone effettuate a un endpoint del modello. Utilizza le inferenze online quando effettui richieste in risposta all'input dell'applicazione o in situazioni che richiedono un'inferenza tempestiva.
Le inferenze batch sono richieste asincrone. Le inferenze batch vanno richieste direttamente dalla risorsa del modello senza dover eseguire il deployment del modello su un endpoint. Per i dati delle immagini, utilizza le inferenze batch quando non hai bisogno di una risposta immediata e vuoi elaborare i dati accumulati utilizzando una singola richiesta.
Ottenere inferenze online
Esegui il deployment di un modello in un endpoint
Devi eseguire il deployment di un modello su un endpoint prima di poterlo utilizzare per fornire inferenze online. Il deployment di un modello associa risorse fisiche al modello in modo che possa fornire inferenze online a bassa latenza.
Puoi eseguire il deployment di più modelli in un endpoint e di un modello in più endpoint. Per saperne di più sulle opzioni e sui casi d'uso per il deployment dei modelli, consulta Informazioni sul deployment dei modelli.
Utilizza uno dei seguenti metodi per eseguire il deployment di un modello:
Google Cloud console
Nella console Google Cloud , nella sezione Vertex AI, vai alla pagina Modelli.
Fai clic sul nome del modello di cui vuoi eseguire il deployment per aprire la pagina Descrizione modello.
Nella colonna ID versione, fai clic sull'ID della versione del modello di cui vuoi eseguire il deployment.
Fai clic su Deployment e test.
Se il modello è già stato sottoposto a deployment in uno o più endpoint, questi sono elencati nella sezione Esegui il deployment del modello.
Fai clic su Esegui il deployment su endpoint.
Per eseguire il deployment del modello in un nuovo endpoint, fai clic su
Crea nuovo endpoint e inserisci un nome per il nuovo endpoint. Per eseguire il deployment del modello su un endpoint esistente, fai clic su Aggiungi a endpoint esistente e seleziona l'endpoint Nome endpoint.Puoi aggiungere più di un modello a un endpoint e puoi aggiungere un modello a più endpoint. Scopri di più.
Se esegui il deployment su un nuovo endpoint, scegli la modalità di accesso all'endpoint:
Fai clic su Standard per rendere disponibile l'endpoint per l'inferenza tramite un'API REST.
Fai clic su Privato per l'endpoint per utilizzare una connessione privata.
Se esegui il deployment in un endpoint esistente a cui sono stati sottoposti a deployment uno o più modelli, aggiorna la percentuale di Suddivisione del traffico per il modello di cui stai eseguendo il deployment e per i modelli già sottoposti a deployment in modo che le percentuali sommate diano 100%.
Seleziona AutoML Image e configura come segue:
Se stai eseguendo il deployment del modello in un nuovo endpoint, accetta 100 per la suddivisione del traffico. In caso contrario, modifica i valori di suddivisione del traffico per tutti i modelli nell'endpoint in modo che la somma sia pari a 100.
Inserisci il numero di nodi di calcolo che vuoi fornire per il tuo modello.
Si tratta del numero di nodi disponibili per questo modello in qualsiasi momento. Ti vengono addebitati i costi per i nodi, anche senza traffico di inferenza. Consulta la pagina dei prezzi.
Scopri come modificare le impostazioni predefinite per la registrazione delle inferenze.
Solo modelli di classificazione (facoltativo): nella sezione Opzioni di spiegabilità, seleziona Vertex Explainable AI. Accetta le impostazioni di visualizzazione esistenti o scegli nuovi valori e fai clic su Fine.
Attiva attribuzioni delle caratteristiche per questo modello per attivareIl deployment di modelli di classificazione di immagini AutoML con Vertex Explainable AI configurato ed esecuzione di inferenze con spiegazioni è facoltativo. L'attivazione di Vertex Explainable AI al momento del deployment comporta costi aggiuntivi in base al numero di nodi di cui è stato eseguito il deployment e al tempo di deployment. Per ulteriori informazioni, consulta la sezione Prezzi.
Fai clic su Fine per il modello e, quando tutte le percentuali di Suddivisione del traffico sono corrette, fai clic su Continua.
Viene visualizzata la regione in cui viene eseguito il deployment del modello. Deve essere la regione in cui hai creato il modello.
Fai clic su Esegui il deployment per eseguire il deployment del modello sull'endpoint.
API
Quando esegui il deployment di un modello utilizzando l'API Vertex AI, completi i seguenti passaggi:
- Crea un endpoint, se necessario.
- Recupera l'ID endpoint.
- Esegui il deployment del modello sull'endpoint.
Creazione di un endpoint
Se esegui il deployment di un modello in un endpoint esistente, puoi saltare questo passaggio.
gcloud
L'esempio seguente utilizza il comando gcloud ai endpoints create
:
gcloud ai endpoints create \
--region=LOCATION \
--display-name=ENDPOINT_NAME
Sostituisci quanto segue:
- LOCATION_ID: la regione in cui utilizzi Vertex AI.
- ENDPOINT_NAME: Il nome visualizzato per l'endpoint.
La creazione dell'endpoint potrebbe richiedere alcuni secondi.
REST
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
- LOCATION_ID: La tua regione.
- PROJECT_ID: il tuo ID progetto
- ENDPOINT_NAME: Il nome visualizzato per l'endpoint.
Metodo HTTP e URL:
POST https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints
Corpo JSON della richiesta:
{ "display_name": "ENDPOINT_NAME" }
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION_ID/endpoints/ENDPOINT_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateEndpointOperationMetadata", "genericMetadata": { "createTime": "2020-11-05T17:45:42.812656Z", "updateTime": "2020-11-05T17:45:42.812656Z" } } }
"done": true
.
Java
Prima di provare questo esempio, segui le istruzioni di configurazione di Java nella guida rapida di Vertex AI per l'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Vertex AI Java.
Per autenticarti in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Prima di provare questo esempio, segui le istruzioni di configurazione di Node.js nella guida rapida di Vertex AI per l'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Vertex AI Node.js.
Per autenticarti in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI Python, consulta Installare l'SDK Vertex AI Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.
Recupera l'ID endpoint
Per eseguire il deployment del modello, devi disporre dell'ID endpoint.
gcloud
L'esempio seguente utilizza il comando gcloud ai endpoints list
:
gcloud ai endpoints list \
--region=LOCATION \
--filter=display_name=ENDPOINT_NAME
Sostituisci quanto segue:
- LOCATION_ID: la regione in cui utilizzi Vertex AI.
- ENDPOINT_NAME: Il nome visualizzato per l'endpoint.
Prendi nota del numero visualizzato nella colonna ENDPOINT_ID
. Utilizza questo ID nel
passaggio successivo.
REST
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
- LOCATION_ID: la regione in cui utilizzi Vertex AI.
- PROJECT_ID: il tuo ID progetto
- ENDPOINT_NAME: Il nome visualizzato per l'endpoint.
Metodo HTTP e URL:
GET https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints?filter=display_name=ENDPOINT_NAME
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "endpoints": [ { "name": "projects/PROJECT_NUMBER/locations/LOCATION_ID/endpoints/ENDPOINT_ID", "displayName": "ENDPOINT_NAME", "etag": "AMEw9yPz5pf4PwBHbRWOGh0PcAxUdjbdX2Jm3QO_amguy3DbZGP5Oi_YUKRywIE-BtLx", "createTime": "2020-04-17T18:31:11.585169Z", "updateTime": "2020-04-17T18:35:08.568959Z" } ] }
Esegui il deployment del modello
Seleziona la scheda di seguito per la tua lingua o il tuo ambiente:
gcloud
I seguenti esempi utilizzano il comando gcloud ai endpoints deploy-model
.
L'esempio seguente esegue il deployment di un Model
in un Endpoint
senza dividere
il traffico tra più risorse DeployedModel
:
Prima di utilizzare i dati dei comandi riportati di seguito, apporta le seguenti sostituzioni:
- ENDPOINT_ID: l'ID dell'endpoint.
- LOCATION_ID: la regione in cui utilizzi Vertex AI.
- MODEL_ID: l'ID del modello da implementare.
-
DEPLOYED_MODEL_NAME: un nome per
DeployedModel
. Puoi utilizzare il nome visualizzato diModel
anche perDeployedModel
. - MIN_REPLICA_COUNT: Il numero minimo di nodi per questo deployment. Il conteggio di nodi può essere aumentato o diminuito in base al carico di inferenza, fino al numero massimo di nodi e mai al di sotto di questo numero di nodi.
-
MAX_REPLICA_COUNT: il numero massimo di nodi per questo deployment.
Il conteggio di nodi può essere aumentato o diminuito in base al carico di inferenza,
fino a questo numero di nodi e mai al di sotto del numero minimo di nodi.
Se ometti il flag
--max-replica-count
, il numero massimo di nodi viene impostato sul valore di--min-replica-count
.
Esegui il comando gcloud ai endpoints deploy-model:
Linux, macOS o Cloud Shell
gcloud ai endpoints deploy-model ENDPOINT_ID\ --region=LOCATION_ID \ --model=MODEL_ID \ --display-name=DEPLOYED_MODEL_NAME \ --min-replica-count=MIN_REPLICA_COUNT \ --max-replica-count=MAX_REPLICA_COUNT \ --traffic-split=0=100
Windows (PowerShell)
gcloud ai endpoints deploy-model ENDPOINT_ID` --region=LOCATION_ID ` --model=MODEL_ID ` --display-name=DEPLOYED_MODEL_NAME ` --min-replica-count=MIN_REPLICA_COUNT ` --max-replica-count=MAX_REPLICA_COUNT ` --traffic-split=0=100
Windows (cmd.exe)
gcloud ai endpoints deploy-model ENDPOINT_ID^ --region=LOCATION_ID ^ --model=MODEL_ID ^ --display-name=DEPLOYED_MODEL_NAME ^ --min-replica-count=MIN_REPLICA_COUNT ^ --max-replica-count=MAX_REPLICA_COUNT ^ --traffic-split=0=100
Suddivisione del traffico
Il flag --traffic-split=0=100
negli esempi precedenti invia il 100% del traffico di previsione
che Endpoint
riceve al nuovo DeployedModel
, che è
rappresentato dall'ID temporaneo 0
. Se il tuo Endpoint
ha già altre risorse DeployedModel
, puoi dividere il traffico tra le nuove DeployedModel
e quelle precedenti.
Ad esempio, per inviare il 20% del traffico al nuovo DeployedModel
e l'80% a uno precedente,
esegui questo comando.
Prima di utilizzare i dati dei comandi riportati di seguito, apporta le seguenti sostituzioni:
- OLD_DEPLOYED_MODEL_ID: l'ID dell'
DeployedModel
esistente.
Esegui il comando gcloud ai endpoints deploy-model:
Linux, macOS o Cloud Shell
gcloud ai endpoints deploy-model ENDPOINT_ID\ --region=LOCATION_ID \ --model=MODEL_ID \ --display-name=DEPLOYED_MODEL_NAME \ --min-replica-count=MIN_REPLICA_COUNT \ --max-replica-count=MAX_REPLICA_COUNT \ --traffic-split=0=20,OLD_DEPLOYED_MODEL_ID=80
Windows (PowerShell)
gcloud ai endpoints deploy-model ENDPOINT_ID` --region=LOCATION_ID ` --model=MODEL_ID ` --display-name=DEPLOYED_MODEL_NAME \ --min-replica-count=MIN_REPLICA_COUNT ` --max-replica-count=MAX_REPLICA_COUNT ` --traffic-split=0=20,OLD_DEPLOYED_MODEL_ID=80
Windows (cmd.exe)
gcloud ai endpoints deploy-model ENDPOINT_ID^ --region=LOCATION_ID ^ --model=MODEL_ID ^ --display-name=DEPLOYED_MODEL_NAME \ --min-replica-count=MIN_REPLICA_COUNT ^ --max-replica-count=MAX_REPLICA_COUNT ^ --traffic-split=0=20,OLD_DEPLOYED_MODEL_ID=80
REST
Esegui il deployment del modello.
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
- LOCATION_ID: la regione in cui utilizzi Vertex AI.
- PROJECT_ID: il tuo ID progetto
- ENDPOINT_ID: l'ID dell'endpoint.
- MODEL_ID: l'ID del modello da implementare.
-
DEPLOYED_MODEL_NAME: un nome per
DeployedModel
. Puoi utilizzare il nome visualizzato diModel
anche perDeployedModel
. - MIN_REPLICA_COUNT: Il numero minimo di nodi per questo deployment. Il conteggio di nodi può essere aumentato o diminuito in base al carico di inferenza, fino al numero massimo di nodi e mai al di sotto di questo numero di nodi.
- MAX_REPLICA_COUNT: il numero massimo di nodi per questo deployment. Il conteggio di nodi può essere aumentato o diminuito in base al carico di inferenza, fino a questo numero di nodi e mai al di sotto del numero minimo di nodi.
- TRAFFIC_SPLIT_THIS_MODEL: la percentuale di traffico di previsione verso questo endpoint da indirizzare al modello di cui viene eseguito il deployment con questa operazione. Il valore predefinito è 100. La somma di tutte le percentuali di traffico deve essere pari a 100. Scopri di più sulle suddivisioni del traffico.
- DEPLOYED_MODEL_ID_N: (Facoltativo). Se su questo endpoint sono stati implementati altri modelli, devi aggiornare le percentuali di suddivisione del traffico in modo che la somma di tutte le percentuali sia pari a 100.
- TRAFFIC_SPLIT_MODEL_N: Il valore della percentuale di suddivisione del traffico per la chiave dell'ID modello di cui è stato eseguito il deployment.
- PROJECT_NUMBER: Il numero di progetto generato automaticamente per il tuo progetto
Metodo HTTP e URL:
POST https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID:deployModel
Corpo JSON della richiesta:
{ "deployedModel": { "model": "projects/PROJECT_ID/locations/LOCATION_ID/models/MODEL_ID", "displayName": "DEPLOYED_MODEL_NAME", "automaticResources": { "minReplicaCount": MIN_REPLICA_COUNT, "maxReplicaCount": MAX_REPLICA_COUNT } }, "trafficSplit": { "0": TRAFFIC_SPLIT_THIS_MODEL, "DEPLOYED_MODEL_ID_1": TRAFFIC_SPLIT_MODEL_1, "DEPLOYED_MODEL_ID_2": TRAFFIC_SPLIT_MODEL_2 }, }
Per inviare la richiesta, espandi una di queste opzioni:
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/PROJECT_ID/locations/LOCATION_ID/endpoints/ENDPOINT_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployModelOperationMetadata", "genericMetadata": { "createTime": "2020-10-19T17:53:16.502088Z", "updateTime": "2020-10-19T17:53:16.502088Z" } } }
Java
Prima di provare questo esempio, segui le istruzioni di configurazione di Java nella guida rapida di Vertex AI per l'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Vertex AI Java.
Per autenticarti in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Prima di provare questo esempio, segui le istruzioni di configurazione di Node.js nella guida rapida di Vertex AI per l'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Vertex AI Node.js.
Per autenticarti in Vertex AI, configura le Credenziali predefinite dell'applicazione. Per ulteriori informazioni, consulta Configura l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI Python, consulta Installare l'SDK Vertex AI Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.
Scopri come modificare le impostazioni predefinite per la registrazione delle inferenze.
Recupero dello stato dell'operazione
Alcune richieste avviano operazioni a lunga esecuzione che richiedono tempo per essere completate. Queste richieste restituiscono un nome dell'operazione, che puoi utilizzare per visualizzare lo stato o annullare l'operazione. Vertex AI fornisce metodi helper per effettuare chiamate alle operazioni di lunga durata. Per ulteriori informazioni, consulta Utilizzo di operazioni a lunga esecuzione.
Esegui un'inferenza online utilizzando il modello di cui hai eseguito il deployment
Per eseguire un'inferenza online, invia uno o più elementi di test a un modello per l'analisi e il modello restituisce risultati basati sull'obiettivo del modello. Per saperne di più sui risultati dell'inferenza, consulta la pagina Interpretare i risultati.
Console
Utilizza la console Google Cloud per richiedere un'inferenza online. Il modello deve essere sottoposto a deployment in un endpoint.
Nella console Google Cloud , nella sezione Vertex AI, vai alla pagina Modelli.
Nell'elenco dei modelli, fai clic sul nome del modello da cui richiedere le inferenze.
Seleziona la scheda Deployment e test.
Nella sezione Testa il tuo modello, aggiungi elementi di test per richiedere un'inferenza.
I modelli AutoML per gli obiettivi delle immagini richiedono il caricamento di un'immagine per richiedere un'inferenza.
Per informazioni sull'importanza delle funzionalità locali, vedi Ottenere spiegazioni.
Al termine dell'inferenza, Vertex AI restituisce i risultati nella console.
API
Utilizza l'API Vertex AI per richiedere un'inferenza online. Il modello deve essere sottoposto a deployment in un endpoint.
Ottenere inferenze batch
Per effettuare una richiesta di inferenza batch, specifica un'origine di input e un formato di output in cui Vertex AI memorizza i risultati dell'inferenza. Le inferenze batch per un modello di immagine AutoML richiedono un file di input JSON Lines e il nome di un bucket Cloud Storage in cui archiviare l'output.
Requisiti dei dati di input
L'input per le richieste batch specifica gli elementi da inviare al modello per l'inferenza. Per i modelli di classificazione delle immagini, puoi utilizzare un file JSON Lines per specificare un elenco di immagini su cui fare inferenze e poi archiviare il file JSON Lines in un bucket Cloud Storage. L'esempio seguente mostra una singola riga in un file JSON Lines di input:
{"content": "gs://sourcebucket/datasets/images/source_image.jpg", "mimeType": "image/jpeg"}
Richiedere un'inferenza batch
Per le richieste di inferenza batch, puoi utilizzare la console Google Cloud o l'API Vertex AI. A seconda del numero di elementi di input che hai inviato, il completamento di un'attività di inferenza batch può richiedere un po' di tempo.
Google Cloud console
Utilizza la console Google Cloud per richiedere un'inferenza batch.
Nella console Google Cloud , nella sezione Vertex AI, vai alla pagina Batch predictions.
Fai clic su Crea per aprire la finestra Nuova previsione batch e completa i seguenti passaggi:
- Inserisci un nome per l'inferenza batch.
- Per Nome modello, seleziona il nome del modello da utilizzare per questa inferenza batch.
- Per Percorso origine, specifica la posizione di Cloud Storage in cui si trova il file di input JSON Lines.
- Per il Percorso di destinazione, specifica una posizione Cloud Storage in cui sono archiviati i risultati dell'inferenza batch. Il formato dell'output è determinato dall'obiettivo del modello. I modelli AutoML per gli obiettivi delle immagini generano file JSON Lines.
API
Utilizza l'API Vertex AI per inviare richieste di inferenza batch.
REST
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
- LOCATION_ID: la regione in cui viene archiviato il modello ed eseguito il job di inferenza batch. Ad esempio,
us-central1
. - PROJECT_ID: il tuo ID progetto
- BATCH_JOB_NAME: Nome visualizzato per il job batch
- MODEL_ID: L'ID del modello da utilizzare per fare inferenze
- THRESHOLD_VALUE (facoltativo): Vertex AI restituisce solo
inferenze con punteggi di confidenza pari almeno a questo valore. Il valore
predefinito è
0.0
. - MAX_PREDICTIONS (facoltativo): Vertex AI restituisce fino a questo
numero di inferenze a partire da quelle con i punteggi di confidenza più elevati. Il valore predefinito è
10
. - URI: URI Cloud Storage in cui si trova il file JSON Lines di input.
- BUCKET: il tuo bucket Cloud Storage
- PROJECT_NUMBER: Il numero di progetto generato automaticamente per il tuo progetto
Metodo HTTP e URL:
POST https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/batchPredictionJobs
Corpo JSON della richiesta:
{ "displayName": "BATCH_JOB_NAME", "model": "projects/PROJECT/locations/LOCATION/models/MODEL_ID", "modelParameters": { "confidenceThreshold": THRESHOLD_VALUE, "maxPredictions": MAX_PREDICTIONS }, "inputConfig": { "instancesFormat": "jsonl", "gcsSource": { "uris": ["URI"], }, }, "outputConfig": { "predictionsFormat": "jsonl", "gcsDestination": { "outputUriPrefix": "OUTPUT_BUCKET", }, }, }
Per inviare la richiesta, scegli una di queste opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/batchPredictionJobs"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/batchPredictionJobs" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION_ID/batchPredictionJobs/BATCH_JOB_ID", "displayName": "BATCH_JOB_NAME", "model": "projects/PROJECT_ID/locations/LOCATION_ID/models/MODEL_ID", "inputConfig": { "instancesFormat": "jsonl", "gcsSource": { "uris": [ "CONTENT" ] } }, "outputConfig": { "predictionsFormat": "jsonl", "gcsDestination": { "outputUriPrefix": "BUCKET" } }, "state": "JOB_STATE_PENDING", "createTime": "2020-05-30T02:58:44.341643Z", "updateTime": "2020-05-30T02:58:44.341643Z", "modelDisplayName": "MODEL_NAME", "modelObjective": "MODEL_OBJECTIVE" }
Puoi eseguire il polling dello stato del job batch utilizzando
BATCH_JOB_ID finché il job state
non è
JOB_STATE_SUCCEEDED
.
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI Python, consulta Installare l'SDK Vertex AI Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.
Recuperare i risultati dell'inferenza batch
Vertex AI invia l'output dell'inferenza batch alla destinazione specificata.
Al termine di un'attività di inferenza batch, l'output dell'inferenza viene archiviato nel bucket Cloud Storage specificato nella richiesta.
Esempio di risultati dell'inferenza batch
Di seguito sono riportati i risultati di un esempio di inferenza batch da un modello di classificazione delle immagini.
{ "instance": {"content": "gs://bucket/image.jpg", "mimeType": "image/jpeg"}, "prediction": { "ids": [1, 2], "displayNames": ["cat", "dog"], "confidences": [0.7, 0.5] } }