Imagen per le didascalie e le domande con risposta sulle immagini (imagetext
) è il nome del modello che supporta le domande e le risposte sulle immagini. Imagen per la trascrizione codificata e la VQA risponde a una domanda fornita per una determinata immagine, anche se non è stata mai vista dal modello.
Per esplorare questo modello nella console, consulta la scheda del modello Imagen per sottotitoli codificati e VQA in Model Garden.
Casi d'uso
Ecco alcuni casi d'uso comuni per le domande e le risposte con immagini:
- Consenti agli utenti di interagire con i contenuti visivi con le sessioni di domande e risposte.
- Consenti ai clienti di interagire con le immagini prodotto mostrate su app e siti web di vendita al dettaglio.
- Fornisci opzioni di accessibilità per gli utenti con disabilità visiva.
Richiesta HTTP
POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict
Corpo della richiesta
{
"instances": [
{
"prompt": string,
"image": {
// Union field can be only one of the following:
"bytesBase64Encoded": string,
"gcsUri": string,
// End of list of possible types for union field.
"mimeType": string
}
}
],
"parameters": {
"sampleCount": integer,
"seed": integer
}
}
Utilizza i seguenti parametri per il modello di generazione di domande e risposte visive imagetext
.
Per ulteriori informazioni, consulta Utilizzare la funzionalità Visual Question Answering (VQA).
Parametro | Descrizione | Valori accettabili |
---|---|---|
instances |
Un array contenente l'oggetto con i dettagli del prompt e dell'immagine su cui ottenere informazioni. | array (è consentito un oggetto immagine) |
prompt |
La domanda a cui vuoi ricevere una risposta sulla tua immagine. | stringa (massimo 80 token) |
bytesBase64Encoded |
L'immagine di cui vuoi ricevere informazioni. | Stringa di immagine con codifica Base64 (PNG o JPEG, massimo 20 MB) |
gcsUri |
L'URI Cloud Storage dell'immagine di cui vuoi ottenere informazioni. | URI stringa del file immagine in Cloud Storage (PNG o JPEG, massimo 20 MB) |
mimeType |
Facoltativo. Il tipo MIME dell'immagine specificata. | stringa (image/jpeg o image/png ) |
sampleCount |
Numero di stringhe di testo generate. | Valore intero: 1-3 |
seed |
Facoltativo. Il seed per il generatore di numeri casuali (RNG). Se il seed RNG è lo stesso per le richieste con gli input, i risultati di previsione saranno gli stessi. | integer |
Richiesta di esempio
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
- PROJECT_ID: il tuo ID progetto Google Cloud.
- LOCATION: la regione del progetto. Ad esempio,
us-central1
,europe-west2
oasia-northeast3
. Per un elenco delle regioni disponibili, consulta Località dell'IA generativa su Vertex AI. - VQA_PROMPT: la domanda a cui vuoi ricevere una risposta in merito alla tua immagine.
- Di che colore è questa scarpa?
- Che tipo di maniche ha la camicia?
- B64_IMAGE: l'immagine per cui ottenere i sottotitoli codificati. L'immagine deve essere specificata come stringa di byte codificata in base64. Dimensioni massime: 10 MB.
- RESPONSE_COUNT: il numero di risposte che vuoi generare. Valori interi accettati: 1-3.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict
Corpo JSON della richiesta:
{ "instances": [ { "prompt": "VQA_PROMPT", "image": { "bytesBase64Encoded": "B64_IMAGE" } } ], "parameters": { "sampleCount": RESPONSE_COUNT } }
Per inviare la richiesta, scegli una delle seguenti opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content
"sampleCount": 2
e "prompt": "What is this?"
. La risposta restituisce due risposte di stringa di previsione.
{ "predictions": [ "cappuccino", "coffee" ] }
Corpo della risposta
{
"predictions": [
string
]
}
Elemento Response | Descrizione |
---|---|
predictions |
Elenco di stringhe di testo che rappresentano la risposta VQA, ordinate in base alla confidenza. |
Risposta di esempio
Le seguenti risposte di esempio sono per una richiesta con "sampleCount": 2
e
"prompt": "What is this?"
. La risposta restituisce due risposte di stringa di previsione.
{
"predictions": [
"cappuccino",
"coffee"
],
"deployedModelId": "DEPLOYED_MODEL_ID",
"model": "projects/PROJECT_ID/locations/us-central1/models/MODEL_ID",
"modelDisplayName": "MODEL_DISPLAYNAME",
"modelVersionId": "1"
}