imagetext è il nome del modello che supporta le didascalie delle immagini. imagetext
genera una didascalia da un'immagine che fornisci in base alla lingua che
specifichi. Il modello supporta le seguenti lingue: inglese (en), tedesco
(de), francese (fr), spagnolo (es) e italiano (it).
Per esplorare questo modello nella console, consulta la scheda del modello Image Captioning in
Model Garden.
Visualizza la scheda del modello Imagen per la generazione di didascalie e VQA
Casi d'uso
Alcuni casi d'uso comuni per le didascalie delle immagini includono:
- I creator possono generare didascalie per le immagini e i video caricati (ad esempio, una breve descrizione di una sequenza video).
- Generare didascalie per descrivere i prodotti
- Integrare i sottotitoli codificati con un'app utilizzando l'API per creare nuove esperienze
Richiesta HTTP
POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict
Corpo della richiesta
{
"instances": [
{
"image": {
// Union field can be only one of the following:
"bytesBase64Encoded": string,
"gcsUri": string,
// End of list of possible types for union field.
"mimeType": string
}
}
],
"parameters": {
"sampleCount": integer,
"storageUri": string,
"language": string,
"seed": integer
}
}
Utilizza i seguenti parametri per il modello Imagen imagetext.
Per saperne di più, consulta
Ottenere le descrizioni delle immagini usando le didascalie visive.
| Parametro | Descrizione | Valori accettabili |
|---|---|---|
instances |
Un array che contiene l'oggetto con i dettagli dell'immagine su cui ottenere informazioni. | array (è consentito un solo oggetto immagine) |
bytesBase64Encoded |
L'immagine a cui aggiungere una didascalia. | Stringa dell'immagine con codifica base64 (PNG o JPEG, massimo 20 MB) |
gcsUri |
L'URI Cloud Storage dell'immagine a cui aggiungere i sottotitoli codificati. | URI stringa del file immagine in Cloud Storage (PNG o JPEG, massimo 20 MB) |
mimeType |
Facoltativo. Il tipo MIME dell'immagine che specifichi. | stringa (image/jpeg o image/png) |
sampleCount |
Numero di stringhe di testo generate. | Valore int: 1-3 |
seed |
Facoltativo. Il seed per il generatore di numeri casuali (RNG). Se il seed RNG è lo stesso per le richieste con gli input, i risultati della previsione saranno gli stessi. | integer |
storageUri |
Facoltativo. La posizione Cloud Storage in cui salvare le risposte di testo generate. | string |
language |
Facoltativo. Il prompt di testo per guidare la risposta. | stringa: en (impostazione predefinita), de, fr, it, es |
Richiesta di esempio
REST
Per testare un prompt di testo utilizzando l'API Vertex AI, invia una richiesta POST all'endpoint del modello del publisher.
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
- PROJECT_ID: il tuo Google Cloud ID progetto.
- LOCATION: la regione del progetto. Ad esempio,
us-central1,europe-west2oasia-northeast3. Per un elenco delle regioni disponibili, consulta Località dell'AI generativa su Vertex AI. - B64_IMAGE: L'immagine per cui ottenere i sottotitoli codificati. L'immagine deve essere specificata come stringa di byte con codifica base64. Dimensioni massime: 10 MB.
- RESPONSE_COUNT: Il numero di didascalie delle immagini che vuoi generare. Valori interi accettati: 1-3.
- LANGUAGE_CODE: uno dei codici lingua supportati. Lingue supportate:
- Inglese (
en) - Francese (
fr) - Tedesco (
de) - Italiano (
it) - Spagnolo (
es)
- Inglese (
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict
Corpo JSON della richiesta:
{
"instances": [
{
"image": {
"bytesBase64Encoded": "B64_IMAGE"
}
}
],
"parameters": {
"sampleCount": RESPONSE_COUNT,
"language": "LANGUAGE_CODE"
}
}
Per inviare la richiesta, scegli una di queste opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json,
ed esegui questo comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"
PowerShell
Salva il corpo della richiesta in un file denominato request.json,
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content
"sampleCount": 2. La risposta restituisce due stringhe di previsione.
Inglese (en):
{
"predictions": [
"a yellow mug with a sheep on it sits next to a slice of cake",
"a cup of coffee with a heart shaped latte art next to a slice of cake"
],
"deployedModelId": "DEPLOYED_MODEL_ID",
"model": "projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID",
"modelDisplayName": "MODEL_DISPLAYNAME",
"modelVersionId": "1"
}Spagnolo (es):
{
"predictions": [
"una taza de café junto a un plato de pastel de chocolate",
"una taza de café con una forma de corazón en la espuma"
]
}
Corpo della risposta
{
"predictions": [ string ]
}
| Elemento di risposta | Descrizione |
|---|---|
predictions |
Elenco di stringhe di testo che rappresentano i sottotitoli codificati, ordinate in base alla confidenza. |
Esempio di risposta
{
"predictions": [
"text1",
"text2"
]
}