Questa pagina è stata tradotta dall'API Cloud Translation.

Didascalie delle immagini

Attenzione: a partire dal 24 giugno 2025, le versioni 1 e 2 di Imagen sono deprecate. I modelli Imagen imagegeneration@002, imagegeneration@005 e imagegeneration@006 verranno rimossi il 24 settembre 2025 . Per saperne di più sulla migrazione a Imagen 3, consulta la pagina Eseguire la migrazione a Imagen 3.

imagetext è il nome del modello che supporta le didascalie delle immagini. imagetext genera una didascalia da un'immagine che fornisci in base alla lingua che specifichi. Il modello supporta le seguenti lingue: inglese (en), tedesco (de), francese (fr), spagnolo (es) e italiano (it).

Per esplorare questo modello nella console, consulta la scheda del modello Image Captioning in Model Garden.

Visualizza la scheda del modello Imagen per la generazione di didascalie e VQA

Casi d'uso

Alcuni casi d'uso comuni per le didascalie delle immagini includono:

I creator possono generare didascalie per le immagini e i video caricati (ad esempio, una breve descrizione di una sequenza video).
Generare didascalie per descrivere i prodotti
Integrare i sottotitoli codificati con un'app utilizzando l'API per creare nuove esperienze

Richiesta HTTP

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict

Corpo della richiesta

{
  "instances": [
    {
      "image": {
        // Union field can be only one of the following:
        "bytesBase64Encoded": string,
        "gcsUri": string,
        // End of list of possible types for union field.
        "mimeType": string
      }
    }
  ],
  "parameters": {
    "sampleCount": integer,
    "storageUri": string,
    "language": string,
    "seed": integer
  }
}

Utilizza i seguenti parametri per il modello Imagen imagetext. Per saperne di più, consulta Ottenere le descrizioni delle immagini usando le didascalie visive.

Parametro	Descrizione	Valori accettabili
`instances`	Un array che contiene l'oggetto con i dettagli dell'immagine su cui ottenere informazioni.	array (è consentito un solo oggetto immagine)
`bytesBase64Encoded`	L'immagine a cui aggiungere una didascalia.	Stringa dell'immagine con codifica base64 (PNG o JPEG, massimo 20 MB)
`gcsUri`	L'URI Cloud Storage dell'immagine a cui aggiungere i sottotitoli codificati.	URI stringa del file immagine in Cloud Storage (PNG o JPEG, massimo 20 MB)
`mimeType`	Facoltativo. Il tipo MIME dell'immagine che specifichi.	stringa (`image/jpeg` o `image/png`)
`sampleCount`	Numero di stringhe di testo generate.	Valore int: 1-3
`seed`	Facoltativo. Il seed per il generatore di numeri casuali (RNG). Se il seed RNG è lo stesso per le richieste con gli input, i risultati della previsione saranno gli stessi.	integer
`storageUri`	Facoltativo. La posizione Cloud Storage in cui salvare le risposte di testo generate.	string
`language`	Facoltativo. Il prompt di testo per guidare la risposta.	stringa: `en` (impostazione predefinita), `de`, `fr`, `it`, `es`

Richiesta di esempio

REST

Per testare un prompt di testo utilizzando l'API Vertex AI, invia una richiesta POST all'endpoint del modello del publisher.

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

PROJECT_ID: il tuo Google Cloud ID progetto.
LOCATION: la regione del progetto. Ad esempio, us-central1, europe-west2 o asia-northeast3. Per un elenco delle regioni disponibili, consulta Località dell'AI generativa su Vertex AI.
B64_IMAGE: L'immagine per cui ottenere i sottotitoli codificati. L'immagine deve essere specificata come stringa di byte con codifica base64. Dimensioni massime: 10 MB.
RESPONSE_COUNT: Il numero di didascalie delle immagini che vuoi generare. Valori interi accettati: 1-3.
LANGUAGE_CODE: uno dei codici lingua supportati. Lingue supportate:
- Inglese (en)
- Francese (fr)
- Tedesco (de)
- Italiano (it)
- Spagnolo (es)

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict

Corpo JSON della richiesta:

{
  "instances": [
    {
      "image": {
          "bytesBase64Encoded": "B64_IMAGE"
      }
    }
  ],
  "parameters": {
    "sampleCount": RESPONSE_COUNT,
    "language": "LANGUAGE_CODE"
  }
}

Per inviare la richiesta, scegli una di queste opzioni:

curl

Nota: il seguente comando presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login oppure utilizzando Cloud Shell, che consente di accedere automaticamente all'interfaccia a riga di comando gcloud. Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json, ed esegui questo comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"

PowerShell

Nota: il comando seguente presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login . Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json, ed esegui questo comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content

Le seguenti risposte di esempio si riferiscono a una richiesta con "sampleCount": 2. La risposta restituisce due stringhe di previsione.

Inglese (en):

{
  "predictions": [
    "a yellow mug with a sheep on it sits next to a slice of cake",
    "a cup of coffee with a heart shaped latte art next to a slice of cake"
  ],
  "deployedModelId": "DEPLOYED_MODEL_ID",
  "model": "projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID",
  "modelDisplayName": "MODEL_DISPLAYNAME",
  "modelVersionId": "1"
}

Spagnolo (es):

{
  "predictions": [
    "una taza de café junto a un plato de pastel de chocolate",
    "una taza de café con una forma de corazón en la espuma"
  ]
}

Corpo della risposta

{
  "predictions": [ string ]
}

Elemento di risposta	Descrizione
`predictions`	Elenco di stringhe di testo che rappresentano i sottotitoli codificati, ordinate in base alla confidenza.

Esempio di risposta

{
  "predictions": [
    "text1",
    "text2"
  ]
}