Cette page a été traduite par l'API Cloud Translation.

Légendes d'images

Attention : Les versions 1 et 2 d'Imagen seront obsolètes à partir du 24 juin 2025. Les modèles Imagen imagegeneration@002, imagegeneration@005 et imagegeneration@006 seront supprimés le 24 septembre 2025 . Pour en savoir plus sur la migration vers Imagen 3, consultez Migrer vers Imagen 3.

imagetext est le nom du modèle compatible avec le sous-titrage d'images. imagetext génère une légende à partir d'une image que vous fournissez en fonction de la langue que vous spécifiez. Le modèle est compatible avec les langues suivantes : allemand (de), anglais (en), espagnol (es), français (fr) et italien (it).

Pour explorer ce modèle dans la console, consultez la fiche de modèle Image Captioning dans Model Garden.

Afficher la fiche de modèle Imagen pour la création de légendes et VQA

Cas d'utilisation

Voici quelques cas d'utilisation courants de la création de légendes pour des images :

Les créateurs peuvent générer des légendes pour les images et les vidéos importées (par exemple, une brève description d'une séquence vidéo).
Générer des légendes pour décrire des produits
Intégrer les légendes à une application à l'aide de l'API pour créer de nouvelles expériences

Requête HTTP

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict

Corps de la requête

{
  "instances": [
    {
      "image": {
        // Union field can be only one of the following:
        "bytesBase64Encoded": string,
        "gcsUri": string,
        // End of list of possible types for union field.
        "mimeType": string
      }
    }
  ],
  "parameters": {
    "sampleCount": integer,
    "storageUri": string,
    "language": string,
    "seed": integer
  }
}

Utilisez les paramètres suivants pour le modèle Imagen imagetext. Pour en savoir plus, consultez la page Obtenir des descriptions d'images grâce à Visual Captioning.

Paramètre	Description	Valeurs acceptables
`instances`	Tableau contenant l'objet avec les détails de l'image pour obtenir des informations.	Tableau (1 objet autorisé par image)
`bytesBase64Encoded`	L'image pour laquelle vous souhaitez obtenir une légende.	Chaîne d'image encodée en base64 (PNG ou JPEG, 20 Mo au maximum)
`gcsUri`	URI Cloud Storage de l'image à décrire.	URI de chaîne du fichier image dans Cloud Storage (PNG ou JPEG, 20 Mo au maximum)
`mimeType`	Facultatif. Type MIME de l'image que vous spécifiez.	Chaîne (`image/jpeg` ou `image/png`)
`sampleCount`	Nombre de chaînes de texte générées.	Valeur entière : 1 à 3
`seed`	Facultatif. Graine du générateur de nombres aléatoires (GNA). Si la graine du GNA est identique pour les requêtes contenant les entrées, les résultats de prédiction seront similaires.	entier
`storageUri`	Facultatif. Emplacement Cloud Storage pour enregistrer les réponses textuelles générées.	chaîne
`language`	Facultatif. Requête textuelle pour guider la réponse.	Chaîne : `en` (par défaut), `de`, `fr`, `it`, `es`

Exemple de requête

REST

Pour tester une requête textuelle à l'aide de l'API Vertex AI, envoyez une requête POST au point de terminaison du modèle de l'éditeur.

Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :

PROJECT_ID : ID de votre projet Google Cloud .
LOCATION : région de votre projet (us-central1, europe-west2 ou asia-northeast3, par exemple). Pour obtenir la liste des régions disponibles, consultez la section IA générative sur les emplacements Vertex AI.
B64_IMAGE : image pour laquelle vous souhaitez obtenir une légende. L'image doit être spécifiée en tant que chaîne d'octets encodés en base64. Limite de taille : 10 Mo.
RESPONSE_COUNT : nombre de légendes d'image que vous souhaitez générer. Valeurs entières acceptées : 1 à 3.
LANGUAGE_CODE : l'un des codes de langue acceptés. Langues compatibles :
- Anglais (en)
- Français (fr)
- Allemand (de)
- Italien (it)
- Espagnol (es)

Méthode HTTP et URL :

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict

Corps JSON de la requête :

{
  "instances": [
    {
      "image": {
          "bytesBase64Encoded": "B64_IMAGE"
      }
    }
  ],
  "parameters": {
    "sampleCount": RESPONSE_COUNT,
    "language": "LANGUAGE_CODE"
  }
}

Pour envoyer votre requête, choisissez l'une des options suivantes :

curl

Remarque : Pour la commande suivante, nous partons du principe que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login, ou en utilisant Cloud Shell, qui vous connecte automatiquement à la CLI gcloud. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"

PowerShell

Remarque : Pour la commande suivante, nous partons du principe que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content

Les exemples de réponses suivants concernent une requête avec "sampleCount": 2. La réponse renvoie deux chaînes de prédiction.

Anglais (en) :

{
  "predictions": [
    "a yellow mug with a sheep on it sits next to a slice of cake",
    "a cup of coffee with a heart shaped latte art next to a slice of cake"
  ],
  "deployedModelId": "DEPLOYED_MODEL_ID",
  "model": "projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID",
  "modelDisplayName": "MODEL_DISPLAYNAME",
  "modelVersionId": "1"
}

Espagnol (es) :

{
  "predictions": [
    "una taza de café junto a un plato de pastel de chocolate",
    "una taza de café con una forma de corazón en la espuma"
  ]
}

Corps de la réponse

{
  "predictions": [ string ]
}

Élément de réponse	Description
`predictions`	Liste de chaînes de texte représentant les légendes, triées par confiance.

Exemple de réponse

{
  "predictions": [
    "text1",
    "text2"
  ]
}