Légendes d'images

imagetext est le nom du modèle compatible avec le sous-titrage d'images. imagetext génère une légende à partir d'une image que vous fournissez en fonction de la langue que vous spécifiez. Le modèle est compatible avec les langues suivantes : allemand (de), anglais (en), espagnol (es), français (fr) et italien (it).

Pour explorer ce modèle dans la console, consultez la fiche de modèle Image Captioning dans Model Garden.

Afficher la fiche de modèle Imagen pour la création de légendes et VQA

Cas d'utilisation

Voici quelques cas d'utilisation courants de la création de légendes pour des images :

  • Les créateurs peuvent générer des légendes pour les images et les vidéos importées (par exemple, une brève description d'une séquence vidéo).
  • Générer des légendes pour décrire des produits
  • Intégrer les légendes à une application à l'aide de l'API pour créer de nouvelles expériences

Requête HTTP

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict

Corps de la requête

{
  "instances": [
    {
      "image": {
        // Union field can be only one of the following:
        "bytesBase64Encoded": string,
        "gcsUri": string,
        // End of list of possible types for union field.
        "mimeType": string
      }
    }
  ],
  "parameters": {
    "sampleCount": integer,
    "storageUri": string,
    "language": string,
    "seed": integer
  }
}

Utilisez les paramètres suivants pour le modèle Imagen imagetext. Pour en savoir plus, consultez la page Obtenir des descriptions d'images grâce à Visual Captioning.

Paramètre Description Valeurs acceptables
instances Tableau contenant l'objet avec les détails de l'image pour obtenir des informations. Tableau (1 objet autorisé par image)
bytesBase64Encoded L'image pour laquelle vous souhaitez obtenir une légende. Chaîne d'image encodée en base64 (PNG ou JPEG, 20 Mo au maximum)
gcsUri URI Cloud Storage de l'image à décrire. URI de chaîne du fichier image dans Cloud Storage (PNG ou JPEG, 20 Mo au maximum)
mimeType Facultatif. Type MIME de l'image que vous spécifiez. Chaîne (image/jpeg ou image/png)
sampleCount Nombre de chaînes de texte générées. Valeur entière : 1 à 3
seed Facultatif. Valeur source du générateur de nombres aléatoires (GNA). Si la valeur source du GNA est identique pour les requêtes contenant les entrées, les résultats de prédiction seront identiques. entier
storageUri Facultatif. Emplacement Cloud Storage pour enregistrer les réponses textuelles générées. chaîne
language Facultatif. Requête textuelle pour guider la réponse. Chaîne : en (par défaut), de, fr, it, es

Exemple de requête

REST

Pour tester une requête textuelle à l'aide de l'API Vertex AI, envoyez une requête POST au point de terminaison du modèle de l'éditeur.

Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :

  • PROJECT_ID : ID de votre projet Google Cloud .
  • LOCATION : région de votre projet. Par exemple, us-central1, europe-west2 ou asia-northeast3. Pour obtenir la liste des régions disponibles, consultez la section IA générative sur les emplacements Vertex AI.
  • B64_IMAGE : image pour laquelle vous souhaitez obtenir une légende. L'image doit être spécifiée en tant que chaîne d'octets encodée en base64. Limite de taille : 10 Mo.
  • RESPONSE_COUNT : nombre de légendes d'images que vous souhaitez générer. Valeurs entières acceptées : 1 à 3.
  • LANGUAGE_CODE : l'un des codes de langue acceptés. Langues prises en charge :
    • Anglais (en)
    • Français (fr)
    • Allemand (de)
    • Italien (it)
    • Espagnol (es)

Méthode HTTP et URL :

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict

Corps JSON de la requête :

{
  "instances": [
    {
      "image": {
          "bytesBase64Encoded": "B64_IMAGE"
      }
    }
  ],
  "parameters": {
    "sampleCount": RESPONSE_COUNT,
    "language": "LANGUAGE_CODE"
  }
}

Pour envoyer votre requête, choisissez l'une des options suivantes :

curl

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"

PowerShell

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content
Les exemples de réponses suivants concernent une requête avec "sampleCount": 2. La réponse renvoie deux chaînes de prédiction.

Anglais (en) :

{
  "predictions": [
    "a yellow mug with a sheep on it sits next to a slice of cake",
    "a cup of coffee with a heart shaped latte art next to a slice of cake"
  ],
  "deployedModelId": "DEPLOYED_MODEL_ID",
  "model": "projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID",
  "modelDisplayName": "MODEL_DISPLAYNAME",
  "modelVersionId": "1"
}

Espagnol (es) :

{
  "predictions": [
    "una taza de café junto a un plato de pastel de chocolate",
    "una taza de café con una forma de corazón en la espuma"
  ]
}

Corps de la réponse

{
  "predictions": [ string ]
}
Élément de réponse Description
predictions Liste de chaînes de texte représentant les légendes, triées par confiance.

Exemple de réponse

{
  "predictions": [
    "text1",
    "text2"
  ]
}