Bildunterschriften

imagetext ist der Name des Modells, das die Bilderstellung unterstützt. imagetext generiert auf Basis eines von Ihnen bereitgestellten Bilds einen Untertitel in der von Ihnen angegebenen Sprache. Das Modell unterstützt die folgenden Sprachen: Englisch en, Deutsch (de), Französisch (fr), Spanisch (es) und Italienisch (it).

Weitere Informationen zu diesem Modell finden Sie in der Console auf der Image Captioning-Modellkarte in Model Garden.

Zum Model Garden

Anwendungsfälle

Typische Anwendungsfälle für Bildunterschriften:

  • Ersteller können Untertitel für hochgeladene Bilder und Videos generieren (z. B. eine kurze Beschreibung einer Videosequenz).
  • Untertitel zur Beschreibung von Produkten generieren
  • Untertitel mithilfe der API in eine App einbinden, um neue Funktionen zu erstellen

HTTP-Anfrage

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict

Anfragetext

{
  "instances": [
    {
      "image": {
        // Union field can be only one of the following:
        "bytesBase64Encoded": string,
        "gcsUri": string,
        // End of list of possible types for union field.
        "mimeType": string
      }
    }
  ],
  "parameters": {
    "sampleCount": integer,
    "storageUri": string,
    "language": string,
    "seed": integer
  }
}

Verwenden Sie folgende Parameter für das Imagen-Modell imagetext. Weitere Informationen finden Sie unter Bildbeschreibungen mit der visuellen Untertitelung abrufen.

Parameter Beschreibung Zulässige Werte
instances Ein Array, das das Objekt mit Bilddetails enthält, zu dem Informationen abgerufen werden sollen. Array (1 Bildobjekt zulässig)
bytesBase64Encoded Das Bild, dem Text hinzugefügt werden soll Base64-codierter Bildstring (PNG oder JPEG, maximal 20 MB)
gcsUri Der Cloud Storage-URI des Bildes, für das eine Bildunterschrift hinzugefügt werden soll. String-URI der Bilddatei in Cloud Storage (PNG oder JPEG, maximal 20 MB)
mimeType Optional. Der MIME-Typ des angegebenen Bilds. String (image/jpeg oder image/png)
sampleCount Anzahl der generierten Textstrings. Ganzzahl-Wert: 1–3
seed Optional. Quelle für Zufallszahlengenerator (Random Number Generator, RNG). Wenn die RNG-Quelle für Anfragen mit den Eingaben identisch ist, sind die Vorhersageergebnisse identisch. Ganzzahl
storageUri Optional. Der Cloud Storage-Speicherort, an dem die generierten Textantworten gespeichert werden sollen. String
language Optional. Die Eingabeaufforderung für die Anleitung zur Antwort. string: en (standard), de, fr, it, es

Beispielanfrage

REST

Senden Sie zum Testen eines Text-Prompts mit der Vertex AI API eine POST-Anfrage an den Endpunkt des Publisher-Modells.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

  • PROJECT_ID: Ihre Google Cloud-Projekt-ID.
  • LOCATION: Die Region Ihres Projekts. Beispiel: us-central1, europe-west2 oder asia-northeast3. Eine Liste der verfügbaren Regionen finden Sie unter Generative AI an Vertex AI-Standorten.
  • B64_IMAGE: Das Bild, dem Text hinzugefügt werden soll. Das Bild muss als base64-codierter Bytestring angegeben werden. Größenbeschränkung: 10 MB.
  • RESPONSE_COUNT: Die Anzahl der Bilduntitel, die Sie generieren möchten. Zulässige Ganzzahlwerte: 1–3.
  • LANGUAGE_CODE: Einer der unterstützten Sprachcodes. Unterstützte Sprachen:
    • Englisch (en)
    • Französisch (fr)
    • Deutsch (de)
    • Italienisch (it)
    • Spanisch (es)

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict

JSON-Text der Anfrage:

{
  "instances": [
    {
      "image": {
          "bytesBase64Encoded": "B64_IMAGE"
      }
    }
  ],
  "parameters": {
    "sampleCount": RESPONSE_COUNT,
    "language": "LANGUAGE_CODE"
  }
}

Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:

curl

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"

PowerShell

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content
Die folgenden Beispielantworten beziehen sich auf eine Anfrage mit "sampleCount": 2. Die Antwort gibt zwei Vorhersagestrings zurück.

Englisch (en):

{
  "predictions": [
    "a yellow mug with a sheep on it sits next to a slice of cake",
    "a cup of coffee with a heart shaped latte art next to a slice of cake"
  ],
  "deployedModelId": "DEPLOYED_MODEL_ID",
  "model": "projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID",
  "modelDisplayName": "MODEL_DISPLAYNAME",
  "modelVersionId": "1"
}

Spanish (es):

{
  "predictions": [
    "una taza de café junto a un plato de pastel de chocolate",
    "una taza de café con una forma de corazón en la espuma"
  ]
}

Antworttext

{
  "predictions": [ string ]
}
Antwortelement Beschreibung
predictions Liste von Textstrings, die Untertitel darstellen, sortiert nach Konfidenz.

Beispielantwort

{
  "predictions": [
    "text1",
    "text2"
  ]
}