Diese Seite wurde von der Cloud Translation API übersetzt.

Bildunterschriften

Achtung:Ab dem 24. Juni 2025 werden Imagen-Version 1 und 2 eingestellt. Die Imagen-Modelle imagegeneration@002, imagegeneration@005 und imagegeneration@006 werden am 24. September 2025 entfernt. Weitere Informationen zur Migration zu Imagen 3 finden Sie unter Zu Imagen 3 migrieren.

imagetext ist der Name des Modells, das die Bilderstellung unterstützt. imagetext generiert auf Basis eines von Ihnen bereitgestellten Bilds einen Untertitel in der von Ihnen angegebenen Sprache. Das Modell unterstützt die folgenden Sprachen: Englisch en, Deutsch (de), Französisch (fr), Spanisch (es) und Italienisch (it).

Weitere Informationen zu diesem Modell finden Sie in der Console auf der Image Captioning-Modellkarte in Model Garden.

Modellkarte für Imagen for Captioning & VQA ansehen

Anwendungsfälle

Hier einige häufige Anwendungsfälle für die Bildunterschrift:

Ersteller können Untertitel für hochgeladene Bilder und Videos generieren (z. B. eine kurze Beschreibung einer Videosequenz).
Untertitel zur Beschreibung von Produkten generieren
Untertitelung mithilfe der API in eine App einbinden, um neue Funktionen zu schaffen

HTTP-Anfrage

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/imagetext:predict

Anfragetext

{
  "instances": [
    {
      "image": {
        // Union field can be only one of the following:
        "bytesBase64Encoded": string,
        "gcsUri": string,
        // End of list of possible types for union field.
        "mimeType": string
      }
    }
  ],
  "parameters": {
    "sampleCount": integer,
    "storageUri": string,
    "language": string,
    "seed": integer
  }
}

Verwenden Sie folgende Parameter für das Imagen-Modell imagetext. Weitere Informationen

Parameter	Beschreibung	Zulässige Werte
`instances`	Ein Array, das das Objekt mit Bilddetails enthält, zu dem Informationen abgerufen werden sollen.	Array (1 Bildobjekt zulässig)
`bytesBase64Encoded`	Das Bild, dem Text hinzugefügt werden soll	Base64-codierter Bildstring (PNG oder JPEG, maximal 20 MB)
`gcsUri`	Der Cloud Storage-URI des Bildes, für das eine Bildunterschrift erstellt werden soll.	String-URI der Bilddatei in Cloud Storage (PNG oder JPEG, maximal 20 MB)
`mimeType`	Optional. Der MIME-Typ des angegebenen Bilds.	String (`image/jpeg` oder `image/png`)
`sampleCount`	Anzahl der generierten Textstrings.	Ganzzahl-Wert: 1–3
`seed`	Optional. Quelle für Zufallszahlengenerator (Random Number Generator, RNG). Wenn die RNG-Quelle für Anfragen mit den Eingaben identisch ist, sind die Vorhersageergebnisse identisch.	Ganzzahl
`storageUri`	Optional. Der Cloud Storage-Speicherort, an dem die generierten Textantworten gespeichert werden sollen.	String
`language`	Optional. Die Eingabeaufforderung für die Anleitung zur Antwort.	string: `en` (standard), `de`, `fr`, `it`, `es`

Beispielanfrage

REST

Senden Sie zum Testen eines Text-Prompts mit der Vertex AI API eine POST-Anfrage an den Endpunkt des Publisher-Modells.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

PROJECT_ID: Ihre Google Cloud Projekt-ID.
LOCATION: Die Region Ihres Projekts. Beispiel: us-central1, europe-west2 oder asia-northeast3. Eine Liste der verfügbaren Regionen finden Sie unter Generative AI an Vertex AI-Standorten.
B64_IMAGE: Das Bild, dem Text hinzugefügt werden soll. Das Bild muss als base64-codierter Bytestring angegeben werden. Größenbeschränkung: 10 MB.
RESPONSE_COUNT: Die Anzahl der Bilduntitel, die Sie generieren möchten. Zulässige Ganzzahlwerte: 1–3.
LANGUAGE_CODE: Einer der unterstützten Sprachcodes. Unterstützte Sprachen:
- Englisch (en)
- Französisch (fr)
- Deutsch (de)
- Italienisch (it)
- Spanisch (es)

HTTP-Methode und URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict

JSON-Text der Anfrage:

{
  "instances": [
    {
      "image": {
          "bytesBase64Encoded": "B64_IMAGE"
      }
    }
  ],
  "parameters": {
    "sampleCount": RESPONSE_COUNT,
    "language": "LANGUAGE_CODE"
  }
}

Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:

curl

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud CLI angemeldet haben. Dazu haben Sie gcloud init oder gcloud auth login ausgeführt oder die Cloud Shell genutzt, die Sie automatisch bei der gcloud CLI anmeldet. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict"

PowerShell

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud CLI angemeldet haben. Dazu führen Sie gcloud init oder gcloud auth login aus. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json und führen Sie den folgenden Befehl aus:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/imagetext:predict" | Select-Object -Expand Content

Die folgenden Beispielantworten beziehen sich auf eine Anfrage mit "sampleCount": 2. Die Antwort gibt zwei Vorhersagestrings zurück.

Englisch (en):

{
  "predictions": [
    "a yellow mug with a sheep on it sits next to a slice of cake",
    "a cup of coffee with a heart shaped latte art next to a slice of cake"
  ],
  "deployedModelId": "DEPLOYED_MODEL_ID",
  "model": "projects/PROJECT_ID/locations/LOCATION/models/MODEL_ID",
  "modelDisplayName": "MODEL_DISPLAYNAME",
  "modelVersionId": "1"
}

Spanish (es):

{
  "predictions": [
    "una taza de café junto a un plato de pastel de chocolate",
    "una taza de café con una forma de corazón en la espuma"
  ]
}

Antworttext

{
  "predictions": [ string ]
}

Antwortelement	Beschreibung
`predictions`	Liste von Textstrings, die Untertitel darstellen, sortiert nach Konfidenz.

Beispielantwort

{
  "predictions": [
    "text1",
    "text2"
  ]
}

Bildunterschriften Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Anwendungsfälle

HTTP-Anfrage

Anfragetext

Beispielanfrage

REST

curl

PowerShell

Antworttext

Beispielantwort

Bildunterschriften