Diese Seite wurde von der Cloud Translation API übersetzt.

Videoinhalte erkennen

Sie können Gemini-Anfragen Videos hinzufügen, um Aufgaben auszuführen, bei denen die Inhalte der enthaltenen Videos berücksichtigt werden müssen. Auf dieser Seite erfahren Sie, wie Sie mithilfe der Google Cloud Console und der Vertex AI API Ihren Anfragen an Gemini in Vertex AI Videos hinzufügen.

Unterstützte Modelle

In der folgenden Tabelle sind die Modelle aufgeführt, die Video-Understanding unterstützen:

Modell	Media-Details	MIME-Typen
Gemini 2.5 Flash-Lite	Maximale Videolänge (mit Audio): ca. 45 Minuten Maximale Videolänge (ohne Audio): ca. 1 Stunde Maximale Anzahl von Videos pro Prompt: 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Flash mit nativer Audio-Live-API	Maximale Länge der Bildschirmfreigabe: Ca. 10 Minuten	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.0 Flash mit Live API	Maximale Videolänge (mit Audio): ca. 45 Minuten Maximale Videolänge (ohne Audio): ca. 1 Stunde Maximale Anzahl von Videos pro Prompt: 10 Maximale Anzahl von Tokens pro Minute (TPM): Hohe/mittlere/Standard-Medienauflösung: USA/Asien: 37,9 Mio. EU: 9,5 M Niedrige Mediaauflösung: USA/Asien: 1. Klasse EU: 2,5 Mio.	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.0 Flash mit Bildgenerierung	Maximale Videolänge (mit Audio): ca. 45 Minuten Maximale Videolänge (ohne Audio): ca. 1 Stunde Maximale Anzahl von Videos pro Prompt: 10 Maximale Anzahl von Tokens pro Minute (TPM): Hohe/mittlere/Standard-Medienauflösung: USA/Asien: 37,9 Mio. EU: 9,5 M Niedrige Mediaauflösung: USA/Asien: 1. Klasse EU: 2,5 Mio.	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Pro	Maximale Videolänge (mit Audio): ca. 45 Minuten Maximale Videolänge (ohne Audio): ca. 1 Stunde Maximale Anzahl von Videos pro Prompt: 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.5 Flash	Maximale Videolänge (mit Audio): ca. 45 Minuten Maximale Videolänge (ohne Audio): ca. 1 Stunde Maximale Anzahl von Videos pro Prompt: 10	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.0 Flash	Maximale Videolänge (mit Audio): ca. 45 Minuten Maximale Videolänge (ohne Audio): ca. 1 Stunde Maximale Anzahl von Videos pro Prompt: 10 Maximale Anzahl von Tokens pro Minute (TPM): Hohe/mittlere/Standard-Medienauflösung: USA/Asien: 38 Mio. EU: 10 Mio. Niedrige Mediaauflösung: USA/Asien: 10 Mio. EU: 2,5 Mio.	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`
Gemini 2.0 Flash-Lite	Maximale Videolänge (mit Audio): ca. 45 Minuten Maximale Videolänge (ohne Audio): ca. 1 Stunde Maximale Anzahl von Videos pro Prompt: 10 Maximale Anzahl von Tokens pro Minute (TPM): Hohe/mittlere/Standard-Medienauflösung: USA/Asien: 6,3 Mio. EU: 3,2 Mio. Niedrige Mediaauflösung: USA/Asien: 3,2 Mio. EU: 3,2 Mio.	`video/x-flv` `video/quicktime` `video/mpeg` `video/mpegs` `video/mpg` `video/mp4` `video/webm` `video/wmv` `video/3gpp`

Der Kontingentmesswert ist generate_content_video_input_per_base_model_id_and_resolution.

Eine Liste der von Gemini-Modellen unterstützten Sprachen finden Sie in den Modellinformationen der Google-Modelle. Weitere Informationen zum Entwerfen multimodaler Prompts finden Sie unter Multimodale Prompts entwerfen. Wenn Sie nach einer Möglichkeit suchen, Gemini direkt über Ihre mobilen und Ihre Web-Apps zu verwenden, finden Sie weitere Informationen in den Firebase AI Logic-Client-SDKs für Swift-, Android-, Web-, Flutter- und Unity-Apps.

Einem Antrag Videos hinzufügen

Sie können Ihrer Anfrage an Gemini ein oder mehrere Videos hinzufügen. Die Videos können Audio enthalten.

Einzelnes Video

Der Beispielcode auf den folgenden Tabs zeigt eine andere Methode zum Erkennen der Inhalte in einem Video. Dieses Beispiel funktioniert mit allen multimodalen Gemini-Modellen.

Console

So senden Sie einen multimodalen Prompt mit der Google Cloud Console:

Rufen Sie im Bereich „Vertex AI“ der Google Cloud Console die Seite Vertex AI Studio auf.

Zu Vertex AI Studio
Klicken Sie auf Prompt erstellen.
Optional – Konfigurieren Sie Modell und Parameter:
- Modell: Wählen Sie ein Modell aus.
Optional: Klicken Sie zum Konfigurieren erweiterter Parameter auf Erweitert und konfigurieren Sie so:
Klicken Sie, um erweiterte Konfigurationen zu maximieren.
- Top-K: Sie können den Schieberegler oder das Textfeld verwenden, um einen Wert für Top-K einzugeben.
  Der Wert „Top-K“ ändert, wie das Modell Tokens für die Ausgabe auswählt. Ein „Top-K“ von 1 bedeutet, dass das nächste ausgewählte Token unter den Tokens im Modell-Vokabular (auch als gierige Decodierung bezeichnet) am wahrscheinlichsten ist, während ein „Top-K“ von 3 bedeutet, dass das nächste Token mithilfe der Temperatur aus den drei wahrscheinlichsten Tokens ausgewählt wird.
  Für jeden Tokenauswahlschritt werden die „Top-K“-Tokens mit den höchsten Wahrscheinlichkeiten abgetastet. Anschließend werden Tokens weiter auf der Grundlage von „Top-P“ gefiltert, wobei das endgültige Token mithilfe von Temperaturproben ausgewählt wird.
  
  Geben Sie einen niedrigeren Wert für weniger zufällige Antworten und einen höheren Wert für zufälligere Antworten an.
- Top-P: Verwenden Sie den Schieberegler oder das Textfeld, um einen Wert für „Top-P“ einzugeben. Tokens werden vom wahrscheinlichsten bis zum am wenigsten wahrscheinlichen Token ausgewählt, bis die Summe ihrer Wahrscheinlichkeiten dem Wert von „Top-P“ entspricht. Für die Ergebnisse der geringsten Variablen legen Sie Top-P auf 0 fest.
- Maximale Anzahl von Antworten: Verwenden Sie den Schieberegler oder das Textfeld, um einen Wert für die Anzahl der zu generierenden Antworten einzugeben.
- Streamingantworten: Wenn Sie diese Option aktivieren, werden Antworten ausgedruckt, sobald sie generiert werden.
- Schwellenwert für Sicherheitsfilter: Wählen Sie den Schwellenwert aus, mit dem Sie festlegen, wie wahrscheinlich es ist, dass Sie Antworten sehen, die möglicherweise schädlich sind.
- Fundierung aktivieren: Die Funktion „Fundierung“ wird für multimodale Prompts nicht unterstützt.
- Region: Wählen Sie die Region aus, die Sie verwenden möchten.
- Temperatur: Verwenden Sie den Schieberegler oder das Textfeld, um einen Wert für die Temperatur einzugeben.
  The temperature is used for sampling during response generation, which occurs when topP and topK are applied. Temperature controls the degree of randomness in token selection. Lower temperatures are good for prompts that require a less open-ended or creative response, while higher temperatures can lead to more diverse or creative results. A temperature of 0 means that the highest probability tokens are always selected. In this case, responses for a given prompt are mostly deterministic, but a small amount of variation is still possible. If the model returns a response that's too generic, too short, or the model gives a fallback response, try increasing the temperature. <li>**Output token limit**: Use the slider or textbox to enter a value for the max output limit. Maximum number of tokens that can be generated in the response. A token is approximately four characters. 100 tokens correspond to roughly 60-80 words. Specify a lower value for shorter responses and a higher value for potentially longer responses. <li>**Add stop sequence**: Optional. Enter a stop sequence, which is a series of characters that includes spaces. If the model encounters a stop sequence, the response generation stops. The stop sequence isn't included in the response, and you can add up to five stop sequences. </ul>
Klicken Sie auf Medien einfügen und wählen Sie eine Quelle für die Datei aus.
Hochladen
Wählen Sie die Datei aus, die Sie hochladen möchten, und klicken Sie auf Öffnen.

Über URL
Geben Sie die URL der Datei ein, die Sie verwenden möchten, und klicken Sie auf Einfügen.

YouTube

Vorschau

Diese Funktion unterliegt den Pre-GA-Angebotsbedingungen im Abschnitt mit den allgemeinen Dienstbedingungen der dienstspezifischen Nutzungsbedingungen. Pre-GA‑Funktionen stehen in der vorliegenden Form zur Verfügung und bieten möglicherweise nur eingeschränkten Support. Weitere Informationen finden Sie unter den Beschreibungen der Markteinführungsphase.

Geben Sie die URL des YouTube-Videos ein, das Sie verwenden möchten, und klicken Sie auf Einfügen.

Du kannst jedes öffentliche Video oder ein Video verwenden, das dem Konto gehört, mit dem du dich in der Google Cloud Konsole angemeldet hast.

Cloud Storage
Wählen Sie den Bucket und dann die Datei aus dem Bucket aus, die Sie importieren möchten, und klicken Sie auf Auswählen.
Google Drive
1. Wählen Sie ein Konto aus und erteilen Sie Vertex AI Studio die Einwilligung, bei der ersten Auswahl dieser Option auf Ihr Konto zuzugreifen. Sie können mehrere Dateien mit einer Gesamtgröße von bis zu 10 MB hochladen. Eine einzelne Datei darf nicht größer als 7 MB sein.
2. Klicken Sie auf die Datei, die Sie hinzufügen möchten.
3. Klicken Sie auf Auswählen.
  
  Die Miniaturansicht der Datei wird im Bereich Prompt angezeigt. Außerdem wird die Gesamtzahl der Tokens angezeigt. Wenn Ihre Prompt-Daten das Tokenlimit überschreiten, werden die Tokens abgeschnitten und nicht bei der Verarbeitung Ihrer Daten berücksichtigt.
Geben Sie Ihren Prompt in den Bereich Prompt ein.
Optional: Wenn Sie Token-ID zu Text und Token-IDs sehen möchten, klicken Sie im Bereich Prompt auf die Anzahl der Tokens.

Hinweis: Medientokens werden nicht unterstützt.
Klicken Sie auf Senden.
Optional: Klicken Sie auf Speichern, um den Prompt unter Meine Prompts zu speichern.
Optional: Klicken Sie auf Mit Code erstellen > Code abrufen, um den Python-Code oder einen curl-Befehl für den Prompt abzurufen.

Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Umgebungsvariablen für die Verwendung des Gen AI SDK mit Vertex AI festlegen:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions, Part

client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        Part.from_uri(
            file_uri="gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
            mime_type="video/mp4",
        ),
        "What is in the video?",
    ],
)
print(response.text)
# Example response:
# The video shows several people surfing in an ocean with a coastline in the background. The camera ...

Go

Informationen zum Installieren oder Aktualisieren von Go

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Umgebungsvariablen für die Verwendung des Gen AI SDK mit Vertex AI festlegen:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

import (
	"context"
	"fmt"
	"io"

	genai "google.golang.org/genai"
)

// generateWithMuteVideo shows how to generate text using a video with no sound as the input.
func generateWithMuteVideo(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{APIVersion: "v1"},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	modelName := "gemini-2.0-flash-001"
	contents := []*genai.Content{
		{Parts: []*genai.Part{
			{Text: "What is in the video?"},
			{FileData: &genai.FileData{
				FileURI:  "gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
				MIMEType: "video/mp4",
			}},
		},
			Role: "user"},
	}

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// The video shows several surfers riding waves in an ocean setting. The waves are ...

	return nil
}

REST

Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher gesendet Modellendpunkt zu erstellen.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

PROJECT_ID: Ihre Projekt-ID.
FILE_URI: Der URI oder die URL der Datei, die in den Prompt aufgenommen werden soll. Unter anderem sind folgende Werte zulässig:
- Cloud Storage-Bucket-URI:Das Objekt muss entweder öffentlich lesbar sein oder sich im selben Google Cloud Projekt befinden, von dem die Anfrage gesendet wird. Für gemini-2.0-flash und gemini-2.0-flash-lite beträgt die Größenbeschränkung 2 GB.
- HTTP-URL: Die Datei-URL muss öffentlich lesbar sein. Sie können eine Videodatei, eine Audiodatei und bis zu 10 Bilddateien pro Anfrage angeben. Audio- und Videodateien sowie Dokumente dürfen nicht größer als 15 MB sein.
- YouTube-Video-URL:Das YouTube-Video muss entweder dem Konto gehören, mit dem Sie sich in der Google Cloud Console angemeldet haben, oder öffentlich sein. Pro Anfrage wird nur eine YouTube-Video-URL unterstützt.
Wenn Sie einen fileURI angeben, müssen Sie auch den Medientyp (mimeType) der Datei angeben. Wenn VPC Service Controls aktiviert ist, wird die Angabe einer Media-Datei-URL für fileURI nicht unterstützt.

Wenn Sie keine Videodatei in Cloud Storage haben, können Sie die folgende öffentlich zugängliche Datei: gs://cloud-samples-data/video/animals.mp4 mit dem MIME-Typ video/mp4. Öffnen Sie die Beispiel-MP4-Datei, um dieses Video anzusehen.
MIME_TYPE: Der Medientyp der Datei, die in den Feldern data oder fileUri angegeben wurde. Unter anderem sind folgende Werte zulässig:
Zum Maximieren von MIME-Typen klicken
- application/pdf
- audio/mpeg
- audio/mp3
- audio/wav
- image/png
- image/jpeg
- image/webp
- text/plain
- video/mov
- video/mpeg
- video/mp4
- video/mpg
- video/avi
- video/wmv
- video/mpegps
- video/flv
TEXT: Die Textanleitung, die in den Prompt eingefügt werden soll. Beispiel:What is in the video?

Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:

curl

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud CLI angemeldet haben. Dazu haben Sie gcloud init oder gcloud auth login ausgeführt oder die Cloud Shell genutzt, die Sie automatisch bei der gcloud CLI anmeldet. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json. Führen Sie folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:

cat > request.json << 'EOF'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
EOF

Führen Sie dann folgenden Befehl aus, um Ihre REST-Anfrage zu senden:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent"

PowerShell

Hinweis: Der folgende Befehl setzt voraus, dass Sie sich mit Ihrem Nutzerkonto bei der gcloud CLI angemeldet haben. Dazu führen Sie gcloud init oder gcloud auth login aus. Um herauszufinden, welches Konto gerade aktiv ist, führen Sie gcloud auth list aus.

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json. Führen Sie folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:

@'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

Führen Sie dann folgenden Befehl aus, um Ihre REST-Anfrage zu senden:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

Antwort

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "This video is a commercial for Google Photos, featuring animals taking selfies
              with the Google Photos app. The commercial plays on the popularity of media in which
              animals act like humans, especially their use of technology. The commercial also
              highlights the app's ability to automatically back up photos."
          }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": [
        {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.053601142,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.053799648
        },
        {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.06278921,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07850098
        },
        {
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.090253234,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.058453236
        },
        {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.1647851,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.09285216
        }
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 28916,
    "candidatesTokenCount": 61,
    "totalTokenCount": 28977
  }
}

Beachten Sie Folgendes in der URL für dieses Beispiel:

Mit der Methode generateContent können Sie anfordern, dass die Antwort zurückgegeben wird, nachdem sie vollständig generiert wurde. Um die Wahrnehmung von Latenz für menschliche Zielgruppen zu verringern, streame die Antwort, während sie mithilfe der Methode streamGenerateContent erzeugt wird.
Die multimodale Modell-ID befindet sich am Ende der URL vor der Methode (z. B. gemini-2.0-flash). Dieses Beispiel unterstützt möglicherweise auch andere Modelle.

Video mit Audio

Im Folgenden wird gezeigt, wie Sie eine Videodatei mit Audio zusammenfassen und Kapitel mit Zeitstempeln zurückgeben können. Dieses Beispiel funktioniert mit Gemini 2.0.

Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Umgebungsvariablen für die Verwendung des Gen AI SDK mit Vertex AI festlegen:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions, Part

client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        Part.from_uri(
            file_uri="gs://cloud-samples-data/generative-ai/video/ad_copy_from_video.mp4",
            mime_type="video/mp4",
        ),
        "What is in the video?",
    ],
)
print(response.text)
# Example response:
# The video shows several people surfing in an ocean with a coastline in the background. The camera ...

REST

Nachdem Sie Ihre Umgebung eingerichtet haben, können Sie mit REST einen Text-Prompt testen. Im folgenden Beispiel wird eine Anfrage an den Publisher gesendet Modellendpunkt zu erstellen.

Ersetzen Sie diese Werte in den folgenden Anfragedaten:

PROJECT_ID: Ihre Projekt-ID.
FILE_URI: Der URI oder die URL der Datei, die in den Prompt aufgenommen werden soll. Unter anderem sind folgende Werte zulässig:
- Cloud Storage-Bucket-URI:Das Objekt muss entweder öffentlich lesbar sein oder sich im selben Google Cloud Projekt befinden, von dem die Anfrage gesendet wird. Für gemini-2.0-flash und gemini-2.0-flash-lite beträgt die Größenbeschränkung 2 GB.
- HTTP-URL: Die Datei-URL muss öffentlich lesbar sein. Sie können eine Videodatei, eine Audiodatei und bis zu 10 Bilddateien pro Anfrage angeben. Audio- und Videodateien sowie Dokumente dürfen nicht größer als 15 MB sein.
- YouTube-Video-URL:Das YouTube-Video muss entweder dem Konto gehören, mit dem Sie sich in der Google Cloud Console angemeldet haben, oder öffentlich sein. Pro Anfrage wird nur eine YouTube-Video-URL unterstützt.
Wenn Sie einen fileURI angeben, müssen Sie auch den Medientyp (mimeType) der Datei angeben. Wenn VPC Service Controls aktiviert ist, wird die Angabe einer Media-Datei-URL für fileURI nicht unterstützt.

Wenn Sie keine Videodatei in Cloud Storage haben, können Sie die folgende öffentlich zugängliche Datei: gs://cloud-samples-data/generative-ai/video/pixel8.mp4 mit dem MIME-Typ video/mp4. Öffnen Sie die Beispiel-MP4-Datei, um dieses Video anzusehen.
MIME_TYPE: Der Medientyp der Datei, die in den Feldern data oder fileUri angegeben wurde. Unter anderem sind folgende Werte zulässig:
Zum Maximieren von MIME-Typen klicken
- application/pdf
- audio/mpeg
- audio/mp3
- audio/wav
- image/png
- image/jpeg
- image/webp
- text/plain
- video/mov
- video/mpeg
- video/mp4
- video/mpg
- video/avi
- video/wmv
- video/mpegps
- video/flv
```
TEXT
```
Die Textanleitung, die in den Prompt eingefügt werden soll. Beispiel: Provide a description of the video. The description should also contain anything important which people say in the video.

Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:

curl

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json. Führen Sie folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:

cat > request.json << 'EOF'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
EOF

Führen Sie dann folgenden Befehl aus, um Ihre REST-Anfrage zu senden:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent"

PowerShell

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json. Führen Sie folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:

@'
{
  "contents": {
    "role": "USER",
    "parts": [
      {
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        }
      },
      {
        "text": "TEXT"
      }
    ]
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

Führen Sie dann folgenden Befehl aus, um Ihre REST-Anfrage zu senden:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/google/models/gemini-2.5-flash:generateContent" | Select-Object -Expand Content

Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:

Antwort

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "The video opens with a shot of a train traveling over a bridge in the night. \n
              \nThe scene changes to a woman walking in the streets of Tokyo. She says "My name is
              Saeko. I am a photographer in Tokyo. Tokyo has many faces. The city at night
              is totally different from what you see during the day. The new Pixel has a feature
              called "Video Boost". In low light, it activates "Night Sight" to make the quality
              even better." \n\nShe then uses her phone to take several photos of different parts of
              the city including a street with a lot of shops, a small alleyway, and a small
              restaurant. She says "Sancha is where I used to live when I first moved to Tokyo. I
              have a lot of great memories here. Oh, I like this." \n\nShe smiles and says
              "Beautiful".\n\nThe video ends with the woman standing in a different part of the
              city. She says "Next, I came to Shibuya." The scene shows the famous Shibuya crossing
              in the night. \n\nThe video features a woman showcasing the camera features of the
              Google Pixel phone while walking around the streets of Tokyo. She mentions "Night
              Sight" and "Video Boost" features. \n"
          }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": [
        {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.053601142,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.053799648
        },
        {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.06278921,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.07850098
        },
        {
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.090253234,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.058453236
        },
        {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.1647851,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.09285216
        }
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 28916,
    "candidatesTokenCount": 61,
    "totalTokenCount": 28977
  }
}

Beachten Sie Folgendes in der URL für dieses Beispiel:

Mit der Methode generateContent können Sie anfordern, dass die Antwort zurückgegeben wird, nachdem sie vollständig generiert wurde. Um die Wahrnehmung von Latenz für menschliche Zielgruppen zu verringern, streame die Antwort, während sie mithilfe der Methode streamGenerateContent erzeugt wird.
Die multimodale Modell-ID befindet sich am Ende der URL vor der Methode (z. B. gemini-2.0-flash). Dieses Beispiel unterstützt möglicherweise auch andere Modelle.

Console

So senden Sie einen multimodalen Prompt mit der Google Cloud Console:

Rufen Sie im Bereich „Vertex AI“ der Google Cloud Console die Seite Vertex AI Studio auf.

Zu Vertex AI Studio
Klicken Sie auf Prompt erstellen.
Optional – Konfigurieren Sie Modell und Parameter:
- Modell: Wählen Sie ein Modell aus.
Optional: Klicken Sie zum Konfigurieren erweiterter Parameter auf Erweitert und konfigurieren Sie so:
Klicken Sie, um erweiterte Konfigurationen zu maximieren.
- Top-K: Sie können den Schieberegler oder das Textfeld verwenden, um einen Wert für Top-K einzugeben.
  Der Wert „Top-K“ ändert, wie das Modell Tokens für die Ausgabe auswählt. Ein „Top-K“ von 1 bedeutet, dass das nächste ausgewählte Token unter den Tokens im Modell-Vokabular (auch als gierige Decodierung bezeichnet) am wahrscheinlichsten ist, während ein „Top-K“ von 3 bedeutet, dass das nächste Token mithilfe der Temperatur aus den drei wahrscheinlichsten Tokens ausgewählt wird.
  Für jeden Tokenauswahlschritt werden die „Top-K“-Tokens mit den höchsten Wahrscheinlichkeiten abgetastet. Anschließend werden Tokens weiter auf der Grundlage von „Top-P“ gefiltert, wobei das endgültige Token mithilfe von Temperaturproben ausgewählt wird.
  
  Geben Sie einen niedrigeren Wert für weniger zufällige Antworten und einen höheren Wert für zufälligere Antworten an.
- Top-P: Verwenden Sie den Schieberegler oder das Textfeld, um einen Wert für „Top-P“ einzugeben. Tokens werden vom wahrscheinlichsten bis zum am wenigsten wahrscheinlichen Token ausgewählt, bis die Summe ihrer Wahrscheinlichkeiten dem Wert von „Top-P“ entspricht. Für die Ergebnisse der geringsten Variablen legen Sie Top-P auf 0 fest.
- Maximale Anzahl von Antworten: Verwenden Sie den Schieberegler oder das Textfeld, um einen Wert für die Anzahl der zu generierenden Antworten einzugeben.
- Streamingantworten: Wenn Sie diese Option aktivieren, werden Antworten ausgedruckt, sobald sie generiert werden.
- Schwellenwert für Sicherheitsfilter: Wählen Sie den Schwellenwert aus, mit dem Sie festlegen, wie wahrscheinlich es ist, dass Sie Antworten sehen, die möglicherweise schädlich sind.
- Fundierung aktivieren: Die Funktion „Fundierung“ wird für multimodale Prompts nicht unterstützt.
- Region: Wählen Sie die Region aus, die Sie verwenden möchten.
- Temperatur: Verwenden Sie den Schieberegler oder das Textfeld, um einen Wert für die Temperatur einzugeben.
  The temperature is used for sampling during response generation, which occurs when topP and topK are applied. Temperature controls the degree of randomness in token selection. Lower temperatures are good for prompts that require a less open-ended or creative response, while higher temperatures can lead to more diverse or creative results. A temperature of 0 means that the highest probability tokens are always selected. In this case, responses for a given prompt are mostly deterministic, but a small amount of variation is still possible. If the model returns a response that's too generic, too short, or the model gives a fallback response, try increasing the temperature. <li>**Output token limit**: Use the slider or textbox to enter a value for the max output limit. Maximum number of tokens that can be generated in the response. A token is approximately four characters. 100 tokens correspond to roughly 60-80 words. Specify a lower value for shorter responses and a higher value for potentially longer responses. <li>**Add stop sequence**: Optional. Enter a stop sequence, which is a series of characters that includes spaces. If the model encounters a stop sequence, the response generation stops. The stop sequence isn't included in the response, and you can add up to five stop sequences. </ul>
Klicken Sie auf Medien einfügen und wählen Sie eine Quelle für die Datei aus.
Hochladen
Wählen Sie die Datei aus, die Sie hochladen möchten, und klicken Sie auf Öffnen.

Über URL
Geben Sie die URL der Datei ein, die Sie verwenden möchten, und klicken Sie auf Einfügen.

YouTube

Vorschau

Diese Funktion unterliegt den Pre-GA-Angebotsbedingungen im Abschnitt mit den allgemeinen Dienstbedingungen der dienstspezifischen Nutzungsbedingungen. Pre-GA‑Funktionen stehen in der vorliegenden Form zur Verfügung und bieten möglicherweise nur eingeschränkten Support. Weitere Informationen finden Sie unter den Beschreibungen der Markteinführungsphase.

Geben Sie die URL des YouTube-Videos ein, das Sie verwenden möchten, und klicken Sie auf Einfügen.

Du kannst jedes öffentliche Video oder ein Video verwenden, das dem Konto gehört, mit dem du dich in der Google Cloud Konsole angemeldet hast.

Cloud Storage
Wählen Sie den Bucket und dann die Datei aus dem Bucket aus, die Sie importieren möchten, und klicken Sie auf Auswählen.
Google Drive
1. Wählen Sie ein Konto aus und erteilen Sie Vertex AI Studio die Einwilligung, bei der ersten Auswahl dieser Option auf Ihr Konto zuzugreifen. Sie können mehrere Dateien mit einer Gesamtgröße von bis zu 10 MB hochladen. Eine einzelne Datei darf nicht größer als 7 MB sein.
2. Klicken Sie auf die Datei, die Sie hinzufügen möchten.
3. Klicken Sie auf Auswählen.
  
  Die Miniaturansicht der Datei wird im Bereich Prompt angezeigt. Außerdem wird die Gesamtzahl der Tokens angezeigt. Wenn Ihre Prompt-Daten das Tokenlimit überschreiten, werden die Tokens abgeschnitten und nicht bei der Verarbeitung Ihrer Daten berücksichtigt.
Geben Sie Ihren Prompt in den Bereich Prompt ein.
Optional: Wenn Sie Token-ID zu Text und Token-IDs sehen möchten, klicken Sie im Bereich Prompt auf die Anzahl der Tokens.

Hinweis: Medientokens werden nicht unterstützt.
Klicken Sie auf Senden.
Optional: Klicken Sie auf Speichern, um den Prompt unter Meine Prompts zu speichern.
Optional: Klicken Sie auf Mit Code erstellen > Code abrufen, um den Python-Code oder einen curl-Befehl für den Prompt abzurufen.

Videoverarbeitung anpassen

Sie können die Videoverarbeitung in der Gemini for Google Cloud API anpassen, indem Sie Clipping-Intervalle festlegen oder benutzerdefinierte Sampling-Raten für Frames angeben.

Ausschnittintervalle festlegen

Sie können Videos in Clips unterteilen, indem Sie videoMetadata mit Start- und End-Offsets angeben.

Benutzerdefinierte Bildrate festlegen

Sie können die benutzerdefinierte Framerate-Erfassung festlegen, indem Sie ein fps-Argument an videoMetadata übergeben.

Standardmäßig wird aus dem Video ein Frame pro Sekunde (FPS) ausgewählt. Bei langen Videos empfiehlt es sich, eine niedrige Framerate (< 1) festzulegen. Das ist besonders nützlich für Videos, die größtenteils statisch sind, z.B. Vorträge. Wenn Sie mehr Details in sich schnell ändernden Bildern erfassen möchten, sollten Sie einen höheren FPS-Wert festlegen.

Medienauflösung anpassen

Sie können MediaResolution anpassen, um Ihre Videos mit weniger Tokens zu verarbeiten.

Optionale Modellparameter festlegen

Jedes Modell hat eine Reihe optionaler Parameter, die Sie festlegen können. Weitere Informationen finden Sie unter Parameter für die Inhaltsgenerierung.

Videotokenisierung

So werden Tokens für Videos berechnet:

Der Audiotrack ist mit Videoframes codiert. Der Audiotrack wird ebenfalls in 1-Sekunden-Blöcke unterteilt, die jeweils 32 Tokens enthalten. Die Videoframes und Audio-Tokens werden zusammen mit ihren Zeitstempeln verschachtelt. Die Zeitstempel werden als 5 Tokens dargestellt.
Videos werden mit 1 Bild pro Sekunde (fps) abgetastet. Jedes Videobild berücksichtigt 258 Tokens.

Best Practices

Beachten Sie bei der Verwendung von Videos die folgenden Best Practices und Informationen, um die besten Ergebnisse zu erzielen:

Wenn Ihr Prompt ein einzelnes Video enthält, platzieren Sie das Video vor dem Text-Prompt.
Wenn Sie eine Zeitstempellokalisierung in einem Video mit Audio benötigen, bitten Sie das Modell, Zeitstempel im Format MM:SS zu generieren, wobei die ersten beiden Ziffern Minuten und die letzten beiden Ziffern Sekunden darstellen. Verwenden Sie dasselbe Format für Fragen, in denen nach einem Zeitstempel gefragt wird.

Beschränkungen

Multimodale Gemini-Modelle sind zwar in vielen multimodalen Anwendungsfällen nützlich, aber es ist wichtig, die Einschränkungen der Modelle zu verstehen:

Inhaltsmoderation: Die Modelle weigern sich, Antworten auf Videos zu geben, die gegen unsere Sicherheitsrichtlinien verstoßen.
Nichtsprachliche Geräuscherkennung: Die Modelle, die Audio unterstützen, können dazu führen, dass Töne, die keine Sprache sind, falsch erkannt werden.
Hochgeschwindigkeitsbewegungen: Aufgrund der festen Abtastrate von 1 Bild pro Sekunde (fps) können die Modelle beim Interpretieren von Hochgeschwindigkeitsbewegungen in Videos Fehler machen.

Technische Details zu Videos

Unterstützte Modelle und Kontext: Alle Gemini 2.0- und 2.5-Modelle können Videodaten verarbeiten.
- Modelle mit einem Kontextfenster von 2 Millionen Tokens können Videos mit einer Länge von bis zu 2 Stunden in der Standardauflösung oder bis zu 6 Stunden in niedriger Auflösung verarbeiten. Modelle mit einem Kontextfenster von 1 Million Tokens können Videos mit einer Länge von bis zu 1 Stunde in der Standardauflösung oder bis zu 3 Stunden in niedriger Auflösung verarbeiten.
Verarbeitung über die File API: Bei Verwendung der File API werden Videos mit 1 Frame pro Sekunde (FPS) gesampelt und Audio mit 1 Kbit/s (Einzelkanal) verarbeitet. Zeitstempel werden jede Sekunde hinzugefügt.
- Diese Raten können sich in Zukunft ändern, um die Inferenz zu verbessern.
Tokenberechnung: Jede Sekunde des Videos wird so tokenisiert:
- Einzelne Frames (mit 1 FPS):
  - Wenn mediaResolution auf „Niedrig“ festgelegt ist, werden Frames mit 66 Tokens pro Frame tokenisiert.
  - Andernfalls werden Frames mit 258 Tokens pro Frame tokenisiert.
- Audio: 32 Tokens pro Sekunde.
- Metadaten sind ebenfalls enthalten.
- Insgesamt: ca. 300 Tokens pro Sekunde Video bei Standardauflösung oder 100 Tokens pro Sekunde Video bei niedriger Auflösung.
Zeitstempelformat: Wenn Sie in Ihrem Prompt auf bestimmte Momente in einem Video verweisen, verwenden Sie das Format MM:SS (z.B. 01:15 für 1 Minute und 15 Sekunden).
Best Practices:
- Verwenden Sie für optimale Ergebnisse nur ein Video pro Aufforderung.
- Wenn Sie Text und ein einzelnes Video kombinieren, platzieren Sie den Text-Prompt nach dem Videoteil im contents-Array.
- Bei schnellen Aktionssequenzen können aufgrund der Samplingrate von 1 FPS Details verloren gehen. Verlangsame solche Clips bei Bedarf.

Nächste Schritte

Nutzen Sie die multimodalen Modelle von Gemini. Neukunden erhalten ein kostenloses Google Cloud Guthaben im Wert von 300 $, um Gemini zu testen.
Weitere Informationen zum Senden von Anfragen für Chat-Prompt-Anfragen
Best Practices für verantwortungsbewusste KI und die Sicherheitsfilter von Vertex AI

Videoinhalte erkennen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Unterstützte Modelle

Einem Antrag Videos hinzufügen

Einzelnes Video

Console

Klicken Sie, um erweiterte Konfigurationen zu maximieren.

Hochladen

Über URL

YouTube

Cloud Storage

Google Drive

Python

Installieren

Go

REST

curl

PowerShell

Antwort

Video mit Audio

Python

Installieren

REST

curl

PowerShell

Antwort

Console

Klicken Sie, um erweiterte Konfigurationen zu maximieren.

Hochladen

Über URL

YouTube

Cloud Storage

Google Drive

Videoverarbeitung anpassen

Ausschnittintervalle festlegen

Benutzerdefinierte Bildrate festlegen

Medienauflösung anpassen

Optionale Modellparameter festlegen

Videotokenisierung

Best Practices

Beschränkungen

Technische Details zu Videos

Nächste Schritte

Videoinhalte erkennen