Auf dieser Seite finden Sie Voraussetzungen und eine detaillierte Anleitung zur Feinabstimmung von Gemini mithilfe von Videodaten und beaufsichtigtem Lernen.
Unterstützte Modelle
Die folgenden Gemini-Modelle unterstützen die Videoabstimmung:
- Gemini 2.5 Flash
Anwendungsfälle
Mit der Feinabstimmung können Sie Gemini-Basismodelle für spezielle Aufgaben anpassen. Hier einige Anwendungsfälle für Videos:
Automatisierte Videozusammenfassung: LLMs werden so optimiert, dass sie prägnante und kohärente Zusammenfassungen langer Videos erstellen und dabei die wichtigsten Themen, Ereignisse und Erzählungen erfassen. Das ist nützlich, um Inhalte zu finden, zu archivieren und schnell zu überprüfen.
Detaillierte Ereigniserkennung und ‑lokalisierung: Durch die Feinabstimmung können LLMs bestimmte Aktionen, Ereignisse oder Objekte in einer Video-Timeline genauer identifizieren und lokalisieren. So können Sie beispielsweise alle Instanzen eines bestimmten Produkts in einem Marketingvideo oder eine bestimmte Aktion in Sportaufnahmen identifizieren.
Inhaltsmoderation: Durch spezielle Optimierung kann die Fähigkeit eines LLM verbessert werden, sensible, unangemessene oder richtlinienwidrige Inhalte in Videos zu erkennen. Dabei geht es über die einfache Objekterkennung hinaus, um Kontext und Nuancen zu verstehen.
Video-Untertitelung: Obwohl dies bereits eine gängige Anwendung ist, kann die Genauigkeit, Flüssigkeit und Kontextsensitivität automatisch generierter Untertitel, einschließlich Beschreibungen nonverbaler Hinweise, durch die Optimierung verbessert werden.
Beschränkungen
- Maximale Videodateigröße: 100 MB.
Das reicht möglicherweise nicht für große Videodateien aus. Hier einige empfohlene Problemumgehungen:
- Wenn es nur sehr wenige große Dateien gibt, schließen Sie diese Dateien aus den JSONL-Dateien aus.
- Wenn Ihr Dataset viele große Dateien enthält, die nicht ignoriert werden können, reduzieren Sie die visuelle Auflösung der Dateien. Das kann sich negativ auf die Leistung auswirken.
- Teilen Sie die Videos in Chunks auf, um die Dateigröße auf 100 MB zu begrenzen, und verwenden Sie die gechunkten Videos zum Optimieren. Achte darauf, alle Zeitstempelanmerkungen, die sich auf das Originalvideo beziehen, an die neue (aufgeteilte) Videotimeline anzupassen.
- Maximale Videolänge pro Beispiel: 5 Minuten mit
MEDIA_RESOLUTION_MEDIUM
und 20 Minuten mitMEDIA_RESOLUTION_LOW
. - Entfernte Beispiele: Wenn ein Beispiel Videoinhalte enthält, die länger als die unterstützte maximale Länge sind, wird es aus dem Dataset entfernt. Gelöschte Beispiele werden nicht in Rechnung gestellt und nicht für das Training verwendet. Wenn mehr als 10% des Datasets verworfen werden, schlägt der Job mit einer Fehlermeldung fehl, bevor das Training beginnt.
- Mischen verschiedener Media-Auflösungen wird nicht unterstützt: Der Wert von
mediaResolution
muss für jedes Beispiel im gesamten Trainings-Dataset einheitlich sein. Alle Zeilen in den JSONL-Dateien, die für das Training und die Validierung verwendet werden, sollten denselben Wert fürmediaResolution
haben.
Dataset-Format
Das Feld fileUri
gibt den Speicherort Ihres Datasets an. Das kann der URI für eine Datei in einem Cloud Storage-Bucket oder eine öffentlich verfügbare HTTP- oder HTTPS-URL sein.
Mit dem Feld mediaResolution
wird die Anzahl der Tokens pro Frame für die Eingabevideos angegeben. Mögliche Werte:
MEDIA_RESOLUTION_LOW
: 64 Tokens pro FrameMEDIA_RESOLUTION_MEDIUM
: 256 Tokens pro Frame
Das Abstimmen von Modellen mit MEDIA_RESOLUTION_LOW
ist etwa viermal schneller als mit MEDIA_RESOLUTION_MEDIUM
, wobei die Leistungssteigerung minimal ist.
Wenn ein Videosegment für das Training und die Validierung verwendet wird, befindet es sich im Feld videoMetadata
. Während des Trainings wird dieser Datenpunkt so decodiert, dass er Informationen aus dem Segment enthält, das aus der angegebenen Videodatei extrahiert wurde, beginnend mit dem Zeitstempel startOffset
(dem Start-Offset in Sekunden) bis endOffset
.
Ein Beispiel für das generische Format finden Sie unter Dataset-Beispiel für Gemini.
In den folgenden Abschnitten finden Sie Beispiele für das Format von Videodatasets.
Beispiel für ein JSON-Schema für Fälle, in denen das vollständige Video für Training und Validierung verwendet wird
Dieses Schema wird als einzelne Zeile in die JSONL-Datei eingefügt.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"fileUri": "gs://<path to the mp4 video file>",
"mimeType": "video/mp4"
},
},
{
"text": "
You are a video analysis expert. Detect which animal appears in the
video.The video can only have one of the following animals: dog, cat,
rabbit.\n Output Format:\n Generate output in the following JSON
format:\n
[{\n
\"animal_name\": \"<CATEGORY>\",\n
}]\n"
}
]
},
{
"role": "model",
"parts": [
{
"text": "```json\n[{\"animal_name\": \"dog\"}]\n```"
}
]
},
],
"generationConfig": {
"mediaResolution": "MEDIA_RESOLUTION_LOW"
}
}
Beispiel für ein JSON-Schema für Fälle, in denen ein Videosegment für Training und Validierung verwendet wird
Dieses Schema wird als einzelne Zeile in die JSONL-Datei eingefügt.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"fileUri": "gs://<path to the mp4 video file>",
"mimeType": "video/mp4"
},
"videoMetadata": {
"startOffset": "5s",
"endOffset": "25s"
}
},
{
"text": "
You are a video analysis expert. Detect which animal appears in the
video.The video can only have one of the following animals: dog, cat,
rabbit.\n Output Format:\n Generate output in the following JSON
format:\n
[{\n
\"animal_name\": \"<CATEGORY>\",\n
}]\n"
}
]
},
{
"role": "model",
"parts": [
{
"text": "```json\n[{\"animal_name\": \"dog\"}]\n```"
}
]
},
],
"generationConfig": {
"mediaResolution": "MEDIA_RESOLUTION_LOW"
}
}
Nächste Schritte
- Weitere Informationen zum Abstimmen von Videos finden Sie unter Gemini 2.5 mit Videos über Vertex AI abstimmen.
- Weitere Informationen zur Bildanalyse durch Gemini finden Sie in unserer Dokumentation zur Bildanalyse.
- Weitere Informationen finden Sie unter Gemini-Modelle mithilfe der überwachten Feinabstimmung abstimmen.
- Informationen dazu, wie die überwachte Feinabstimmung in einer Lösung verwendet werden kann, die eine Wissensdatenbank für generative KI erstellt, finden Sie unter Schnellstartlösung: Wissensdatenbank für generative KI.