Diese Seite wurde von der Cloud Translation API übersetzt.

Videooptimierung

Auf dieser Seite finden Sie Voraussetzungen und eine detaillierte Anleitung zur Feinabstimmung von Gemini mithilfe von Videodaten und beaufsichtigtem Lernen.

Anwendungsfälle

Mit der Feinabstimmung können Sie Gemini-Basismodelle für spezielle Aufgaben anpassen. Hier einige Anwendungsfälle für Videos:

Automatisierte Videozusammenfassung: LLMs werden so optimiert, dass sie prägnante und kohärente Zusammenfassungen langer Videos erstellen und dabei die wichtigsten Themen, Ereignisse und Erzählungen erfassen. Das ist nützlich, um Inhalte zu finden, zu archivieren und schnell zu überprüfen.
Detaillierte Ereigniserkennung und ‑lokalisierung: Durch die Feinabstimmung können LLMs bestimmte Aktionen, Ereignisse oder Objekte in einer Video-Timeline genauer identifizieren und lokalisieren. So können Sie beispielsweise alle Instanzen eines bestimmten Produkts in einem Marketingvideo oder eine bestimmte Aktion in Sportaufnahmen identifizieren.
Inhaltsmoderation: Durch spezielle Optimierung kann die Fähigkeit eines LLM verbessert werden, sensible, unangemessene oder richtlinienwidrige Inhalte in Videos zu erkennen. Dabei wird über die einfache Objekterkennung hinausgegangen, um Kontext und Nuancen zu verstehen.
Untertitelung von Videos: Das ist zwar schon eine gängige Anwendung, aber durch die Optimierung können die Genauigkeit, der Lesefluss und die Kontextsensitivität von automatisch generierten Untertiteln verbessert werden, einschließlich Beschreibungen nonverbaler Hinweise.

Beschränkungen

Maximale Videodateigröße: 100 MB. Für große Videodateien reicht das möglicherweise nicht aus. Hier einige empfohlene Problemumgehungen:
- Wenn es nur sehr wenige große Dateien gibt, schließen Sie diese Dateien aus den JSONL-Dateien aus.
- Wenn Ihr Dataset viele große Dateien enthält, die nicht ignoriert werden können, reduzieren Sie die visuelle Auflösung der Dateien. Das kann sich negativ auf die Leistung auswirken.
- Teilen Sie die Videos in Chunks auf, um die Dateigröße auf 100 MB zu begrenzen, und verwenden Sie die gechunkten Videos zum Optimieren. Achte darauf, dass du alle Zeitstempelanmerkungen, die sich auf das Originalvideo beziehen, an die neue (aufgeteilte) Videotimeline anpasst.
Maximale Videolänge pro Beispiel: 5 Minuten mit MEDIA_RESOLUTION_MEDIUM und 20 Minuten mit MEDIA_RESOLUTION_LOW.
Entfernte Beispiele: Wenn ein Beispiel Videoinhalte enthält, die länger als die unterstützte maximale Länge sind, wird es aus dem Dataset entfernt. Gelöschte Beispiele werden nicht in Rechnung gestellt und nicht für das Training verwendet. Wenn mehr als 10% des Datasets verworfen werden, schlägt der Job mit einer Fehlermeldung fehl, bevor das Training beginnt.
Mischen verschiedener Media-Auflösungen wird nicht unterstützt: Der Wert von mediaResolution muss für jedes Beispiel im gesamten Trainings-Dataset einheitlich sein. Alle Zeilen in den JSONL-Dateien, die für das Training und die Validierung verwendet werden, sollten denselben Wert für mediaResolution haben.

Dataset-Format

Das Feld fileUri gibt den Speicherort Ihres Datasets an. Das kann der URI für eine Datei in einem Cloud Storage-Bucket oder eine öffentlich verfügbare HTTP- oder HTTPS-URL sein.

Mit dem Feld mediaResolution wird die Anzahl der Tokens pro Frame für die Eingabevideos angegeben. Mögliche Werte:

MEDIA_RESOLUTION_LOW: 64 Tokens pro Frame
MEDIA_RESOLUTION_MEDIUM: 256 Tokens pro Frame

Das Abstimmen von Modellen mit MEDIA_RESOLUTION_LOW ist etwa viermal schneller als mit MEDIA_RESOLUTION_MEDIUM, wobei die Leistungssteigerung minimal ist.

Wenn ein Videosegment für das Training und die Validierung verwendet wird, befindet es sich im Feld videoMetadata. Während des Trainings wird dieser Datenpunkt so decodiert, dass er Informationen aus dem Segment enthält, das aus der angegebenen Videodatei extrahiert wurde, beginnend mit dem Zeitstempel startOffset (dem Start-Offset in Sekunden) bis endOffset.

Ein Beispiel für das generische Format finden Sie unter Dataset-Beispiel für Gemini.

In den folgenden Abschnitten finden Sie Beispiele für das Format von Videodatasets.

Beispiel für ein JSON-Schema für Fälle, in denen das vollständige Video für Training und Validierung verwendet wird

Dieses Schema wird als einzelne Zeile in die JSONL-Datei eingefügt.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "fileUri": "gs://<path to the mp4 video file>",
            "mimeType": "video/mp4"
          },
        },
        {
          "text": "
          You are a video analysis expert. Detect which animal appears in the
          video.The video can only have one of the following animals: dog, cat,
          rabbit.\n Output Format:\n Generate output in the following JSON
          format:\n
          [{\n
            \"animal_name\": \"<CATEGORY>\",\n
          }]\n"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "```json\n[{\"animal_name\": \"dog\"}]\n```"
        }
       ]
    },
  ],
  "generationConfig": {
    "mediaResolution": "MEDIA_RESOLUTION_LOW"
  }
}

Beispiel für ein JSON-Schema für Fälle, in denen ein Videosegment für Training und Validierung verwendet wird