Textoptimierung

Auf dieser Seite finden Sie Voraussetzungen und eine detaillierte Anleitung zum Optimieren von Gemini mithilfe von Textdaten und beaufsichtigtem Lernen. Beispiele für die Textabstimmung für Anwendungsfälle der Klassifizierung, Sentimentanalyse und Extraktion finden Sie unter Modellabstimmung für Gemini-Textmodelle.

Anwendungsfälle

Mit der Feinabstimmung von Textmodellen können Sie Sprachmodelle so anpassen, dass sie bei bestimmten textbasierten Aufgaben besonders gut abschneiden. In diesem Abschnitt werden verschiedene Anwendungsfälle untersucht, in denen die Leistung eines Modells durch die Feinabstimmung erheblich gesteigert werden kann:

  • Strukturierte Informationen aus Chats extrahieren: Sie können Unterhaltungen mit mehreren Antworten in strukturierte Daten umwandeln, indem Sie ein Modell so optimieren, dass es wichtige Attribute erkennt und in einem strukturierten Format wie JSONL ausgibt.
  • Dokumentkategorisierung: Sie können ein Modell optimieren, um lange Dokumente genau in vordefinierte Kategorien zu klassifizieren. So lassen sich Informationen effizient organisieren und abrufen.
  • Ausführung von Anweisungen: Verbessert die Fähigkeit eines Modells, Anweisungen zu verstehen und auszuführen, was zu einer genaueren und zuverlässigeren Aufgabenerledigung führt.
  • Automatische Codeüberprüfung: Mit der Feinabstimmung können Sie ein Modell erstellen, das aussagekräftige Codeüberprüfungen ermöglicht, potenzielle Probleme erkennt und Verbesserungen vorschlägt.
  • Zusammenfassung: Sie können kurze und informative Zusammenfassungen langer Texte generieren, indem Sie ein Modell so optimieren, dass es den Kern des Inhalts erfasst.
  • Code- und DSL-Generierung: Sie können ein Modell optimieren, um Code in verschiedenen Programmiersprachen oder domänenspezifischen Sprachen (DSLs) zu generieren und so sich wiederholende Programmieraufgaben zu automatisieren.
  • Verbesserte RAG-Leistung: Verbessern Sie die Nützlichkeit und Genauigkeit von RAG-Systemen (Retrieval Augmented Generation) durch die Feinabstimmung des zugrunde liegenden Language Models.

Dataset-Format

Im Folgenden finden Sie ein Beispiel für einen Textdatensatz.

Ein Beispiel für das generische Format finden Sie unter Dataset-Beispiel für Gemini 1.5 Pro und Gemini 1.5 Flash.

{
  "systemInstruction": {
    "role": "system",
    "parts": [
      {
        "text": "You are a pirate dog named Captain Barktholomew."
      }
    ]
  },
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "Hi"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Argh! What brings ye to my ship?"
        }
      ]
    },
    {
      "role": "user",
      "parts": [
        {
          "text": "What's your name?"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
        }
      ]
    }
  ]
}

Beispieldatensätze für gemini-1.5-pro und gemini-1.5-flash

Anhand der folgenden Beispiel-Datasets können Sie lernen, wie Sie ein gemini-1.5-pro- oder gemini-1.5-flash-Modell abstimmen.

Geben Sie die URIs in den entsprechenden Parametern beim Erstellen eines überwachten Textmodell-Feinabstimmungsjobs an, um diese Datasets zu verwenden.

Beispiel:

...
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_train_data.jsonl",
...
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_validation_data.jsonl",
...

Beispiel für ein Dataset-Format für Gemini 1.0 Pro

{
  "messages": [
    {
      "role": "system",
      "content": "You are a pirate dog named Captain Barktholomew."
    },
    {
      "role": "user",
      "content": "Hi"
    },
    {
      "role": "model",
      "content": "Argh! What brings ye to my ship?"
    },
    {
      "role": "user",
      "content": "What's your name?"
    },
    {
      "role": "model",
      "content": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
    }
  ]
}

Beispieldatensätze für gemini-1.0-pro

Sie können ein Beispiel-Dataset verwenden, um zu erfahren, wie Sie ein gemini-1.0-pro-002-Modell optimieren.

Geben Sie die URIs in den entsprechenden Parametern beim Erstellen eines überwachten Textmodell-Feinabstimmungsjobs an, um diese Datasets zu verwenden.

Beispiel:

...
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_train_data.jsonl",
...
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_validation_data.jsonl",
...

Kosten der Optimierung mit einem Datensatz schätzen

Im folgenden Notebook können Sie die Tokenanzahl und die Kosten für die Feinabstimmung schätzen, wenn Sie einen Abstimmungsjob für gemini-1.5-pro-002 ausführen.

Nächste Schritte