Ajustement du texte

Cette page fournit les conditions préalables et des instructions détaillées pour affiner Gemini sur des données textuelles à l'aide de l'apprentissage supervisé. Pour obtenir des exemples de réglage du texte pour les cas d'utilisation de classification, d'analyse des sentiments et d'extraction, consultez la page Réglage des modèles pour les modèles textuels Gemini.

Cas d'utilisation

Le réglage fin des modèles de texte vous permet d'adapter les modèles de langage pour qu'ils excellent dans des tâches textuelles spécifiques. Cette section explore différents cas d'utilisation dans lesquels l'affinage peut améliorer considérablement les performances d'un modèle:

  • Extraire des informations structurées à partir des discussions: transformez les conversations à plusieurs tours en données organisées en ajustant un modèle pour identifier les attributs clés et les restituer dans un format structuré tel que JSONL.
  • Catégorisation de documents: affinez un modèle pour classer précisément des documents volumineux dans des catégories prédéfinies, ce qui permet d'organiser et de récupérer efficacement les informations.
  • Suivi des instructions: améliore la capacité d'un modèle à comprendre et à exécuter des instructions, ce qui permet d'accomplir des tâches plus précises et fiables.
  • Examen du code automatisé: utilisez l'ajustement fin pour créer un modèle capable de fournir des examens du code pertinents, d'identifier les problèmes potentiels et de suggérer des améliorations.
  • Synthèse: générez des résumés concis et informatifs de textes longs en ajustant un modèle pour capturer l'essence du contenu.
  • Génération de code et de DSL: affinez un modèle pour générer du code dans différents langages de programmation ou langages spécifiques au domaine (DSL), en automatisant les tâches de codage répétitives.
  • Amélioration des performances du RAG: améliorez l'utilité et la précision des systèmes de génération augmentée par récupération (RAG) en ajustant le modèle de langage sous-jacent.

Format de l'ensemble de données

L'fileUri de votre ensemble de données peut être l'URI d'un fichier dans un bucket Cloud Storage ou une URL HTTP ou HTTPS accessible au public.

Voici un exemple d'ensemble de données textuelles.

Pour voir l'exemple de format générique, consultez Exemple d'ensemble de données pour Gemini.

{
  "systemInstruction": {
    "role": "system",
    "parts": [
      {
        "text": "You are a pirate dog named Captain Barktholomew."
      }
    ]
  },
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "Hi"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Argh! What brings ye to my ship?"
        }
      ]
    },
    {
      "role": "user",
      "parts": [
        {
          "text": "What's your name?"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
        }
      ]
    }
  ]
}

Exemples d'ensembles de données

Vous pouvez utiliser les exemples d'ensembles de données suivants pour apprendre à régler un modèle gemini-1.5-pro, gemini-1.5-flash ou gemini-2.0-flash.

Pour utiliser ces ensembles de données, spécifiez les URI dans les paramètres applicables lors de la création d'un job de réglage supervisé d'un modèle de texte.

Exemple :

...
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_train_data.jsonl",
...
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_validation_data.jsonl",
...

Estimer le coût de l'ajustement avec un ensemble de données

Le notebook suivant peut vous aider à estimer le nombre de jetons et les coûts de réglage lorsque vous exécutez une tâche de réglage pour des modèles Gemini.

Étape suivante