Réponses multimodales

Gemini 2.0 Flash permet de générer des réponses dans plusieurs modalités, y compris le texte, la voix et les images.

Génération de texte

Gemini 2.0 Flash est compatible avec la génération de texte à l'aide de la console Google Cloud, de l'API REST et des SDK compatibles. Pour en savoir plus, consultez notre guide de génération de texte.

Génération de synthèse vocale (privé, en phase expérimentale)

Gemini 2.0 prend en charge une nouvelle fonctionnalité de génération multimodale: la synthèse vocale. Grâce à la fonctionnalité de synthèse vocale, vous pouvez demander au modèle de générer une sortie audio de haute qualité qui ressemble à une voix humaine (say "hi everyone"). Vous pouvez également affiner davantage la sortie en orientant la voix.

Générer de la parole

Les sections suivantes expliquent comment générer de la parole à l'aide de Vertex AI Studio ou de l'API.

Pour obtenir des conseils et des bonnes pratiques concernant les requêtes, consultez Concevoir des requêtes multimodales.

Utiliser Vertex AI Studio

Pour utiliser la génération de parole:

  1. Ouvrez Vertex AI Studio > Formes libres.
  2. Sélectionnez gemini-2.0-flash-exp dans le menu déroulant Modèles.
  3. Dans le panneau Réponse, sélectionnez Audio dans le menu déroulant.
  4. Dans la zone de texte du panneau Invite, rédigez une description de la parole que vous souhaitez générer.
  5. Cliquez sur le bouton Requête ().

Gemini génère une voix en fonction de votre description. Ce processus devrait prendre quelques secondes, mais peut être comparativement plus lent en fonction de la capacité.*

Utiliser l'API

Enregistrez le corps de la requête dans un fichier nommé request.json. Exécutez la commande suivante dans le terminal pour créer ou écraser ce fichier dans le répertoire actuel:

cat << EOF > request.json
{
  "contents": [
    {
      "role": "user",
      "parts": [
        { "text": "Say, 'How are you?'" }
      ]
    }
  ],
  "generation_config": {
    "response_modalities": [
      "AUDIO""
    ]
  },
  "safety_settings": [
    {
      "category": "HARM_CATEGORY_HATE_SPEECH",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_HARASSMENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category":
      "HARM_CATEGORY_SEXUALLY_EXPLICIT",
      "threshold": "BLOCK_NONE"
    }
  ]
}
EOF

Exécutez ensuite la commande suivante pour envoyer votre requête REST :

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     "https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/gemini-2.0-flash-exp:generateContent" \
     -d $"@request.json"

Gemini génère un contenu audio en fonction de votre description. Ce processus devrait prendre quelques secondes, mais il peut être comparativement plus lent en fonction de la capacité.

Génération d'images (version publique expérimentale)

La génération d'images Gemini 2.0 Flash Experimental (gemini-2.0-flash-exp) permet de générer des images en plus du texte. Les fonctionnalités de Gemini sont ainsi étendues pour inclure les éléments suivants:

  • Générez des images de manière iterative via une conversation en langage naturel, en ajustant les images tout en conservant la cohérence et le contexte.
  • Générez des images avec un rendu de texte long de haute qualité.
  • Générez une sortie texte-image entrelacée. Par exemple, un article de blog avec du texte et des images en une seule phrase. Auparavant, il fallait associer plusieurs modèles.
  • Générer des images à l'aide des connaissances du monde et des capacités de raisonnement de Gemini

Avec cette version expérimentale publique, la génération d'images expérimentale Gemini 2.0 Flash peut générer des images en 1 024 px, permet de générer et de modifier des images de personnes, et contient des filtres de sécurité mis à jour qui offrent une expérience utilisateur plus flexible et moins restrictive.

Il est compatible avec les modalités et fonctionnalités suivantes:

  • Texte vers image

    • Exemple de requête : "Génère une image de la tour Eiffel avec des feux d'artifice en arrière-plan."
  • Texte vers image (affichage du texte)

    • Exemple de requête : "Générez une photo cinématographique d'un grand bâtiment avec cette projection de texte géante mappée sur la façade du bâtiment: "Gemini 2.0 peut désormais générer du texte long""
  • Texte en image(s) et texte (entrelacé)

    • Exemple de requête : "Génère une recette illustrée pour une paella. Créez des images à côté du texte lorsque vous générez la recette."
    • Exemple de requête : "Génère une histoire sur un chien dans un style d'animation de dessin animé 3D. Pour chaque scène, générer une image"
  • Image(s) et texte en image(s) et texte (entrelacé)

    • Exemple d'invite : (avec une image d'une pièce meublée) "Quelles autres couleurs de canapés pourraient convenir à mon espace ? Pouvez-vous mettre à jour l'image ?"
  • Retouche d'images (texte et image en image)

    • Exemple de requête : "Modifiez cette image pour qu'elle ressemble à un dessin animé"
    • Exemple de requête : [image d'un chat] + [image d'un oreiller] + "Crée un point de croix de mon chat sur cet oreiller."
  • Modification d'images multitours (chat)

    • Exemples de requêtes : [importez une image d'une voiture bleue.] "Transformez cette voiture en cabriolet." "Maintenant, changez la couleur en jaune."

Limites :

  • Pour des performances optimales, utilisez les langues suivantes: EN, es-MX, ja-JP, zh-CN et hi-IN.
  • La génération d'images n'est pas compatible avec les entrées audio ni vidéo.
  • La génération d'images ne se déclenche pas toujours :
    • Le modèle peut ne générer que du texte. Essayez de demander explicitement des sorties d'image. Par exemple, "fournissez des images au fur et à mesure".
    • Le modèle peut générer du texte sous forme d'image. Essayez de demander explicitement des sorties textuelles. Par exemple, "générer un texte narratif avec des illustrations".
    • Le modèle peut s'arrêter en cours de génération. Réessayez ou utilisez une autre requête.

Générer des images

Les sections suivantes expliquent comment générer des images à l'aide de Vertex AI Studio ou de l'API.

Pour obtenir des conseils et des bonnes pratiques concernant les requêtes, consultez Concevoir des requêtes multimodales.

Utiliser Vertex AI Studio

Pour utiliser la génération d'images:

  1. Ouvrez Vertex AI Studio > Formes libres.
  2. Sélectionnez gemini-2.0-flash-exp dans le menu déroulant Modèles.
  3. Dans le panneau Réponse, sélectionnez Image et texte dans le menu déroulant.
  4. Dans la zone de texte du panneau Requête, saisissez une description de l'image que vous souhaitez générer.
  5. Cliquez sur le bouton Requête ().

Gemini génère une image en fonction de votre description. Ce processus devrait prendre quelques secondes, mais peut être comparativement plus lent en fonction de la capacité.

Utiliser l'API

Enregistrez le corps de la requête dans un fichier nommé request.json. Exécutez la commande suivante dans le terminal pour créer ou écraser ce fichier dans le répertoire actuel:

cat << EOF > request.json
{
  "contents": [
    {
      "role": "user",
      "parts": [
        { "text": "Generate an image of a cat." }
      ]
    }
  ],
  "generation_config": {
    "response_modalities": [
      "IMAGE", "TEXT"
    ]
  },
  "safety_settings": [
    {
      "category": "HARM_CATEGORY_HATE_SPEECH",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_HARASSMENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category":
      "HARM_CATEGORY_SEXUALLY_EXPLICIT",
      "threshold": "BLOCK_NONE"
    }
  ]
}
EOF

Exécutez ensuite la commande suivante pour envoyer votre requête REST :

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     "https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/gemini-2.0-flash-exp:generateContent" \
     -d $"@request.json"

Gemini génère une image en fonction de votre description. Ce processus devrait prendre quelques secondes, mais il peut être comparativement plus lent en fonction de la capacité.