Multimodale Antworten

Gemini 2.0 Flash unterstützt die Generierung von Antworten in mehreren Modalitäten, einschließlich Text, Sprache und Bildern.

Textgenerierung

Gemini 2.0 Flash unterstützt die Textgenerierung mit der Google Cloud Console, der REST API und unterstützten SDKs. Weitere Informationen finden Sie in unserem Leitfaden zur Textgenerierung.

Sprachgenerierung (privat, experimentell)

Gemini 2.0 unterstützt eine neue multimodale Generierungsfunktion: Text-zu-Sprache. Mit der Text-to-Speech-Funktion können Sie das Modell auffordern, eine hochwertige Audioausgabe zu generieren, die wie eine menschliche Stimme klingt (say "hi everyone"). Sie können die Ausgabe weiter optimieren, indem Sie die Stimme steuern.

Sprache generieren

In den folgenden Abschnitten wird beschrieben, wie Sie Sprache mit Vertex AI Studio oder mit der API generieren.

Eine Anleitung und Best Practices für Prompts finden Sie unter Multimodale Prompts entwerfen.

Vertex AI Studio verwenden

So verwenden Sie die Sprachgenerierung:

  1. Öffnen Sie Vertex AI Studio > Freeform.
  2. Wählen Sie im Drop-down-Menü Modelle die Option gemini-2.0-flash-exp aus.
  3. Wählen Sie im Bereich Antwort im Drop-down-Menü die Option Audio aus.
  4. Geben Sie im Textfeld des Bereichs Prompt eine Beschreibung der Spracheingaben ein, die Sie generieren möchten.
  5. Klicken Sie auf die Schaltfläche Prompt ().

Gemini generiert anhand Ihrer Beschreibung eine Sprachausgabe. Dieser Vorgang sollte nur wenige Sekunden dauern, kann aber je nach Kapazität auch etwas länger dauern.*

API verwenden

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json. Führen Sie folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:

cat << EOF > request.json
{
  "contents": [
    {
      "role": "user",
      "parts": [
        { "text": "Say, 'How are you?'" }
      ]
    }
  ],
  "generation_config": {
    "response_modalities": [
      "AUDIO""
    ]
  },
  "safety_settings": [
    {
      "category": "HARM_CATEGORY_HATE_SPEECH",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_HARASSMENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category":
      "HARM_CATEGORY_SEXUALLY_EXPLICIT",
      "threshold": "BLOCK_NONE"
    }
  ]
}
EOF

Führen Sie dann folgenden Befehl aus, um Ihre REST-Anfrage zu senden:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     "https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/gemini-2.0-flash-exp:generateContent" \
     -d $"@request.json"

Gemini generiert anhand Ihrer Beschreibung Audioinhalte. Dieser Vorgang sollte nur wenige Sekunden dauern, kann aber je nach Kapazität auch etwas länger dauern.

Bildgenerierung (öffentlich, experimentell)

Die experimentelle Bildgenerierung von Gemini 2.0 Flash (gemini-2.0-flash-exp) unterstützt neben Text auch die Generierung von Bildern. Dadurch werden die Funktionen von Gemini um Folgendes erweitert:

  • Bilder durch Unterhaltungen in natürlicher Sprache iterativ generieren und dabei für Konsistenz und Kontext sorgen.
  • Bilder mit hochwertigem Rendering von langen Texten erstellen
  • Verschachtelte Text-/Bildausgabe generieren. Beispiel: Ein Blogpost mit Text und Bildern in einer einzigen Wende. Bisher war es dafür erforderlich, mehrere Modelle zusammenzuführen.
  • Mit dem Weltwissen und den Argumentationsfunktionen von Gemini Bilder generieren

Mit dieser öffentlichen experimentellen Version kann die Bildgenerierung mit Gemini 2.0 Flash Experimental Bilder mit 1.024 Pixeln generieren. Außerdem werden Bilder von Personen generiert und bearbeitet. Außerdem enthält sie aktualisierte Sicherheitsfilter, die eine flexiblere und weniger eingeschränkte Nutzererfahrung ermöglichen.

Es werden die folgenden Modalitäten und Funktionen unterstützt:

  • Text zu Bild

    • Beispiel: „Generiere ein Bild vom Eiffelturm mit Feuerwerk im Hintergrund.“
  • Text zu Bild (Text-Rendering)

    • Beispiel für einen Prompt: „Erstelle ein kinoreifes Foto eines großen Gebäudes mit dieser riesigen Textprojektion auf der Vorderseite des Gebäudes: ‚Gemini 2.0 kann jetzt Text im Langformat generieren‘.“
  • Text in Bilder und Text (verschachtelt)

    • Beispiel für einen Prompt: „Erstelle ein illustriertes Rezept für eine Paella. Erstellen Sie beim Erstellen des Rezepts Bilder neben dem Text.“
    • Beispiel für einen Prompt: „Erstelle eine Geschichte über einen Hund im Stil einer 3D-Cartoon-Animation. Für jede Szene ein Bild generieren“
  • Bilder und Text in Bilder und Text (verschachtelt)

    • Beispiel für einen Prompt: (Mit einem Bild eines eingerichteten Raums) „Welche anderen Sofas in anderen Farben würden in meinem Raum passen? Können Sie das Bild aktualisieren?“
  • Bildbearbeitung (Text und Bild zu Bild)

    • Beispiel für einen Prompt: „Bearbeiten Sie dieses Bild so, dass es wie ein Cartoon aussieht.“
    • Beispiel für einen Prompt: [Bild einer Katze] + [Bild eines Kissens] + "Erstelle ein Bild meiner Katze auf diesem Kissen.“
  • Bildbearbeitung mit mehreren Antworten (Chat)

    • Beispiele für Prompts: [Lade ein Bild eines blauen Autos hoch.] „Machen Sie dieses Auto zu einem Cabrio.“ „Ändern Sie jetzt die Farbe in Gelb.“

Beschränkungen:

  • Die beste Leistung erzielen Sie mit den folgenden Sprachen: DE, es-MX, ja-JP, zh-CN, hi-IN.
  • Für die Bildgenerierung werden keine Audio- oder Videoeingaben unterstützt.
  • Die Bildgenerierung wird möglicherweise nicht immer ausgelöst:
    • Das Modell gibt möglicherweise nur Text aus. Fordern Sie explizit Bildausgaben an. Beispiel: „Während des Tests Bilder hinzufügen“
    • Das Modell kann Text als Bild generieren. Fordern Sie explizit Textausgaben an. Beispiel: „Erstelle einen beschreibenden Text mit Illustrationen.“
    • Möglicherweise wird die Generierung durch das Modell vorzeitig beendet. Versuchen Sie es noch einmal oder verwenden Sie einen anderen Prompt.

Bilder erstellen

In den folgenden Abschnitten wird beschrieben, wie Sie Bilder mit Vertex AI Studio oder mit der API generieren.

Eine Anleitung und Best Practices für Prompts finden Sie unter Multimodale Prompts entwerfen.

Vertex AI Studio verwenden

So verwenden Sie die Bildgenerierung:

  1. Öffnen Sie Vertex AI Studio > Freeform.
  2. Wählen Sie im Drop-down-Menü Modelle die Option gemini-2.0-flash-exp aus.
  3. Wählen Sie im Bereich Antwort im Drop-down-Menü die Option Bild und Text aus.
  4. Geben Sie im Textfeld des Bereichs Prompt eine Beschreibung des Bilds ein, das Sie generieren möchten.
  5. Klicken Sie auf die Schaltfläche Prompt ().

Gemini generiert ein Bild anhand Ihrer Beschreibung. Dieser Vorgang sollte nur wenige Sekunden dauern, kann aber je nach Kapazität auch etwas länger dauern.

API verwenden

Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json. Führen Sie folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:

cat << EOF > request.json
{
  "contents": [
    {
      "role": "user",
      "parts": [
        { "text": "Generate an image of a cat." }
      ]
    }
  ],
  "generation_config": {
    "response_modalities": [
      "IMAGE", "TEXT"
    ]
  },
  "safety_settings": [
    {
      "category": "HARM_CATEGORY_HATE_SPEECH",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category": "HARM_CATEGORY_HARASSMENT",
      "threshold": "BLOCK_NONE"
    },
    {
      "category":
      "HARM_CATEGORY_SEXUALLY_EXPLICIT",
      "threshold": "BLOCK_NONE"
    }
  ]
}
EOF

Führen Sie dann folgenden Befehl aus, um Ihre REST-Anfrage zu senden:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     "https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/us-central1/publishers/google/models/gemini-2.0-flash-exp:generateContent" \
     -d $"@request.json"

Gemini generiert ein Bild anhand Ihrer Beschreibung. Dieser Vorgang sollte nur wenige Sekunden dauern, kann aber je nach Kapazität auch etwas länger dauern.