Gemini 2.0 Flash unterstützt die Generierung von Antworten in mehreren Modalitäten, einschließlich Text und Bildern.
Bilderstellung
Die öffentliche Vorschau von Gemini 2.0 Flash für die Bildgenerierung (gemini-2.0-flash-preview-image-generation
) unterstützt neben Text auch die Generierung von Bildern. Dadurch werden die Funktionen von Gemini um Folgendes erweitert:
- Bilder durch Unterhaltungen in natürlicher Sprache iterativ generieren und dabei für Konsistenz und Kontext sorgen.
- Bilder mit hochwertigem Rendering von langen Texten generieren
- Verschachtelte Text-/Bildausgabe generieren. Beispiel: Ein Blogpost mit Text und Bildern in einer einzigen Kurve. Bisher war es dafür erforderlich, mehrere Modelle zusammenzuführen.
- Mit dem Weltwissen und den Argumentationsfunktionen von Gemini Bilder generieren
Mit dieser öffentlichen experimentellen Version kann Gemini 2.0 Flash Bilder mit 1.024 Pixeln generieren, unterstützt das Generieren und Bearbeiten von Bildern von Personen und enthält aktualisierte Sicherheitsfilter, die eine flexiblere und weniger eingeschränkte Nutzererfahrung ermöglichen.
Es werden die folgenden Modalitäten und Funktionen unterstützt:
Text zu Bild
- Beispiel für einen Prompt: „Generiere ein Bild vom Eiffelturm mit Feuerwerk im Hintergrund.“
Text zu Bild (Text-Rendering)
- Beispiel für einen Prompt: „Erstelle ein filmisches Foto eines großen Gebäudes mit dieser riesigen Textprojektion auf der Vorderseite des Gebäudes: ‚Gemini 2.0 kann jetzt langen Text generieren‘.“
Text in Bilder und Text (verschachtelt)
- Beispiel für einen Prompt: „Erstelle ein illustriertes Rezept für eine Paella. Erstellen Sie beim Erstellen des Rezepts Bilder neben dem Text.“
- Beispiel für einen Prompt: „Erstelle eine Geschichte über einen Hund im Stil einer 3D-Cartoon-Animation. Für jede Szene ein Bild generieren“
Bilder und Text in Bilder und Text (verschachtelt)
- Beispiel für einen Prompt: (Mit einem Bild eines eingerichteten Raums) „Welche anderen Sofas in anderen Farben würden in meinem Raum passen? Können Sie das Bild aktualisieren?“
Bildbearbeitung (Text und Bild zu Bild)
- Beispiel für einen Prompt: „Bearbeiten Sie dieses Bild so, dass es wie ein Cartoon aussieht.“
- Beispiel für einen Prompt: [Bild einer Katze] + [Bild eines Kissens] + "Erstelle ein Bild meiner Katze auf diesem Kissen.“
Bildbearbeitung mit mehreren Antworten (Chat)
- Beispiele für Prompts: [Lade ein Bild eines blauen Autos hoch.] „Machen Sie dieses Auto zu einem Cabrio.“ „Ändern Sie jetzt die Farbe in Gelb.“
Beschränkungen:
- Die beste Leistung erzielen Sie mit den folgenden Sprachen: DE, es-MX, ja-JP, zh-CN, hi-IN.
- Für die Bildgenerierung werden keine Audio- oder Videoeingaben unterstützt.
- Die Bildgenerierung wird möglicherweise nicht immer ausgelöst:
- Das Modell gibt möglicherweise nur Text aus. Fordern Sie explizit Bildausgaben an. Beispiel: „Während des Tests Bilder hinzufügen“
- Das Modell kann Text als Bild generieren. Fordern Sie explizit Textausgaben an. Beispiel: „Erstelle einen beschreibenden Text mit Illustrationen.“
- Möglicherweise wird die Generierung durch das Modell vorzeitig beendet. Versuchen Sie es noch einmal oder verwenden Sie einen anderen Prompt.
Bilder erstellen
In den folgenden Abschnitten wird beschrieben, wie Sie Bilder mit Vertex AI Studio oder mit der API generieren.
Eine Anleitung und Best Practices für Prompts finden Sie unter Multimodale Prompts entwerfen.
Console
So verwenden Sie die Bildgenerierung:
- Öffnen Sie Vertex AI Studio > Prompt erstellen.
-
Klicken Sie auf Modell wechseln und wählen Sie im Menü
gemini-2.0-flash-preview-image-generation
aus. - Wählen Sie im Bereich Ausgaben im Drop-down-Menü die Option Bild und Text aus.
- Geben Sie im Textfeld Prompt schreiben eine Beschreibung des Bildes ein, das Sie generieren möchten.
- Klicken Sie auf die Schaltfläche Prompt ( ).
Gemini generiert anhand Ihrer Beschreibung ein Bild. Dieser Vorgang sollte nur wenige Sekunden dauern, kann aber je nach Kapazität auch etwas länger dauern.
Gen AI SDK for Python
Installieren
pip install --upgrade google-genai
Weitere Informationen finden Sie in der SDK-Referenzdokumentation.
Legen Sie Umgebungsvariablen fest, um das Gen AI SDK mit Vertex AI zu verwenden:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
REST
Führen Sie folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${API_ENDPOINT}:generateContent \
-d '{
"contents": {
"role": "USER",
"parts": { "text": "Create a tutorial explaining how to make a peanut butter and jelly sandwich in three easy steps."},
},
"generation_config": {
"response_modalities": ["TEXT", "IMAGE"],
},
"safetySettings": {
"method": "PROBABILITY",
"category": "HARM_CATEGORY_DANGEROUS_CONTENT",
"threshold": "BLOCK_MEDIUM_AND_ABOVE"
},
}' 2>/dev/null >response.json
Gemini generiert anhand Ihrer Beschreibung ein Bild. Dieser Vorgang sollte nur wenige Sekunden dauern, kann aber je nach Kapazität auch etwas länger dauern.
Bild bearbeiten
Console
So bearbeiten Sie Bilder:
- Öffnen Sie Vertex AI Studio > Prompt erstellen.
-
Klicken Sie auf Modell wechseln und wählen Sie im Menü
gemini-2.0-flash-preview-image-generation
aus. - Wählen Sie im Bereich Ausgaben im Drop-down-Menü die Option Bild und Text aus.
- Klicken Sie auf Medien einfügen ( ), wählen Sie eine Quelle aus dem Menü aus und folgen Sie der Anleitung im Dialogfeld.
- Geben Sie im Textfeld Prompt schreiben an, welche Änderungen Sie am Bild vornehmen möchten.
- Klicken Sie auf die Schaltfläche Prompt ( ).
Gemini generiert anhand Ihrer Beschreibung eine bearbeitete Version des bereitgestellten Bildes. Dieser Vorgang sollte nur wenige Sekunden dauern, kann aber je nach Kapazität auch etwas länger dauern.
Gen AI SDK for Python
Installieren
pip install --upgrade google-genai
Weitere Informationen finden Sie in der SDK-Referenzdokumentation.
Legen Sie Umgebungsvariablen fest, um das Gen AI SDK mit Vertex AI zu verwenden:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
REST
Führen Sie folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${API_ENDPOINT}:generateContent \
-d '{
"contents": {
"role": "USER",
"parts": [
{"file_data": {
"mime_type": "image/jpg",
"file_uri": "<var>FILE_NAME</var>"
}
},
{"text": "Convert this photo to black and white, in a cartoonish style."},
]
},
"generation_config": {
"response_modalities": ["TEXT", "IMAGE"],
},
"safetySettings": {
"method": "PROBABILITY",
"category": "HARM_CATEGORY_DANGEROUS_CONTENT",
"threshold": "BLOCK_MEDIUM_AND_ABOVE"
},
}' 2>/dev/null >response.json
Gemini generiert anhand Ihrer Beschreibung ein Bild. Dieser Vorgang sollte nur wenige Sekunden dauern, kann aber je nach Kapazität auch etwas länger dauern.
Verschachtelte Bilder und Texte erstellen
Gemini 2.0 Flash kann mit seinen Textantworten überlappende Bilder generieren. So können Sie beispielsweise Bilder für jeden Schritt eines generierten Rezepts erstellen, die zum Text des jeweiligen Schritts passen, ohne separate Anfragen an das Modell senden zu müssen.
Console
So generieren Sie verschachtelte Bilder mit Textantworten:
- Öffnen Sie Vertex AI Studio > Prompt erstellen.
-
Klicken Sie auf Modell wechseln und wählen Sie im Menü
gemini-2.0-flash-preview-image-generation
aus. - Wählen Sie im Bereich Ausgaben im Drop-down-Menü die Option Bild und Text aus.
- Geben Sie im Textfeld Prompt schreiben eine Beschreibung des Bildes ein, das Sie generieren möchten. Beispiel: „Eine Anleitung erstellen, wie man in drei einfachen Schritten ein Erdnussbutter-Marmelade-Sandwich zubereitet. Geben Sie für jeden Schritt einen Titel mit der Nummer des Schritts und eine Erklärung an. Erstellen Sie außerdem ein Bild im Seitenverhältnis 1:1.“
- Klicken Sie auf die Schaltfläche Prompt ( ).
Gemini generiert eine Antwort anhand Ihrer Beschreibung. Dieser Vorgang sollte nur wenige Sekunden dauern, kann aber je nach Kapazität auch etwas länger dauern.
Gen AI SDK for Python
Installieren
pip install --upgrade google-genai
Weitere Informationen finden Sie in der SDK-Referenzdokumentation.
Legen Sie Umgebungsvariablen fest, um das Gen AI SDK mit Vertex AI zu verwenden:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
REST
Führen Sie folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${API_ENDPOINT}:generateContent \
-d '{
"contents": {
"role": "USER",
"parts": { "text": "Create a tutorial explaining how to make a peanut butter and jelly sandwich in three easy steps. For each step, provide a title with the number of the step, an explanation, and also generate an image, generate each image in a 1:1 aspect ratio."},
},
"generation_config": {
"response_modalities": ["TEXT", "IMAGE"],
},
"safetySettings": {
"method": "PROBABILITY",
"category": "HARM_CATEGORY_DANGEROUS_CONTENT",
"threshold": "BLOCK_MEDIUM_AND_ABOVE"
},
}' 2>/dev/null >response.json
Gemini generiert anhand Ihrer Beschreibung ein Bild. Dieser Vorgang sollte nur wenige Sekunden dauern, kann aber je nach Kapazität auch etwas länger dauern.