Anwendung mit der Vertex AI Gemini API zu Gemini 2 migrieren

In dieser Anleitung erfahren Sie, wie Sie Anwendungen mit generativer KI von Gemini 1.x- und PaLM-Modellen zu Gemini 2-Modellen migrieren.

Vorteile der Migration zu Gemini 2

Gemini 2 bietet im Vergleich zu Gemini 1.x- und PaLM-Modellen erhebliche Leistungsverbesserungen sowie neue Funktionen. Außerdem hat jede Modellversion einen eigenen Zeitplan für die Versionsunterstützung und -verfügbarkeit.

Das Upgrade der meisten Anwendungen mit generativer KI auf Gemini 2 sollte keine erhebliche Neuentwicklung von Prompts oder Code erfordern. Bei einigen Anwendungen sind jedoch sofortige Änderungen erforderlich. Diese Änderungen lassen sich nur schwer vorhersagen, ohne den Prompt zuerst durch Gemini 2 zu führen. Daher wird vor der Migration empfohlen, Gemini 2 zu testen.

Erhebliche Codeänderungen sind nur bei bestimmten erheblichen Änderungen oder zur Verwendung neuer Gemini 2-Funktionen erforderlich.

Zu welchem Gemini 2-Modell sollte ich migrieren?

Bei der Auswahl eines Gemini 2-Modells, zu dem Sie migrieren möchten, sollten Sie die für Ihre Anwendung erforderlichen Funktionen sowie die Kosten für diese Funktionen berücksichtigen.

Eine Übersicht über die Modellfunktionen von Gemini 2 finden Sie unter Gemini 2. Eine Übersicht über alle Google-Modelle finden Sie unter Google-Modelle.

Einen Vergleich der Gemini 1.x- und Gemini 2-Modelle finden Sie in der folgenden Tabelle.

Funktion Gemini 1.0 Pro Gemini 1.5 Pro, Gemini 1.5 Flash Gemini 2.0 Flash Gemini 2.0 Flash-Lite
Eingabemodalitäten Text Text, Dokumente, Bilder, Video, Audio Text, Dokumente, Bilder, Video, Audio Text, Dokumente, Bilder, Video, Audio Text, Dokumente, Bilder, Video, Audio
Ausgabemodalitäten Text Text Text Text Text
Kontextfenster, Gesamttokenlimit 32.760 2.097.152 1.048.576 1.048.576 1.048.576
Länge des Ausgabekontexts 8.192 8.192 8.192 8.192 8.192
Fundierung mit der Google Suche Nein Ja Ja Ja Nein
Funktionsaufrufe Nein Ja Ja Ja Ja
Codeausführung Nein Nein Nein Ja Nein
Kontext-Caching Nein Ja Ja Ja Nein
Batchvorhersage Nein Ja Ja Ja Ja
Live API Nein Nein Nein Nein Nein
Latenz Langsamer als 1.5 Flash Leistungsstärkste Kamera in der 1,5-Zoll-Klasse Schnellste Version der 1.5-Familie Schnell und kostengünstig Schnell und kostengünstig
Optimierung Ja Ja Ja Ja Ja
Empfohlenes SDK Vertex AI SDK Vertex AI SDK Vertex AI SDK Gen AI SDK Gen AI SDK
Preiseinheiten Zeichen Zeichen Zeichen Token Token

Hinweise

Für eine reibungslose Migration zu Gemini 2 empfehlen wir Ihnen, die folgenden Punkte zu beachten, bevor Sie mit der Migration beginnen.

Informationen zur Einstellung von Modellen

Beachten Sie die Zeitpläne für die Unterstützung und Verfügbarkeit von Modellversionen für ältere Gemini-Modelle und sorgen Sie dafür, dass die Migration abgeschlossen ist, bevor das von Ihnen verwendete Modell eingestellt wird.

Informationssicherheit, Governance und behördliche Genehmigungen

Fordern Sie proaktiv die Genehmigungen ein, die Sie für Gemini 2 von Ihren Stakeholdern für Informationssicherheit (InfoSec), Risiko und Compliance benötigen. Achten Sie darauf, domänenspezifische Risiko- und Compliance-Einschränkungen zu berücksichtigen, insbesondere in stark regulierten Branchen wie dem Gesundheitswesen und Finanzdienstleistungen. Die Gemini-Sicherheitseinstellungen unterscheiden sich je nach Gemini 2-Modell.

Standort-Verfügbarkeit

Sehen Sie in der Dokumentation Verfügbarkeit von generativer KI auf Google Cloud-Modellen und Partnermodellen Google Cloud nach, ob das von Ihnen ausgewählte Gemini 2-Modell in den Regionen verfügbar ist, in denen Sie es benötigen. Alternativ können Sie zum globalen Endpunkt wechseln.

Preisunterschiede aufgrund der Modalität und Tokenisierung

Sehen Sie sich die Gemini 2-Preise für alle Modalitäten (Text, Code, Bilder, Sprache) in Ihrer Anwendung an. Weitere Informationen finden Sie auf der Preisseite für Generative AI. Die Preise für die Texteingabe und ‑ausgabe in Gemini 2 werden pro Token berechnet, während sie in Gemini 1 pro Zeichen berechnet werden.

Bereitgestellter Durchsatz

Kaufen Sie bei Bedarf zusätzlichen bereitgestellten Durchsatz für Gemini 2 oder ändern Sie vorhandene Aufträge für bereitgestellten Durchsatz.

Überwachte Feinabstimmung

Wenn für Ihre Gemini-Anwendung die überwachte Feinabstimmung verwendet wird, reichen Sie einen neuen Tuning-Job mit Gemini 2 ein. Wir empfehlen, mit den Standard-Hyperparametern für die Abstimmung zu beginnen, anstatt die Hyperparameterwerte zu verwenden, die Sie in früheren Gemini-Versionen verwendet haben. Der Tuning-Dienst wurde für Gemini 2 optimiert. Daher erzielen Sie mit der Wiederverwendung vorheriger Hyperparameterwerte möglicherweise nicht die besten Ergebnisse.

Regressionstest

Beim Upgrade auf Gemini 2-Modelle gibt es drei Haupttypen von Regressionstests:

  • Code-Regressionstests: Regressionstests aus der Sicht von Softwareentwicklung und DevOps. Diese Art von Regressionstest ist immer erforderlich.
  • Regressionstests zur Modellleistung: Regressionstests aus der Perspektive der Datenwissenschaft oder des Machine Learning. Das bedeutet, dass das neue Gemini 2-Modell Ergebnisse liefern muss, die mindestens so hochwertig sind wie die des aktuellen Produktionsmodells. Regressionstests zur Modellleistung sind nur Modellbewertungen, die im Rahmen einer Änderung an einem System oder am zugrunde liegenden Modell durchgeführt werden. Regressionstests zur Modellleistung lassen sich weiter unterteilen in:
    • Offline-Modellleistungstests: Die Qualität der Modellergebnisse wird in einer speziellen Testumgebung anhand verschiedener Messwerte für die Qualität der Modellergebnisse bewertet.
    • Online-Modellleistungstests: Bei einer Live-Onlinebereitstellung wird anhand von implizitem oder explizitem Nutzerfeedback die Qualität der Modellergebnisse bewertet.
  • Lasttests: Hier wird geprüft, wie die Anwendung mit einer großen Anzahl von Inferenzanfragen umgeht. Dieser Regressionstest ist für Anwendungen erforderlich, für die ein bereitgestellter Durchsatz erforderlich ist.

Anforderungen an die Modellbewertung und -tests dokumentieren

  1. Bereiten Sie sich darauf vor, alle relevanten Bewertungen aus der Zeit der ursprünglichen Erstellung Ihrer Anwendung sowie alle relevanten Bewertungen, die Sie seitdem durchgeführt haben, zu wiederholen.
  2. Wenn Sie der Meinung sind, dass Ihre vorhandenen Bewertungen die Bandbreite der Aufgaben, die Ihre Anwendung ausführt, nicht angemessen abdecken oder messen, sollten Sie zusätzliche Bewertungen entwerfen und vorbereiten.
  3. Wenn Ihre Anwendung die Bewertungsskala, die Verwendung von Tools, komplexe Workflows für Kundenservicemitarbeiter oder Prompt-Ketten umfasst, müssen Ihre vorhandenen Bewertungsdaten eine unabhängige Bewertung der einzelnen Komponenten ermöglichen. Falls nicht, sammeln Sie Beispiele für Eingaben und Ausgaben für jede Komponente.
  4. Wenn Ihre Anwendung besonders wirkungsvoll ist oder Teil eines größeren nutzerorientierten Echtzeitsystems ist, sollten Sie eine Onlinebewertung einbeziehen.

Code-Upgrades und -Tests

Wir empfehlen ein Upgrade auf das Google Gen AI SDK.

Wenn Sie in Ihrer Gemini 1.x-Anwendung das Vertex AI SDK verwenden, sollten Sie auf das Gen AI SDK umstellen. Neue Gemini 2-Funktionen sind nur im Gen AI SDK verfügbar. Sie müssen jedoch nicht zum Gen AI SDK wechseln, wenn für Ihre Anwendung nur Funktionen erforderlich sind, die im Vertex AI SDK verfügbar sind. Wenn Sie das Gen AI SDK noch nicht kennen, sehen Sie sich das Notebook Einstieg in die generative KI von Google mit dem Gen AI SDK an.

Gen AI SDK

Wir empfehlen, beim Upgrade auf Gemini 2.0 zum Gen AI SDK zu migrieren.

Wenn Sie das Gen AI SDK verwenden, unterscheidet sich die Einrichtung vom Vertex AI SDK.

Weitere Informationen finden Sie im Google Gen AI SDK.

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Legen Sie Umgebungsvariablen fest, um das Gen AI SDK mit Vertex AI zu verwenden:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
    model="gemini-2.0-flash-001",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

Ersetzen Sie GOOGLE_CLOUD_PROJECT durch Ihre Google Cloud Projekt-ID und GOOGLE_CLOUD_LOCATION durch den Speicherort Ihres Google Cloud Projekts (z. B. us-central1).

Vertex AI SDK

Wenn Sie das Vertex AI SDK wiederverwenden, ist die Einrichtung für die Modelle 1.0, 1.5 und 2.0 identisch. Weitere Informationen finden Sie unter Einführung in das Vertex AI SDK für Python.

Installieren Sie das SDK:

pip install --upgrade --quiet google-cloud-aiplatform

Im Folgenden finden Sie ein kurzes Codebeispiel, das das Vertex AI SDK für Python verwendet:

import vertexai
from vertexai.generative_models import GenerativeModel

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"
vertexai.init(project=PROJECT_ID, location="us-central1")

model = GenerativeModel("gemini-2.0-flash-001")

response = model.generate_content(
    "What's a good name for a flower shop that specializes in selling bouquets of dried flowers?"
)

print(response.text)
# Example response:
# **Emphasizing the Dried Aspect:**
# * Everlasting Blooms
# * Dried & Delightful
# * The Petal Preserve
# ...

Ersetzen Sie PROJECT_ID durch Ihre Google Cloud Projekt-ID und LOCATION durch den Speicherort Ihres Google Cloud Projekts (z. B. us-central1). Ändern Sie dann die Modell-ID von gemini-1.5-flash-002 in gemini-2.0-flash.

Gemini-Anrufe ändern

Ändern Sie Ihren Vorhersagecode, damit Gemini 2 verwendet wird. Das bedeutet mindestens, dass Sie den Namen des Endpunkts des Modells in ein Gemini 2-Modell ändern müssen, wenn Sie Ihr Modell laden.

Die genaue Codeänderung hängt davon ab, wie Sie Ihre Anwendung ursprünglich implementiert haben und insbesondere, ob Sie das Gen AI SDK oder das Vertex AI SDK verwendet haben.

Führen Sie nach den Codeänderungen Code-Regressionstests und andere Softwaretests durch, um sicherzustellen, dass der Code funktioniert. Dieser Test soll nur prüfen, ob der Code richtig funktioniert. Sie ist nicht dazu gedacht, die Qualität der Modellantworten zu bewerten.

Änderungen am Code für die Adressaufteilung

Konzentrieren Sie sich in diesem Schritt nur auf Codeänderungen. Möglicherweise müssen Sie noch weitere Änderungen vornehmen. Warten Sie jedoch, bis Sie mit der Bewertung beginnen, und nehmen Sie dann anhand der Ergebnisse die folgenden Anpassungen vor:

  • Wenn Sie vom dynamischen Abruf zum Abruf über die Google Suche wechseln, müssen Sie möglicherweise mit Systemanweisungen experimentieren, um festzulegen, wann die Google Suche verwendet wird (z. B. "Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."). Warten Sie jedoch, bis Sie die Ergebnisse ausgewertet haben, bevor Sie Änderungen vornehmen.
  • Wenn Sie den Parameter Top-K verwendet haben, passen Sie andere Parameter für die Tokenstichprobenerhebung an, z. B. Top-P, um ähnliche Ergebnisse zu erzielen.

Offlinebewertung

Wiederholen Sie die Bewertung, die Sie bei der ursprünglichen Entwicklung und Einführung Ihrer App durchgeführt haben, sowie alle weiteren Offlinebewertungen, die Sie nach der Einführung durchgeführt haben, und alle zusätzlichen Bewertungen, die Sie in Schritt 1 identifiziert haben. Wenn Sie der Meinung sind, dass Ihre Bewertung die Breite und Tiefe Ihrer Anwendung nicht vollständig erfasst, führen Sie eine weitere Bewertung durch.

Wenn Sie keine automatisierte Möglichkeit haben, Ihre Offlinebewertungen auszuführen, können Sie den Gen AI Evaluation Service verwenden.

Wenn in Ihrer Anwendung eine Feinabstimmung verwendet wird, führen Sie eine Offlinebewertung durch, bevor Sie Ihr Modell mit Gemini 2 neu abstimmen. Die verbesserte Ausgabequalität von Gemini 2 kann bedeuten, dass für Ihre Anwendung kein optimiertes Modell mehr erforderlich ist.

Bewertungsergebnisse auswerten und Gemini 2-Prompts und -Hyperparameter optimieren

Wenn Ihre Offlinebewertung einen Leistungsabfall mit Gemini 2 zeigt, optimieren Sie Ihre Anwendung so, bis die Leistung von Gemini der des älteren Modells entspricht:

  • Optimieren Sie Ihre Prompts iterativ, um die Leistung zu verbessern („Hill Climbing“). Wenn Sie mit dem Hill-Climbing-Verfahren noch nicht vertraut sind, sehen Sie sich das Onlinetraining für Hill-Climbing mit Vertex Gemini an. Der Vertex AI Prompt Optimizer (Beispiel-Notebook) kann ebenfalls hilfreich sein.
  • Wenn für Ihre Anwendung bereits eine Feinabstimmung erforderlich ist, können Sie Gemini 2 optimieren.
  • Wenn Ihre Anwendung von den grundlegenden Änderungen bei der dynamischen Suche und Top-K-Stichprobenerhebung betroffen ist, können Sie die Parameter für Prompts und Token-Stichprobenerhebung ändern.

Lasttests

Wenn Ihre Anwendung einen bestimmten Mindestdurchsatz erfordert, führen Sie Lasttests durch, um sicherzustellen, dass die Gemini 2-Version Ihrer Anwendung Ihre Durchsatzanforderungen erfüllt.

Lasttests sollten vor der Onlinebewertung durchgeführt werden, da für die Onlinebewertung Produktionstraffic auf Gemini 2 geleitet werden muss. Verwenden Sie Ihre vorhandenen Tools für das Last-Testen, um diesen Schritt auszuführen.

Wenn Ihre Anwendung bereits die Durchsatzanforderungen erfüllt, sollten Sie Provisioned Throughput verwenden. Sie benötigen zusätzlichen kurzfristigen bereitgestellten Durchsatz, um Lasttests durchzuführen, während Ihre vorhandene Bereitstellung für den bereitgestellten Durchsatz weiterhin Produktionstraffic verarbeitet.

Onlinebewertung

Fahren Sie nur dann mit der Onlinebewertung fort, wenn die Offlinebewertung eine ausreichende Gemini-Ausgabequalität und Ihre Anwendung eine Onlinebewertung erfordert.

Die Onlinebewertung ist ein Sonderfall des Onlinetests. Verwenden Sie nach Möglichkeit die vorhandenen Tools und Verfahren Ihrer Organisation für die Onlinebewertung. Beispiel:

  • Wenn Ihre Organisation regelmäßig A/B-Tests durchführt, führen Sie einen A/B-Test durch, bei dem die aktuelle Implementierung Ihrer Anwendung mit der Gemini 2-Version verglichen wird.
  • Wenn Ihre Organisation regelmäßig Kanarien-Releases durchführt, sollten Sie dies auch mit Gemini 2 tun und Unterschiede im Nutzerverhalten messen.

Eine Online-Bewertung kann auch durch Einbinden neuer Feedback- und Analysefunktionen in Ihre Anwendung erfolgen. Für verschiedene Anwendungen sind unterschiedliche Feedback- und Analysefunktionen geeignet. Beispiel:

  • Die Schaltflächen „Mag ich“ und „Mag ich nicht“ neben den Modellausgaben hinzufügen und die Anzahl der positiven und negativen Bewertungen zwischen einem älteren Modell und Gemini 2 vergleichen.
  • Die Nutzer werden gebeten, die Ausgabe des älteren Modells und die von Gemini 2 nebeneinander zu vergleichen und ihren Favoriten auszuwählen.
  • Wir erfassen, wie oft Nutzer ältere Modelle überschreiben oder manuell anpassen, im Vergleich zu Gemini 2-Ausgaben.

Für diese Art von Feedbackmechanismen ist es oft erforderlich, eine Gemini 2-Version Ihrer Anwendung parallel zur vorhandenen Version auszuführen. Diese parallele Bereitstellung wird manchmal als „Schattenmodus“ oder „Blue-Green-Bereitstellung“ bezeichnet.

Wenn sich die Ergebnisse der Online- und der Offlinebewertung deutlich unterscheiden, werden in der Offlinebewertung wichtige Aspekte der Liveumgebung oder der Nutzererfahrung nicht erfasst. Verwenden Sie die Ergebnisse der Onlinebewertung, um eine neue Offlinebewertung zu erstellen, die die Lücke schließt, die die Onlinebewertung aufgedeckt hat. Kehren Sie dann zu Schritt 3 zurück.

Wenn Sie den bereitgestellten Durchsatz verwenden, müssen Sie möglicherweise zusätzlichen kurzfristigen bereitgestellten Durchsatz erwerben, um Ihre Durchsatzanforderungen für Nutzer, die einer Onlinebewertung unterliegen, weiterhin zu erfüllen.

Produktionsbereitstellung

Sobald Ihre Bewertung zeigt, dass Gemini 2 die Leistung eines älteren Modells erreicht oder übertrifft, deaktivieren Sie die vorhandene Version Ihrer Anwendung und verwenden Sie stattdessen die Gemini 2-Version. Folgen Sie den bestehenden Verfahren Ihrer Organisation für die Produktionsbereitstellung.

Wenn Sie Provisioned Throughput verwenden, ändern Sie die Bestellung für Provisioned Throughput in das von Ihnen ausgewählte Gemini 2-Modell. Wenn Sie Ihre Anwendung inkrementell einführen, verwenden Sie den kurzfristig bereitgestellten Durchsatz, um die Durchsatzanforderungen für zwei verschiedene Gemini-Modelle zu erfüllen.

Modellleistung verbessern

Mit den folgenden Tipps können Sie die Leistung des Gemini 2-Modells maximieren:

  • Prüfen Sie Ihre Systemanleitungen, Prompts und Beispiele für Few-Shot-Lernen auf Inkonsistenzen, Widersprüche oder irrelevante Anleitungen und Beispiele.
  • Testen Sie ein leistungsstärkeres Modell. Wenn Sie beispielsweise Gemini 2.0 Flash-Lite bewertet haben, sollten Sie Gemini 2.0 Flash ausprobieren.
  • Prüfen Sie alle automatisierten Bewertungsergebnisse, um sicherzustellen, dass sie mit der menschlichen Beurteilung übereinstimmen, insbesondere Ergebnisse, bei denen ein Bewertungsmodell verwendet wird. Die Anleitung für das Bewertungsmodell darf keine Inkonsistenzen oder Unklarheiten enthalten.
  • Eine Möglichkeit, die Anleitung für das Bewertungsmodell zu verbessern, besteht darin, die Anleitung mit mehreren Personen einzeln zu testen und zu prüfen, ob ihre Urteile einheitlich sind. Wenn Menschen die Anleitung unterschiedlich interpretieren und unterschiedliche Urteile fällen, sind die Anleitungen für Ihr Bewertungsmodell nicht eindeutig.
  • Feineinstellen des Gemini 2-Modells
  • Prüfen Sie die Bewertungsergebnisse auf Muster, die bestimmte Arten von Fehlern zeigen. Wenn Sie Fehler in verschiedene Modelle, Arten oder Kategorien gruppieren, erhalten Sie gezieltere Bewertungsdaten, sodass Sie Prompts leichter an diese Fehler anpassen können.
  • Achten Sie darauf, die verschiedenen Komponenten der generativen KI unabhängig voneinander zu bewerten.
  • Probieren Sie verschiedene Parameter für die Tokenstichprobenerhebung aus.

Hilfe

Wenn Sie Hilfe benötigen, bietet Google Cloud Supportpakete für unterschiedliche Anforderungen, wie etwa Rund-um-die-Uhr-Verfügbarkeit, Telefonsupport und Kontakt mit einem technischen Supportmanager. Weitere Informationen finden Sie unter Google Cloud Support.

Nächste Schritte