In dieser Anleitung erfahren Sie, wie Sie Anwendungen mit generativer KI von Gemini 1.x- und PaLM-Modellen zu Gemini 2-Modellen migrieren.
Vorteile der Migration zu Gemini 2
Gemini 2 bietet im Vergleich zu Gemini 1.x- und PaLM-Modellen erhebliche Leistungsverbesserungen sowie neue Funktionen. Außerdem hat jede Modellversion einen eigenen Zeitplan für die Versionsunterstützung und -verfügbarkeit.
Das Upgrade der meisten Anwendungen mit generativer KI auf Gemini 2 sollte keine erhebliche Neuentwicklung von Prompts oder Code erfordern. Bei einigen Anwendungen sind jedoch sofortige Änderungen erforderlich. Diese Änderungen lassen sich nur schwer vorhersagen, ohne den Prompt zuerst durch Gemini 2 zu führen. Daher wird vor der Migration empfohlen, Gemini 2 zu testen.
Erhebliche Codeänderungen sind nur bei bestimmten erheblichen Änderungen oder zur Verwendung neuer Gemini 2-Funktionen erforderlich.
Zu welchem Gemini 2-Modell sollte ich migrieren?
Bei der Auswahl eines Gemini 2-Modells, zu dem Sie migrieren möchten, sollten Sie die für Ihre Anwendung erforderlichen Funktionen sowie die Kosten für diese Funktionen berücksichtigen.
Eine Übersicht über die Modellfunktionen von Gemini 2 finden Sie unter Gemini 2. Eine Übersicht über alle Google-Modelle finden Sie unter Google-Modelle.
Einen Vergleich der Gemini 1.x- und Gemini 2-Modelle finden Sie in der folgenden Tabelle.
Funktion | Gemini 1.0 Pro | Gemini 1.5 Pro, | Gemini 1.5 Flash | Gemini 2.0 Flash | Gemini 2.0 Flash-Lite |
---|---|---|---|---|---|
Eingabemodalitäten | Text | Text, Dokumente, Bilder, Video, Audio | Text, Dokumente, Bilder, Video, Audio | Text, Dokumente, Bilder, Video, Audio | Text, Dokumente, Bilder, Video, Audio |
Ausgabemodalitäten | Text | Text | Text | Text | Text |
Kontextfenster, Gesamttokenlimit | 32.760 | 2.097.152 | 1.048.576 | 1.048.576 | 1.048.576 |
Länge des Ausgabekontexts | 8.192 | 8.192 | 8.192 | 8.192 | 8.192 |
Fundierung mit der Google Suche | Nein | Ja | Ja | Ja | Nein |
Funktionsaufrufe | Nein | Ja | Ja | Ja | Ja |
Codeausführung | Nein | Nein | Nein | Ja | Nein |
Kontext-Caching | Nein | Ja | Ja | Ja | Nein |
Batchvorhersage | Nein | Ja | Ja | Ja | Ja |
Live API | Nein | Nein | Nein | Nein | Nein |
Latenz | Langsamer als 1.5 Flash | Leistungsstärkste Kamera in der 1,5-Zoll-Klasse | Schnellste Version der 1.5-Familie | Schnell und kostengünstig | Schnell und kostengünstig |
Optimierung | Ja | Ja | Ja | Ja | Ja |
Empfohlenes SDK | Vertex AI SDK | Vertex AI SDK | Vertex AI SDK | Gen AI SDK | Gen AI SDK |
Preiseinheiten | Zeichen | Zeichen | Zeichen | Token | Token |
Hinweise
Für eine reibungslose Migration zu Gemini 2 empfehlen wir Ihnen, die folgenden Punkte zu beachten, bevor Sie mit der Migration beginnen.
Informationen zur Einstellung von Modellen
Beachten Sie die Zeitpläne für die Unterstützung und Verfügbarkeit von Modellversionen für ältere Gemini-Modelle und sorgen Sie dafür, dass die Migration abgeschlossen ist, bevor das von Ihnen verwendete Modell eingestellt wird.
Informationssicherheit, Governance und behördliche Genehmigungen
Fordern Sie proaktiv die Genehmigungen ein, die Sie für Gemini 2 von Ihren Stakeholdern für Informationssicherheit (InfoSec), Risiko und Compliance benötigen. Achten Sie darauf, domänenspezifische Risiko- und Compliance-Einschränkungen zu berücksichtigen, insbesondere in stark regulierten Branchen wie dem Gesundheitswesen und Finanzdienstleistungen. Die Gemini-Sicherheitseinstellungen unterscheiden sich je nach Gemini 2-Modell.
Standort-Verfügbarkeit
Sehen Sie in der Dokumentation Verfügbarkeit von generativer KI auf Google Cloud-Modellen und Partnermodellen Google Cloud nach, ob das von Ihnen ausgewählte Gemini 2-Modell in den Regionen verfügbar ist, in denen Sie es benötigen. Alternativ können Sie zum globalen Endpunkt wechseln.
Preisunterschiede aufgrund der Modalität und Tokenisierung
Sehen Sie sich die Gemini 2-Preise für alle Modalitäten (Text, Code, Bilder, Sprache) in Ihrer Anwendung an. Weitere Informationen finden Sie auf der Preisseite für Generative AI. Die Preise für die Texteingabe und ‑ausgabe in Gemini 2 werden pro Token berechnet, während sie in Gemini 1 pro Zeichen berechnet werden.
Bereitgestellter Durchsatz
Kaufen Sie bei Bedarf zusätzlichen bereitgestellten Durchsatz für Gemini 2 oder ändern Sie vorhandene Aufträge für bereitgestellten Durchsatz.
Überwachte Feinabstimmung
Wenn für Ihre Gemini-Anwendung die überwachte Feinabstimmung verwendet wird, reichen Sie einen neuen Tuning-Job mit Gemini 2 ein. Wir empfehlen, mit den Standard-Hyperparametern für die Abstimmung zu beginnen, anstatt die Hyperparameterwerte zu verwenden, die Sie in früheren Gemini-Versionen verwendet haben. Der Tuning-Dienst wurde für Gemini 2 optimiert. Daher erzielen Sie mit der Wiederverwendung vorheriger Hyperparameterwerte möglicherweise nicht die besten Ergebnisse.
Regressionstest
Beim Upgrade auf Gemini 2-Modelle gibt es drei Haupttypen von Regressionstests:
- Code-Regressionstests: Regressionstests aus der Sicht von Softwareentwicklung und DevOps. Diese Art von Regressionstest ist immer erforderlich.
- Regressionstests zur Modellleistung: Regressionstests aus der Perspektive der Datenwissenschaft oder des Machine Learning. Das bedeutet, dass das neue Gemini 2-Modell Ergebnisse liefern muss, die mindestens so hochwertig sind wie die des aktuellen Produktionsmodells.
Regressionstests zur Modellleistung sind nur Modellbewertungen, die im Rahmen einer Änderung an einem System oder am zugrunde liegenden Modell durchgeführt werden.
Regressionstests zur Modellleistung lassen sich weiter unterteilen in:
- Offline-Modellleistungstests: Die Qualität der Modellergebnisse wird in einer speziellen Testumgebung anhand verschiedener Messwerte für die Qualität der Modellergebnisse bewertet.
- Online-Modellleistungstests: Bei einer Live-Onlinebereitstellung wird anhand von implizitem oder explizitem Nutzerfeedback die Qualität der Modellergebnisse bewertet.
- Lasttests: Hier wird geprüft, wie die Anwendung mit einer großen Anzahl von Inferenzanfragen umgeht. Dieser Regressionstest ist für Anwendungen erforderlich, für die ein bereitgestellter Durchsatz erforderlich ist.
Anforderungen an die Modellbewertung und -tests dokumentieren
- Bereiten Sie sich darauf vor, alle relevanten Bewertungen aus der Zeit der ursprünglichen Erstellung Ihrer Anwendung sowie alle relevanten Bewertungen, die Sie seitdem durchgeführt haben, zu wiederholen.
- Wenn Sie der Meinung sind, dass Ihre vorhandenen Bewertungen die Bandbreite der Aufgaben, die Ihre Anwendung ausführt, nicht angemessen abdecken oder messen, sollten Sie zusätzliche Bewertungen entwerfen und vorbereiten.
- Wenn Ihre Anwendung die Bewertungsskala, die Verwendung von Tools, komplexe Workflows für Kundenservicemitarbeiter oder Prompt-Ketten umfasst, müssen Ihre vorhandenen Bewertungsdaten eine unabhängige Bewertung der einzelnen Komponenten ermöglichen. Falls nicht, sammeln Sie Beispiele für Eingaben und Ausgaben für jede Komponente.
- Wenn Ihre Anwendung besonders wirkungsvoll ist oder Teil eines größeren nutzerorientierten Echtzeitsystems ist, sollten Sie eine Onlinebewertung einbeziehen.
Code-Upgrades und -Tests
Wir empfehlen ein Upgrade auf das Google Gen AI SDK.
Wenn Sie in Ihrer Gemini 1.x-Anwendung das Vertex AI SDK verwenden, sollten Sie auf das Gen AI SDK umstellen. Neue Gemini 2-Funktionen sind nur im Gen AI SDK verfügbar. Sie müssen jedoch nicht zum Gen AI SDK wechseln, wenn für Ihre Anwendung nur Funktionen erforderlich sind, die im Vertex AI SDK verfügbar sind. Wenn Sie das Gen AI SDK noch nicht kennen, sehen Sie sich das Notebook Einstieg in die generative KI von Google mit dem Gen AI SDK an.
Gen AI SDK
Wir empfehlen, beim Upgrade auf Gemini 2.0 zum Gen AI SDK zu migrieren.
Wenn Sie das Gen AI SDK verwenden, unterscheidet sich die Einrichtung vom Vertex AI SDK.
Weitere Informationen finden Sie im Google Gen AI SDK.
Installieren
pip install --upgrade google-genai
Weitere Informationen finden Sie in der SDK-Referenzdokumentation.
Legen Sie Umgebungsvariablen fest, um das Gen AI SDK mit Vertex AI zu verwenden:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Ersetzen Sie GOOGLE_CLOUD_PROJECT
durch Ihre Google Cloud Projekt-ID und GOOGLE_CLOUD_LOCATION
durch den Speicherort Ihres Google Cloud Projekts (z. B. us-central1
).
Vertex AI SDK
Wenn Sie das Vertex AI SDK wiederverwenden, ist die Einrichtung für die Modelle 1.0, 1.5 und 2.0 identisch. Weitere Informationen finden Sie unter Einführung in das Vertex AI SDK für Python.
Installieren Sie das SDK:
pip install --upgrade --quiet google-cloud-aiplatform
Im Folgenden finden Sie ein kurzes Codebeispiel, das das Vertex AI SDK für Python verwendet:
Ersetzen Sie PROJECT_ID
durch Ihre Google Cloud Projekt-ID und LOCATION
durch den Speicherort Ihres Google Cloud Projekts (z. B. us-central1
). Ändern Sie dann die Modell-ID von gemini-1.5-flash-002
in gemini-2.0-flash
.
Gemini-Anrufe ändern
Ändern Sie Ihren Vorhersagecode, damit Gemini 2 verwendet wird. Das bedeutet mindestens, dass Sie den Namen des Endpunkts des Modells in ein Gemini 2-Modell ändern müssen, wenn Sie Ihr Modell laden.
Die genaue Codeänderung hängt davon ab, wie Sie Ihre Anwendung ursprünglich implementiert haben und insbesondere, ob Sie das Gen AI SDK oder das Vertex AI SDK verwendet haben.
Führen Sie nach den Codeänderungen Code-Regressionstests und andere Softwaretests durch, um sicherzustellen, dass der Code funktioniert. Dieser Test soll nur prüfen, ob der Code richtig funktioniert. Sie ist nicht dazu gedacht, die Qualität der Modellantworten zu bewerten.
Änderungen am Code für die Adressaufteilung
- Dynamische Abfrage: Verwenden Sie stattdessen die Fundierung mit der Google Suche. Für diese Funktion ist das Gen AI SDK erforderlich. Das Vertex AI SDK unterstützt sie nicht.
- Inhaltsfilter: Beachten Sie die Standardeinstellungen für Inhaltsfilter und ändern Sie Ihren Code, wenn er auf einer geänderten Standardeinstellung basiert.
Top-K
-Token-Stichprobenparameter: Bei Modellen ab gemini-1.0-pro-vision kann der ParameterTop-K
nicht geändert werden.
Konzentrieren Sie sich in diesem Schritt nur auf Codeänderungen. Möglicherweise müssen Sie noch weitere Änderungen vornehmen. Warten Sie jedoch, bis Sie mit der Bewertung beginnen, und nehmen Sie dann anhand der Ergebnisse die folgenden Anpassungen vor:
- Wenn Sie vom dynamischen Abruf zum Abruf über die Google Suche wechseln, müssen Sie möglicherweise mit Systemanweisungen experimentieren, um festzulegen, wann die Google Suche verwendet wird (z. B.
"Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."
). Warten Sie jedoch, bis Sie die Ergebnisse ausgewertet haben, bevor Sie Änderungen vornehmen. - Wenn Sie den Parameter
Top-K
verwendet haben, passen Sie andere Parameter für die Tokenstichprobenerhebung an, z. B.Top-P
, um ähnliche Ergebnisse zu erzielen.
Offlinebewertung
Wiederholen Sie die Bewertung, die Sie bei der ursprünglichen Entwicklung und Einführung Ihrer App durchgeführt haben, sowie alle weiteren Offlinebewertungen, die Sie nach der Einführung durchgeführt haben, und alle zusätzlichen Bewertungen, die Sie in Schritt 1 identifiziert haben. Wenn Sie der Meinung sind, dass Ihre Bewertung die Breite und Tiefe Ihrer Anwendung nicht vollständig erfasst, führen Sie eine weitere Bewertung durch.
Wenn Sie keine automatisierte Möglichkeit haben, Ihre Offlinebewertungen auszuführen, können Sie den Gen AI Evaluation Service verwenden.
Wenn in Ihrer Anwendung eine Feinabstimmung verwendet wird, führen Sie eine Offlinebewertung durch, bevor Sie Ihr Modell mit Gemini 2 neu abstimmen. Die verbesserte Ausgabequalität von Gemini 2 kann bedeuten, dass für Ihre Anwendung kein optimiertes Modell mehr erforderlich ist.
Bewertungsergebnisse auswerten und Gemini 2-Prompts und -Hyperparameter optimieren
Wenn Ihre Offlinebewertung einen Leistungsabfall mit Gemini 2 zeigt, optimieren Sie Ihre Anwendung so, bis die Leistung von Gemini der des älteren Modells entspricht:
- Optimieren Sie Ihre Prompts iterativ, um die Leistung zu verbessern („Hill Climbing“). Wenn Sie mit dem Hill-Climbing-Verfahren noch nicht vertraut sind, sehen Sie sich das Onlinetraining für Hill-Climbing mit Vertex Gemini an. Der Vertex AI Prompt Optimizer (Beispiel-Notebook) kann ebenfalls hilfreich sein.
- Wenn für Ihre Anwendung bereits eine Feinabstimmung erforderlich ist, können Sie Gemini 2 optimieren.
- Wenn Ihre Anwendung von den grundlegenden Änderungen bei der dynamischen Suche und Top-K-Stichprobenerhebung betroffen ist, können Sie die Parameter für Prompts und Token-Stichprobenerhebung ändern.
Lasttests
Wenn Ihre Anwendung einen bestimmten Mindestdurchsatz erfordert, führen Sie Lasttests durch, um sicherzustellen, dass die Gemini 2-Version Ihrer Anwendung Ihre Durchsatzanforderungen erfüllt.
Lasttests sollten vor der Onlinebewertung durchgeführt werden, da für die Onlinebewertung Produktionstraffic auf Gemini 2 geleitet werden muss. Verwenden Sie Ihre vorhandenen Tools für das Last-Testen, um diesen Schritt auszuführen.
Wenn Ihre Anwendung bereits die Durchsatzanforderungen erfüllt, sollten Sie Provisioned Throughput verwenden. Sie benötigen zusätzlichen kurzfristigen bereitgestellten Durchsatz, um Lasttests durchzuführen, während Ihre vorhandene Bereitstellung für den bereitgestellten Durchsatz weiterhin Produktionstraffic verarbeitet.
Onlinebewertung
Fahren Sie nur dann mit der Onlinebewertung fort, wenn die Offlinebewertung eine ausreichende Gemini-Ausgabequalität und Ihre Anwendung eine Onlinebewertung erfordert.
Die Onlinebewertung ist ein Sonderfall des Onlinetests. Verwenden Sie nach Möglichkeit die vorhandenen Tools und Verfahren Ihrer Organisation für die Onlinebewertung. Beispiel:
- Wenn Ihre Organisation regelmäßig A/B-Tests durchführt, führen Sie einen A/B-Test durch, bei dem die aktuelle Implementierung Ihrer Anwendung mit der Gemini 2-Version verglichen wird.
- Wenn Ihre Organisation regelmäßig Kanarien-Releases durchführt, sollten Sie dies auch mit Gemini 2 tun und Unterschiede im Nutzerverhalten messen.
Eine Online-Bewertung kann auch durch Einbinden neuer Feedback- und Analysefunktionen in Ihre Anwendung erfolgen. Für verschiedene Anwendungen sind unterschiedliche Feedback- und Analysefunktionen geeignet. Beispiel:
- Die Schaltflächen „Mag ich“ und „Mag ich nicht“ neben den Modellausgaben hinzufügen und die Anzahl der positiven und negativen Bewertungen zwischen einem älteren Modell und Gemini 2 vergleichen.
- Die Nutzer werden gebeten, die Ausgabe des älteren Modells und die von Gemini 2 nebeneinander zu vergleichen und ihren Favoriten auszuwählen.
- Wir erfassen, wie oft Nutzer ältere Modelle überschreiben oder manuell anpassen, im Vergleich zu Gemini 2-Ausgaben.
Für diese Art von Feedbackmechanismen ist es oft erforderlich, eine Gemini 2-Version Ihrer Anwendung parallel zur vorhandenen Version auszuführen. Diese parallele Bereitstellung wird manchmal als „Schattenmodus“ oder „Blue-Green-Bereitstellung“ bezeichnet.
Wenn sich die Ergebnisse der Online- und der Offlinebewertung deutlich unterscheiden, werden in der Offlinebewertung wichtige Aspekte der Liveumgebung oder der Nutzererfahrung nicht erfasst. Verwenden Sie die Ergebnisse der Onlinebewertung, um eine neue Offlinebewertung zu erstellen, die die Lücke schließt, die die Onlinebewertung aufgedeckt hat. Kehren Sie dann zu Schritt 3 zurück.
Wenn Sie den bereitgestellten Durchsatz verwenden, müssen Sie möglicherweise zusätzlichen kurzfristigen bereitgestellten Durchsatz erwerben, um Ihre Durchsatzanforderungen für Nutzer, die einer Onlinebewertung unterliegen, weiterhin zu erfüllen.
Produktionsbereitstellung
Sobald Ihre Bewertung zeigt, dass Gemini 2 die Leistung eines älteren Modells erreicht oder übertrifft, deaktivieren Sie die vorhandene Version Ihrer Anwendung und verwenden Sie stattdessen die Gemini 2-Version. Folgen Sie den bestehenden Verfahren Ihrer Organisation für die Produktionsbereitstellung.
Wenn Sie Provisioned Throughput verwenden, ändern Sie die Bestellung für Provisioned Throughput in das von Ihnen ausgewählte Gemini 2-Modell. Wenn Sie Ihre Anwendung inkrementell einführen, verwenden Sie den kurzfristig bereitgestellten Durchsatz, um die Durchsatzanforderungen für zwei verschiedene Gemini-Modelle zu erfüllen.
Modellleistung verbessern
Mit den folgenden Tipps können Sie die Leistung des Gemini 2-Modells maximieren:
- Prüfen Sie Ihre Systemanleitungen, Prompts und Beispiele für Few-Shot-Lernen auf Inkonsistenzen, Widersprüche oder irrelevante Anleitungen und Beispiele.
- Testen Sie ein leistungsstärkeres Modell. Wenn Sie beispielsweise Gemini 2.0 Flash-Lite bewertet haben, sollten Sie Gemini 2.0 Flash ausprobieren.
- Prüfen Sie alle automatisierten Bewertungsergebnisse, um sicherzustellen, dass sie mit der menschlichen Beurteilung übereinstimmen, insbesondere Ergebnisse, bei denen ein Bewertungsmodell verwendet wird. Die Anleitung für das Bewertungsmodell darf keine Inkonsistenzen oder Unklarheiten enthalten.
- Eine Möglichkeit, die Anleitung für das Bewertungsmodell zu verbessern, besteht darin, die Anleitung mit mehreren Personen einzeln zu testen und zu prüfen, ob ihre Urteile einheitlich sind. Wenn Menschen die Anleitung unterschiedlich interpretieren und unterschiedliche Urteile fällen, sind die Anleitungen für Ihr Bewertungsmodell nicht eindeutig.
- Feineinstellen des Gemini 2-Modells
- Prüfen Sie die Bewertungsergebnisse auf Muster, die bestimmte Arten von Fehlern zeigen. Wenn Sie Fehler in verschiedene Modelle, Arten oder Kategorien gruppieren, erhalten Sie gezieltere Bewertungsdaten, sodass Sie Prompts leichter an diese Fehler anpassen können.
- Achten Sie darauf, die verschiedenen Komponenten der generativen KI unabhängig voneinander zu bewerten.
- Probieren Sie verschiedene Parameter für die Tokenstichprobenerhebung aus.
Hilfe
Wenn Sie Hilfe benötigen, bietet Google Cloud Supportpakete für unterschiedliche Anforderungen, wie etwa Rund-um-die-Uhr-Verfügbarkeit, Telefonsupport und Kontakt mit einem technischen Supportmanager. Weitere Informationen finden Sie unter Google Cloud Support.