自 2025 年 4 月 29 日起，Gemini 1.5 Pro 和 Gemini 1.5 Flash 模型將無法用於先前未使用這些模型的專案，包括新專案。詳情請參閱「模型版本和生命週期」。

本頁面由 Cloud Translation API 翻譯而成。

使用 Vertex AI 中的 Gemini API 將應用程式遷移至 Gemini 2

本指南說明如何將生成式 AI 應用程式從 Gemini 1.x 和 PaLM 模型遷移至 Gemini 2 模型。

為何要遷移至 Gemini 2？

Gemini 2 的效能大幅優於 Gemini 1.x 和 PaLM 模型，且具備新功能。此外，每個型號版本都有版本支援和發布時間表。

升級大部分生成式 AI 應用程式至 Gemini 2 時，不必大幅重新設計提示或程式碼。不過，某些應用程式需要變更提示，如果先透過 Gemini 2 執行提示，就很難預測這些變更。因此，建議您在遷移前先進行 Gemini 2 測試。

只有在需要進行重大程式碼變更，或要使用 Gemini 2 的新功能時，才需要進行重大程式碼變更。

我應該遷移至哪個 Gemini 2 模型？

選擇要遷移至的 Gemini 2 模型時，請考量應用程式所需的功能，以及這些功能的成本。

如要瞭解 Gemini 2 模型功能的總覽，請參閱 Gemini 2。如需所有 Google 模型的總覽，請參閱「Google 模型」。

如要比較可用的 Gemini 模型，請參閱下表。

功能	Gemini 1.5 Pro	Gemini 1.5 Flash	Gemini 2.0 Flash	Gemini 2.0 Flash-Lite	Gemini 2.5 Pro	Gemini 2.5 Flash
輸入模式	文字、文件、圖片、影片、音訊	文字、文件、圖片、影片、音訊	文字、文件、圖片、影片、音訊	文字、文件、圖片、影片、音訊	文字、文件、圖片、影片、音訊	文字、文件、圖片、影片、音訊
輸出模式	文字	文字	文字	文字	文字	文字
脈絡窗口、總詞元限制	2,097,152	1,048,576	1,048,576	1,048,576	1,048,576	1,048,576
輸出背景資訊長度	8,192	8,192	8,192	8,192	64,192	64,192
利用搜尋建立基準	是	是	是	否	是	是
函式呼叫	是	是	是	是	是	是
程式碼執行	否	否	是	否	是	是
脈絡快取	是	是	是	否	是	是
批次預測	是	是	是	是	是	是
Live API	否	否	否	否	否	否
延遲時間	1.5 代家族中最強大的產品	1.5 系列中速度最快	快速且具成本效益	快速且最具成本效益	速度較 Flash 慢，但成本效益佳	快速且最具成本效益
微調	是	是	是	是	是	是
建議的 SDK	Vertex AI SDK	Vertex AI SDK	Gen AI SDK	Gen AI SDK	Gen AI SDK	Gen AI SDK
計價單位	字元	字元	權杖	權杖	權杖	權杖

遷移程序總覽

本文件概述了將應用程式遷移至 Gemini 2 的八個步驟。請參考下圖瞭解各個步驟。

事前準備

步驟 1：完成先決條件

為確保 Gemini 2 遷移作業順利進行，建議您在開始遷移程序前解決下列問題。

模型停用通知：請注意舊版 Gemini 模型的模型版本支援和可用時間表，並確保在您使用的模型停用前完成遷移作業。
資訊安全、治理和法規核准：主動向資訊安全 (InfoSec)、風險和法規遵循的相關人員，申請 Gemini 2 所需的核准。請務必涵蓋特定領域的風險和法規遵循限制，特別是醫療照護和金融服務等受到嚴格管制的產業。請注意，Gemini 安全控制項會因 Gemini 2 型號而異。
地區供應情形：請參閱「Google Cloud 上的生成式 AI 模型和合作夥伴模型供應情形」說明文件，確認您選擇的 Gemini 2 模型是否可在所需地區使用，或考慮切換至全球端點。
依據模態和符號化方式計算的價格差異：請查看 Gemini 2 針對應用程式中所有模態 (文字、程式碼、圖片、語音) 的價格。詳情請參閱生成式 AI 定價頁面。請注意，Gemini 2 文字輸入和輸出計費單位為符號，Gemini 1 則是字元。
佈建的處理量：如有需要，請為 Gemini 2購買額外的佈建的處理量，或變更現有的佈建的處理量訂單。
監督式微調：如果 Gemini 應用程式使用監督式微調，請透過 Gemini 2 提交新的調校工作。建議您先使用預設的調整超參數，不要重複使用先前 Gemini 版本的超參數值。調音服務已針對 Gemini 2 進行最佳化調整。因此，重複使用先前的超參數值可能無法獲得最佳結果。
回歸測試：升級至 Gemini 2 模型時，需要進行三種主要的回歸測試：
- 程式碼回歸測試：從軟體工程和開發運作工程的角度進行回歸測試。這類回歸測試一律是必要的。
- 模型效能回歸測試：從資料科學或機器學習的角度進行回歸測試。也就是說，我們必須確保新版 Gemini 2 模型提供的輸出內容，至少能與目前正式版模型的輸出內容一樣高品質。模型效能迴歸測試只是在系統或基礎模型變更時進行的模型評估。模型效能迴歸測試可進一步細分為：
  - 離線模型效能測試：根據各種模型輸出品質指標，在專屬實驗環境中評估模型輸出內容的品質。
  - 線上模型效能測試：根據使用者的隱含或明確意見回饋，評估在線上實際部署中模型輸出的品質。
- 負載測試：評估應用程式處理大量推論要求的方式。需要用於已配置吞吐量的應用程式，必須執行這類迴歸測試。

記錄模型評估和測試要求

步驟 2：文件評估和測試要求

請準備重複執行您最初建構應用程式時的所有相關評估，以及自此之後進行的任何相關評估。
如果您認為現有的評估方式無法適當涵蓋或評估應用程式執行的任務範圍，則應設計及準備其他評估方式。
如果您的應用程式涉及 RAG、工具使用、複雜的代理程式工作流程或提示鏈結，請務必確保現有的評估資料可讓您獨立評估各個元件。如果沒有，請收集各個元件的輸入/輸出示例。
如果您的應用程式影響力特別大，或是屬於大型面向使用者的即時系統的一部分，則應納入線上評估。

程式碼升級和測試

步驟 3：升級及測試程式碼

如果 Gemini 1.x 應用程式使用 Vertex AI SDK，請考慮升級至 Gen AI SDK。新的 Gemini 2 功能僅適用於 Gen AI SDK。不過，如果應用程式只需要 Vertex AI SDK 提供的功能，就不需要切換至 Gen AI SDK。

特色 / 面向	Gen AI SDK	Vertex AI SDK
主要焦點	針對 Gemini 模型和新的生成式 AI 功能進行最佳化。	更廣泛的 Vertex AI 平台，包括傳統機器學習工作流程。
Gemini 2 功能支援	全面支援所有全新的 Gemini 2 功能。	支援有限，不會新增新功能。
建議	建議用於新應用程式，或使用 Gemini 2 進階功能。	如果應用程式只使用兩個 SDK 的共同功能，且已完成整合，則適用於這種情況。

如果您是 Gen AI SDK 的新手，請參閱「透過 Gen AI SDK 開始使用 Google 生成式 AI」的筆記本。

Gen AI SDK

升級至 Gemini 2.0 時，建議您改用 Gen AI SDK。如果您選擇使用 Gen AI SDK，設定程序會與 Vertex AI SDK 不同。如需更多資訊，請參閱 Google Gen AI SDK。

安裝

pip install --upgrade google-genai

詳情請參閱 SDK 參考說明文件。

設定環境變數

設定環境變數，以便在 Vertex AI 中使用 Gen AI SDK：

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
model="gemini-2.5-flash",
contents="How does AI work?",
)
print(response.text)

# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
# Here's a simplified overview:
# ...

將 GOOGLE_CLOUD_PROJECT 替換為您的 Google Cloud 專案 ID，並將 GOOGLE_CLOUD_LOCATION 替換為 Google Cloud 專案的位置 (例如 us-central1)。

Vertex AI SDK

如果您重複使用 Vertex AI SDK，1.0、1.5 和 2.0 模型的設定程序都相同。詳情請參閱「Python 適用的 Vertex AI SDK 簡介」。

安裝 SDK

 pip install --upgrade --quiet google-cloud-aiplatform

以下是使用 Python 適用的 Vertex AI SDK 的簡短程式碼範例：

 
import vertexai
from vertexai.generative_models import GenerativeModel

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"
vertexai.init(project=PROJECT_ID, location="us-central1")

model = GenerativeModel("gemini-2.0-flash-001")

response = model.generate_content(
    "What's a good name for a flower shop that specializes in selling bouquets of dried flowers?"
)

print(response.text)
# Example response:
# **Emphasizing the Dried Aspect:**
# * Everlasting Blooms
# * Dried & Delightful
# * The Petal Preserve
# ...

將 PROJECT_ID 替換為您的 Google Cloud 專案 ID，並將 LOCATION 替換為 Google Cloud 專案的位置 (例如 us-central1)。然後將模型 ID 從 gemini-1.5-flash-002 變更為 gemini-2.0-flash。

變更 Gemini 通話

變更預測程式碼，以便使用 Gemini 2。至少要將特定模型端點名稱變更為 Gemini 2 模型，才能載入模型。

具體的程式碼變更會因您最初實作應用程式的方式而異，尤其是您使用的是 Gen AI SDK 還是 Vertex AI SDK。

變更程式碼後，請對程式碼執行程式碼回歸測試和其他軟體測試，確保程式碼能夠執行。這項測試只會評估程式碼是否正常運作。這並非評估模型回覆的品質。

修正破壞性程式碼變更

動態擷取：改用Grounding with Google Search。這項功能需要使用 Gen AI SDK，Vertex AI SDK 不支援這項功能。
內容篩選器：請注意預設內容篩選器設定，如果程式碼依賴已變更的預設設定，請進行變更。
Top-K 權杖取樣參數：gemini-1.0-pro-vision 之後的模型不支援變更 Top-K 參數。

請只在這個步驟中專注於程式碼變更。您可能需要進行其他變更，但請等到開始評估後，再根據評估結果考慮下列調整方式：

如果您要從動態擷取功能切換，可能需要嘗試使用系統指示，以控制 Google 搜尋的使用時機 (例如 "Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic.")，但請先評估後再進行提示變更。
如果您使用 Top-K 參數，請調整其他符記取樣參數 (例如 Top-P)，以便取得類似的結果。

離線評估

步驟 4：執行離線評估

重複您在最初開發及推出應用程式時所進行的評估、推出後進行的任何離線評估，以及在步驟 1 中指出的任何其他評估。如果您認為評估結果無法充分掌握應用程式的廣度和深度，請進一步評估。

如果您沒有自動執行離線評估的方法，建議您使用 Gen AI 評估服務。

如果應用程式使用精細調整功能，請先執行離線評估，再使用 Gemini 2 重新調整模型。Gemini 2 的輸出品質提升後，應用程式可能就不需要精細調整模型。

評估評估結果，並調整 Gemini 2 提示和超參數

步驟 5：評估結果和調整提示

如果離線評估結果顯示 Gemini 2 的效能下降，請按照下列步驟重複執行應用程式，直到 Gemini 的效能與舊版模型一致：

迭代式設計提示，以改善成效 (「爬山」)。如果您是新手，請參閱 Vertex Gemini 爬升線上訓練課程。Vertex AI 提示最佳化工具 (範例筆記本) 也能提供協助。
如果應用程式已採用精細調整功能，請嘗試調整 Gemini 2。
如果您的應用程式受到動態擷取和前 K 次重大變更的影響，請嘗試變更提示和符記取樣參數。

負載測試

步驟 6：進行負載測試

如果應用程式需要特定的最低吞吐量，請執行負載測試，確保 Gemini 2 版應用程式符合吞吐量需求。

負載測試應在線上評估前進行，因為線上評估需要將 Gemini 2 公開給正式版流量。請使用現有的負載測試檢測工具執行此步驟。

如果您的應用程式已符合處理量規定，請考慮使用已配置的處理量。您需要額外的短期已配置吞吐量，才能進行負載測試，同時讓現有的已配置吞吐量訂單繼續提供正式版流量。

線上評估

步驟 7：執行線上評估

只有在離線評估顯示 Gemini 輸出品質足夠，且應用程式需要進行線上評估時，才進行線上評估。

線上評估是線上測驗的特殊情況。請嘗試使用貴機構現有的線上評估工具和程序。例如：

如果貴機構定期進行A/B 版本測試，請執行 A/B 版本測試，比較應用程式目前的實作方式與 Gemini 2 版本。
如果貴機構定期進行測試群組部署，請務必使用 Gemini 2 進行，並評估使用者行為的差異。

您也可以在應用程式中建構新的意見回饋和評估功能，以便進行線上評估。不同的應用程式適合使用不同的回饋和評估功能。例如：

在模型輸出內容旁邊新增「喜歡」和「不喜歡」按鈕，並比較舊版模型和 Gemini 2 之間的「喜歡」和「不喜歡」比率。
並排顯示舊版模型和 Gemini 2 的輸出結果，請使用者選擇喜歡的版本。
追蹤使用者覆寫或手動調整舊版模型與 Gemini 2 輸出結果的頻率。

這類的回饋機制通常需要同時執行 Gemini 2 版應用程式和現有版本。這種並行部署作業有時稱為「影像模式」或「藍綠部署」。

如果線上評估結果與離線評估結果有顯著差異，表示您的離線評估無法擷取實際環境或使用者體驗的重要面向。根據線上評估結果設計新的離線評估，以彌補線上評估所發現的差距，然後返回步驟 3。

如果您使用佈建傳輸量，可能需要購買額外的短期佈建傳輸量，才能持續滿足線上評估使用者的傳輸量需求。

正式部署

步驟 8：部署至實際工作環境

評估結果顯示 Gemini 2 的效能達到或超越舊版模型後，請關閉現有應用程式版本，改用 Gemini 2 版本。按照貴機構現有的正式版發布程序進行。

如果您使用佈建傳輸量，請將佈建傳輸量訂單改為所選 Gemini 2 模型。如果您要逐步推出應用程式，請使用短期預先配置的處理量，滿足兩種不同 Gemini 模型的處理量需求。

提高模型效能

完成遷移後，請參考下列提示，盡可能提升 Gemini 2 模型的成效：

檢查系統指令、提示和少樣本學習範例，看看是否有任何不一致、矛盾或不相關的指令和範例。
測試更強大的模型。舉例來說，如果您評估過 Gemini 2.0 Flash-Lite，請試試 Gemini 2.0 Flash。
檢查任何自動評估結果，確保結果與人工判斷一致，尤其是使用評判模型的結果。請確認評審模型指示內容不含不一致或模糊的內容。
改善判斷模型指示的其中一種方法，就是讓多位人類獨立測試指示，看看他們的判斷是否一致。如果人類解讀指示的方式不同，並做出不同的判斷，則判斷模型的指示不明確。
微調 Gemini 2 模型。
檢查評估輸出內容，找出顯示特定類型失敗的模式。將失敗項目分組為不同的模型、類型或類別，可讓您取得更精準的評估資料，方便調整提示來解決這些錯誤。
請務必個別評估不同的生成式 AI 元件。
嘗試調整符記取樣參數。

取得說明

如需協助，Google Cloud 提供多種支援方案以滿足您的需求，例如全年無休的支援服務、電話支援服務，以及技術支援經理提供的諮詢服務。詳情請參閱 Google Cloud 支援服務。

後續步驟

請參閱常見問題清單。
從 PaLM API 遷移至 Vertex AI 中的 Gemini API。