詳細背景資訊

Gemini 的標準脈絡窗口支援 100 萬個符號。以往,大型語言模型 (LLM) 會受到一次可傳送至模型的文字 (或符記) 數量所限制。Gemini 的長脈絡窗口可近乎完美地擷取資料 (>99%),因此可發掘許多新的用途和開發人員模式。

您已在內容產生多模輸入等情況下使用這些程式碼,這些程式碼會在長時間背景下運作。

在本指南中,您將簡要瞭解脈絡視窗的基本概念、開發人員應如何思考長脈絡、長脈絡的各種實際用途,以及如何最佳化長脈絡的使用方式。

什麼是脈絡窗口?

使用 Gemini 模型的基本方式,就是將資訊 (脈絡) 傳遞至模型,讓模型隨後產生回覆。脈絡窗口可視為短期記憶。人類的短期記憶只能儲存有限的資訊,同樣地,生成式模型也無法儲存太多資訊。

如要進一步瞭解模型的運作方式,請參閱生成式模型指南

開始使用長時間內容

過去幾年內建立的大部分生成式模型,一次只能處理 8,000 個符記。較新的型號則可接受 32,000 個或 128,000 個符記。Gemini 是第一個可接受 100 萬個符號的模型,現在則是透過 Gemini 1.5 Pro 支援 200 萬個符號

實際上,100 萬個符記會如下所示:

  • 50,000 行程式碼 (每行標準 80 個半形字元)
  • 過去 5 年內傳送的所有簡訊
  • 8 本英文中長篇小說
  • 超過 200 份平均長度的 Podcast 節目轉錄稿

雖然模型可以納入越來越多的背景資訊,但許多關於使用大型語言模型的傳統智慧都假設模型有這個固有限制,但自 2024 年起,這不再是事實。

以下是處理小型內容視窗限制的常見策略:

  • 當新文字傳入時,任意從脈絡視窗中刪除舊訊息 / 文字
  • 當內容視窗即將滿時,摘要先前內容並用摘要取代
  • 搭配使用 RAG 和語意搜尋,將資料從脈絡窗口移至向量資料庫
  • 使用決定性或產生式篩選器,從提示中移除特定文字/字元,以便儲存符記

雖然在某些情況下,這些參數仍有相關性,但現在的預設起始位置是將所有符記放入脈絡視窗。由於 Gemini 模型是專門用於長篇幅的上下文窗口,因此更能進行上下文學習。舉例來說,如果只提供教材 (500 頁的參考文法、字典和約 400 個額外的平行句子),Gemini 1.5 Pro 和 Gemini 1.5 Flash 就能學會翻譯從英文翻譯成 Kalamang 的內容,而這項語言的使用者不到 200 人,因此幾乎沒有在網路上出現,但翻譯品質與從相同教材學習的使用者相似。

這個範例強調了 Gemini 的長時間背景資訊和內容相關學習功能,可讓您開始思考可能的應用方式。

長脈絡用途

雖然大多數生成式模型的標準用途仍是文字輸入,但 Gemini 模型系列可支援多模態用途的新典範。這些模型可原生解讀文字、影片、音訊和圖片。這些模型會搭配 適用於 Gemini 的 Vertex AI API,可接收多模態檔案類型,方便您使用。

長篇文字

文字已證明是 LLM 的動力來源之一,為其提供智慧層支援。如前文所述,LLM 的實際限制大多是因為沒有足夠大的背景資訊視窗來執行特定工作。因此,我們迅速採用檢索增強生成 (RAG) 和其他技術,以動態方式為模型提供相關的背景資訊。隨著脈絡窗口越來越大 (Gemini 1.5 Pro 目前最多可達 200 萬個詞元),我們也推出了新的技術,讓您發掘更多用途。

文字型長篇幅背景資訊的部分新興和標準用途包括:

  • 摘錄大量文字的語料庫
    • 先前的摘要選項使用較小的脈絡模型,因此需要使用滑動視窗或其他技巧,在將新符記傳遞至模型時,保留先前部分的狀態
  • 問與答
    • 以往,由於背景資訊有限,且模型的事實回憶率偏低,因此只有 RAG 能夠做到這一點
  • 代理工作流程
    • 文字是代理程式記錄自身所做及需要做的事的基礎;如果沒有足夠的資訊,代理程式就無法瞭解環境和自身目標,這會影響代理程式的可靠性

多樣本情境學習是長篇幅情境模型最獨特的功能之一。研究顯示,採用常見的「單樣本」或「多樣本」示例模式,也就是為模型提供一或數個任務範例,並將範例數量擴大至數百、數千或數十萬個,可帶來新穎的模型功能。這項多鏡頭方法的效能也與針對特定任務精細調整的模型相似。如果 Gemini 模型的效能尚不足以在實際工作環境中推廣,您可以嘗試多拍法。稍後您將在長時間背景資訊最佳化部分中瞭解,背景資訊快取可讓這類高輸入符記工作負載的經濟效益更高,在某些情況下甚至可縮短延遲時間。

長篇影片

長期以來,影片內容的實用性一直受到媒體本身缺乏無障礙性的問題所限制。內容難以瀏覽、轉錄稿通常無法捕捉影片的細微差異,而且大多數工具不會同時處理圖片、文字和音訊。有了 Gemini,長文字內容功能就能轉換為推理能力,並持續以多模態輸入內容回答問題。

以下是一些新興和標準的長篇影片背景資訊用途:

  • 影片問題與解答
  • Google Project Astra 顯示的影片記憶體
  • 影片字幕
  • 影片推薦系統,透過新多模態理解功能豐富現有中繼資料
  • 影片客製化功能:查看資料集和相關影片中繼資料,然後移除與觀眾不相關的影片片段
  • 影片內容審查
  • 即時處理影片

處理影片時,請務必考量影片如何轉換為符記,這會影響帳單和使用限制。如要進一步瞭解如何使用影片檔案提示,請參閱提示指南

長篇音訊

Gemini 模型是第一個可理解音訊的本機多模態大型語言模型。以往,開發人員的一般工作流程會將多個特定領域模型 (例如語音轉文字模型和文字轉文字模型) 串連在一起,以便處理音訊。這會導致執行多個往返要求所需的延遲時間增加,並降低效能,這通常是因為多個模型設定的架構未連結。

在標準音訊雜訊評估中,Gemini 1.5 Pro 可在 100% 的測試中找到隱藏的音訊,而 Gemini 1.5 Flash 則可在 98.7% 的測試中找到隱藏的音訊。Gemini 1.5 Flash 最多可接受 單一要求中的 9.5 小時音訊,而 Gemini 1.5 Pro 則可使用 200 萬個符記的脈絡窗口,最多接受 19 小時的音訊。此外,在 15 分鐘音訊片段的測試集上,Gemini 1.5 Pro 的字詞錯誤率 (WER) 約為 5.5%,比專門的語音轉文字模型還要低,而且不需要額外進行輸入區隔和預先處理,因此不必擔心複雜度增加。

音訊背景資訊的一些新興和標準用途包括:

  • 即時語音轉錄和翻譯
  • Podcast / 影片問答
  • 會議語音轉錄和摘要
  • 語音助理

如要進一步瞭解如何使用音訊檔案提示,請參閱提示指南

長文字背景最佳化

使用長脈絡和 Gemini 模型時,主要的最佳化方式是使用脈絡快取。除了先前提到的在單一要求中處理大量符記的可能性之外,成本也是另一個主要限制。如果您有一個「與資料對話」應用程式,使用者上傳 10 個 PDF、一個影片和一些工作文件,過去您必須使用更複雜的檢索增強生成 (RAG) 工具/架構,才能處理這些要求,並為移至內容視窗的符記支付大量費用。您現在可以將使用者上傳的檔案快取,並依每小時付費儲存檔案。每個要求的輸入 / 輸出成本低於標準輸入 / 輸出成本,因此如果使用者與其資料進行大量對話,開發人員就能節省大量費用。

長脈絡限制

在本指南的各個部分中,我們討論了 Gemini 模型如何在各種針尖上的稻草中尋找針的擷取評估中,達成高效能。這些測試會考量最基本的設定,也就是您要尋找的單一針頭。如果您可能有多個「針」或特定的資訊,模型的準確度就會降低。成效可能會因情境而有極大差異。這點相當重要,因為取得正確擷取資訊和成本之間存在著天生的權衡。您可以透過單一查詢取得約 99% 的結果,但每次傳送該查詢時,都必須支付輸入符記費用。因此,如果要擷取 100 筆資訊,如果您需要 99% 的成效,可能就需要傳送 100 個要求。這就是一個很好的例子,說明在使用 Gemini 模型時,快取內容可大幅降低相關成本,同時維持高效能。

後續步驟