Embeddings API 總覽

嵌入是指以數值表示文字、圖像或影片,藉此掌握輸入內容之間的關係。機器學習模型 (尤其是生成式 AI 模型) 適合透過識別大量資料集內的模式來建立嵌入資料。應用程式可以使用嵌入功能處理及產生語言,並識別內容的複雜含義和語意關係。每次完成 Google 搜尋或看到音樂串流推薦內容時,都會與嵌入項目互動。

嵌入功能會將文字、圖片和影片轉換為浮點陣列,稱為向量。這些向量旨在擷取文字、圖片和影片的意義。內嵌陣列的長度稱為向量的維度。舉例來說,一小段文字可能會以含有數百個維度的向量表示。接著,應用程式會計算兩個文字向量表示法之間的數值距離,藉此判斷物件之間的相似程度。

Vertex AI 支援兩種嵌入模型:文字和多模態。

文字嵌入用途

文字嵌入的常見用途包括:

  • 語意搜尋:搜尋按語意相似度排序的文字。
  • 分類:傳回文字屬性與指定文字相似的項目類別。
  • 分群:將文字屬性與指定文字相似的項目分群。
  • 異常值偵測:傳回文字屬性與指定文字最不相關的項目。
  • 對話介面:將可能產生類似回應的句子群組歸類,例如對話層級的嵌入空間。

用途範例:開發書籍推薦聊天機器人

如果您想開發書籍推薦聊天機器人,首先請使用深度神經網路 (DNN),將每本書籍轉換為嵌入向量,其中一個嵌入向量代表一本書籍。您可以將書籍名稱或文字內容做為 DNN 的輸入內容。或者,您也可以同時使用這兩者,以及任何其他描述書籍的中繼資料,例如類型。

這個範例中的嵌入資料可能包含數千本書籍的書名、摘要和類型,並且可能會針對 Emily Brontë 的 Wuthering Heights 和 Jane Austen 的 Persuasion 等相似的書籍提供表示法 (數值表示法之間的距離很小)。而 F.Scott Fitzgerald 的距離會更遠,因為時間範圍、類型和摘要的相似程度較低。

這些輸入內容是決定嵌入空間方向的主要因素。舉例來說,如果我們只有書籍名稱輸入內容,那麼兩本書籍雖然有相似的書名,但摘要內容卻大不相同,不過,如果我們納入書名和摘要,這些書籍在嵌入空間中的相似度就會降低 (距離更遠)。

這個書籍建議聊天機器人會運用生成式 AI,根據您的查詢,摘要、建議及顯示您可能喜歡 (或不喜歡) 的書籍。

多模態嵌入的用途

多模態嵌入的常見用途包括:

  • 圖片和文字用途:

    • 圖片分類:以圖片做為輸入,並預測一或多個類別 (標籤)。
    • 圖片搜尋:搜尋相關或相似的圖片。
    • 推薦內容:根據圖片生成產品或廣告推薦內容。
  • 圖片、文字和影片用途:

    • 推薦內容:根據影片產生產品或廣告推薦內容 (相似搜尋)。
    • 影片內容搜尋
    • 使用語意搜尋:將文字做為輸入內容,並依據查詢傳回一組排序過的影格。
    • 使用相似搜尋功能
      • 將影片做為輸入內容,並傳回與查詢相符的影片。
      • 將圖片做為輸入內容,並傳回與查詢相符的影片。
    • 影片分類:將影片做為輸入內容,並預測一或多個類別。

使用案例範例:線上零售體驗

線上零售商越來越常運用多模態嵌入技術,提升顧客體驗。每當你在購物時看到個人化產品推薦內容,以及透過文字搜尋取得視覺結果時,就會與嵌入項目互動。

如果您想為線上零售用途建立多模態嵌入資料,請先處理每張產品圖片,產生獨特的圖片嵌入資料,這是其視覺風格、調色盤、重要細節等的數學表示法。同時將產品說明、顧客評論和其他相關文字資料轉換為文字嵌入項目,以便擷取語意和語境。將這些圖片和文字嵌入內容合併至統一搜尋和推薦引擎後,商店就能根據顧客的瀏覽記錄和偏好,提供與視覺相似項目的個人化推薦內容。此外,消費者還能使用自然語言描述搜尋產品,引擎會擷取並顯示與搜尋查詢最相似的視覺項目。舉例來說,如果消費者搜尋「黑色夏季洋裝」,搜尋引擎就會顯示黑色夏季洋裝,這類洋裝的剪裁方式較輕薄,材質也較輕,可能為無袖款式。這項功能結合了視覺和文字理解功能,可打造流暢的購物體驗,提升客戶參與度和滿意度,進而帶動銷售。

後續步驟