Vertex AI 預測 AI 專有名詞彙

  • 註解集
    • 註解集包含與資料集中已上傳來源檔案相關聯的標籤。註解集會與資料類型和目標 (例如影片/分類) 相關聯。
  • API 端點
    • API Endpoints 是服務設定的一個層面,用於指定網路位址,也就是服務端點 (例如 aiplatform.googleapis.com)。
  • 應用程式預設憑證 (ADC)
    • 應用程式預設憑證 (ADC) 提供簡單的方式,讓您取得呼叫 Google API 時使用的授權憑證。如果對獨立於使用者的應用程式所發出的呼叫必須具備相同的身分和授權層級,應用程式預設憑證是最合適的方式。我們建議您使用這個方法授權對 Google Cloud API 發出的呼叫,特別是在您要建構部署到 Google App Engine (GAE) 或 Compute Engine 虛擬機器的應用程式時。詳情請參閱「應用程式預設憑證的運作方式」。
  • 最鄰近搜尋 (ANN)
    • 近似近鄰 (ANN) 服務是一種高規模、低延遲的解決方案,可針對大型語料庫找出相似的向量 (或更具體地說,是「嵌入」)。詳情請參閱「如何使用向量搜尋進行語意比對」。
  • 成果
    • 構件是指機器學習工作流程產生及消耗的個別實體或資料片段。產物包括資料集、模型、輸入檔案和訓練記錄。
  • Artifact Registry
    • Artifact Registry 是通用構件管理服務。這是在 Google Cloud 上管理容器和其他構件時的建議服務。詳情請參閱「Artifact Registry」。
  • 人工智慧 (AI)
    • 人工智慧 (AI) 是指研究和設計看似「智慧」的機器,也就是模仿人類或智力功能的機器,例如機械動作、推理或解決問題。機器學習是 AI 最熱門的子領域之一,它採用統計和資料導向的方法來建立 AI。不過,有些人會將這兩個詞互通使用。
  • 驗證
    • 驗證用戶端 (可能是使用者或其他程序) 身分的程序,目的是取得安全系統的存取權。已證明身分的用戶端稱為已驗證。詳情請參閱「Google 的驗證方式」。
  • 自動並排比較 (AutoSxS)
    • 自動並排比較 (AutoSxS) 是一項模型輔助評估工具,可並排比較兩個大型語言模型 (LLM)。可用於評估 Vertex AI Model Registry 中的生成式 AI 模型或預先產生的推論效能。AutoSxS 會使用自動評分工具,判斷哪個模型能針對提示提供較佳回應。AutoSxS 可隨選使用,且評估語言模型的成效與人類評分相當。
  • AutoML
  • autorater
    • 自動撰寫器是一種語言模型,可在收到原始推論提示後,評估模型回覆的品質。在 AutoSxS 管道中,這項指標用於比較兩個模型的推論,並判斷哪個模型的效能最佳。詳情請參閱「自動產生器」。
  • 基準值
    • 用於比較其他模型 (通常是較複雜的模型) 成效的參考模型。舉例來說,邏輯迴歸模型可能會成為深度模型的良好基準。對於特定問題,基準值可協助模型開發人員量化新模型必須達到的最低預期成效,以便新模型發揮效用。詳情請參閱「基準和目標資料集」。
  • batch
    • 在單一訓練疊代中使用的一組範例。批次大小會決定批次中的樣本數量。
  • 批次大小
    • 批次中的樣本數量。舉例來說,SGD 的批量大小為 1,而迷你批量的批量大小通常介於 10 到 1000 之間。在訓練和推論期間,批次大小通常是固定的;不過,TensorFlow 允許動態批次大小。
  • 批次推論
  • 批次預測
  • 偏見
    • 1. 對某些事物、人或族群持有刻板印象、偏見或偏袒心態。這些偏誤可能會影響資料的收集和解讀方式、系統設計,以及使用者與系統的互動方式。2. 系統性錯誤是指透過取樣或通報程序引入的錯誤。
  • 雙向
    • 用來描述系統評估目標文字片段前後文字的詞彙。相較之下,單向系統只會評估目標文字區塊之前的文字。
  • 基於轉換器的雙向編碼器表示法 (BERT)
    • BERT 是一種預先訓練語言表示法的方法,也就是說,我們會在大型文字語料庫 (例如 Wikipedia) 上訓練通用的「語言理解」模型,然後將該模型用於我們重視的下游 NLP 任務 (例如回答問題)。BERT 是第一個用於預先訓練 NLP 的無監督深度雙向系統,因此比先前的方法更為出色。
  • 雙語評估研究 (BLEU)
    • 這是一種常見的評估機器翻譯演算法品質的評估指標,可將演算法輸出內容與一或多個人工翻譯內容進行比較。
  • 定界框
    • 視訊窗格中物件的定界框可用兩種方式指定:(i) 使用 2 個頂點,由一組 x、y 座標組成,假設這些頂點是矩形的對角點。例如:x_relative_min、y_relative_min、x_relative_max、y_relative_max、(ii) 使用所有 4 個頂點。詳情請參閱「準備影片資料」。
  • 值區
    • Cloud Storage 的頂層資料夾。所有 Cloud Storage 使用者的值區名稱都必須不重複。值區包含檔案。詳情請參閱 Cloud Storage 產品總覽
  • 即時通訊
    • 與 ML 系統 (通常是大型語言模型) 進行一來一往對話的內容。聊天中的先前互動內容 (您輸入的內容和大型語言模型的回應方式) 會成為後續聊天內容的脈絡。聊天機器人就是大型語言模型的應用程式。
  • checkpoint
    • 在訓練期間或訓練完成後,用來擷取模型參數狀態的資料。舉例來說,在訓練期間,您可以:1. 停止訓練,可能是刻意停止,也可能是因為發生特定錯誤。2. 擷取查核點。3. 稍後重新載入檢查點,可能會在其他硬體上執行。4. 重新展開訓練。在 Gemini 中,查核點是指 Gemini 模型的特定版本,該版本是使用特定資料集訓練而成。
  • 分類模型
    • 推論為類別的模型。舉例來說,以下都是分類模型:預測輸入句子的語言 (法文?西班牙文?義大利文?)。預測樹種的模型 (楓樹?Oak?Baobab?)。預測特定醫療狀況的正類或負類模型。
  • 分類指標
    • Python 適用的 Vertex AI SDK 支援的評估指標為混淆矩陣和 ROC 曲線。
  • Cloud TPU
    • 專門設計的硬體加速器,可加快 Google Cloud 上的機器學習工作負載。
  • 容器映像檔
    • 容器映像檔是包含元件可執行程式碼的套件,以及程式碼執行環境的定義。詳情請參閱「自訂訓練總覽」。
  • context
    • 您可以使用內容將構件和執行作業分組,並歸類至單一可查詢的類型。您可以使用背景資訊表示中繼資料組。舉例來說,執行機器學習管道就是一種情境。
  • context cache
    • Vertex AI 中的脈絡快取是大量資料,可用於向 Gemini 模型提出多項要求。快取內容會儲存在建立快取要求的區域中。可以是 Gemini 多模態模型支援的任何 MIME 類型,例如文字、音訊或影片。詳情請參閱「快取內容總覽」。
  • 上下文視窗
    • 模型可在特定提示中處理的符記數量。脈絡窗口越大,模型可用來回覆提示的資訊就越多,回覆內容也能更連貫一致。
  • 客戶自行管理的加密金鑰 (CMEK)
    • 客戶代管的加密金鑰 (CMEK) 是一種整合功能,可讓客戶使用在 Cloud KMS (又稱為 Storky) 中管理的金鑰,加密現有 Google 服務中的資料。Cloud KMS 中的金鑰是用來保護資料的金鑰加密金鑰。如需更多資訊,請參閱「客戶管理的加密金鑰 (CMEK)」。
  • 自訂容器
    • 您建構並提供用於執行訓練程式碼的 Docker 容器映像檔。詳情請參閱「自訂容器總覽」。
  • CustomJob
    • CustomJob 是使用者可建立的三種 Vertex AI 資源之一,可用於在 Vertex AI 中訓練自訂模型。自訂訓練工作是執行 Vertex AI 中自訂機器學習 (ML) 訓練程式碼的基本方式。詳情請參閱「建立自訂訓練工作」。
  • 自訂訓練
    • 在 Vertex AI 基礎架構上執行自有訓練程式碼。詳情請參閱「自訂訓練總覽」。
  • Dask
    • Dask 是分散式運算平台,經常與 TensorFlow、Pytorch 和其他機器學習架構搭配使用,用於管理分散式訓練工作。詳情請參閱 維基百科
  • 資料分析
    • 透過樣本、測量和視覺化資料,瞭解資料。在收到資料集後,在建立第一個模型之前,資料分析特別有用。這也是瞭解實驗和偵錯系統問題的關鍵。
  • 資料擴增
    • 透過轉換現有範例來建立其他範例,人為地提高訓練範例的範圍和數量。舉例來說,假設圖片是其中一個特徵,但資料集不含足夠的圖片範例,模型就無法學習到實用的關聯。理想情況下,您應在資料集中加入足夠的已標註圖片,讓模型能夠正確訓練。如果無法做到這點,資料增強功能可以旋轉、拉伸及反射每張圖片,產生原始圖片的許多變化版本,或許能提供足夠的標記資料,讓訓練作業順利進行。
  • DataFrame
    • 這是熱門的 pandas 資料類型,用於在記憶體中表示資料集。DataFrame 類似於資料表或試算表。DataFrame 的每個資料欄都有名稱 (標題),每個資料列則由不重複的編號標示。DataFrame 中的每個資料欄結構都類似 2D 陣列,但每個資料欄都可以指派自己的資料類型。
  • dataset (資料集)
    • 資料集廣義上是指結構化或非結構化資料記錄的集合。一組原始資料,通常 (但不限於) 以下列格式排序:試算表或 CSV (半形逗號分隔值) 檔案。詳情請參閱「建立資料集」。
  • 解碼器
    • 一般來說,任何從經過處理、密集或內部表示法轉換為較原始、稀疏或外部表示法的 ML 系統。解碼器通常是大型模型的元件,經常與編碼器搭配使用。在序列對序列任務中,解碼器會從編碼器產生的內部狀態開始,預測下一個序列。
  • 深層類神經網路 (DNN)
    • 具有多個隱藏層的類神經網路,通常會透過深度學習技術進行編程。
  • depth
    • 在類神經網路中,以下項目的總和:1. 隱藏層數量 2. 輸出層數量 (通常為 1) 3. 任何嵌入層的數量。舉例來說,如果神經網路有五個隱藏層和一個輸出層,深度就是 6。請注意,輸入圖層不會影響深度。
  • DevOps
    • DevOps 是一套 Google Cloud Platform 產品,例如 Artifact Registry 和 Cloud Deploy。
  • 提早中止訓練
    • 規則化方法,在訓練損失完成下降前結束訓練。在提早中止訓練功能中,您會在驗證資料集的損失開始增加 (也就是一般化效能惡化) 時,刻意停止訓練模型。
  • 嵌入
    • 字詞或文字片段的數字表示法。這些數字可擷取文字的語意意義和背景。相似或相關的字詞或文字通常會產生相似的嵌入結果,也就是說,在高維向量空間中會彼此靠近。
  • 嵌入空間 (潛在空間)
    • 在生成式 AI 中,嵌入空間是指文字、圖片或影片的數值表示法,用於擷取輸入內容之間的關係。機器學習模型 (尤其是生成式 AI 模型) 擅長在大量資料集中找出模式,進而建立這些嵌入資料。應用程式可以利用嵌入值處理及產生語言,識別內容的複雜含義和語意關係。
  • 嵌入向量
    • 項目的密集向量表示法,通常是低維向量,如果兩個項目的語意相似,則其各自的嵌入向量在嵌入向量空間中會彼此靠近。
  • 編碼器
    • 一般來說,任何從原始、稀疏或外部表示法轉換為經過處理、密集或內部表示法的機器學習系統。編碼器通常是較大模型的元件,經常與解碼器搭配使用。有些轉換器會將編碼器與解碼器配對,但其他轉換器只會使用編碼器或解碼器。部分系統會將編碼器的輸出內容做為分類或迴歸網路的輸入內容。在序列對序列任務中,編碼器會接收輸入序列,並傳回內部狀態 (向量)。解碼器會使用該內部狀態預測下一個序列。
  • 端點
    • 您可部署訓練完成的模型,以便提供推論的資源。詳情請參閱「選擇端點類型」。
  • ensemble
    • 一組經過獨立訓練的模型,其推論結果會經過平均或匯總。在許多情況下,集成模型產生的推論結果比單一模型更準確。舉例來說,隨機森林就是由多個決策樹組成的集成法。請注意,並非所有決策樹都是集成模型。
  • 環境
    • 在強化學習中,包含代理程式並允許代理程式觀察該世界狀態的環境。舉例來說,所呈現的世界可以是象棋等遊戲,或是迷宮等實體世界。代理程式將動作套用至環境後,環境就會在狀態之間轉換。
  • evaluation (eval)
    • Eval 是「evaluation」的縮寫,是一種實驗,其中記錄或模擬查詢會透過兩個搜尋堆疊傳送,其中一個實驗堆疊包含變更,另一個基礎堆疊則不包含變更。評估會產生差異和指標,讓您評估變更對 Google 使用者體驗的影響、品質和其他影響。評估會在變更的調校或迭代期間使用。這些變數也用於對實際使用者流量推出變更。
  • event
    • 事件會說明構件和執行作業之間的關係。每個構件都可以由執行作業產生,並供其他執行作業使用。事件可協助您連結構件和執行作業,進而判斷機器學習工作流程中構件的來源。
  • 執行
    • 執行是指個別機器學習工作流程步驟的記錄,通常會附註其執行階段參數。執行作業的範例包括資料擷取、資料驗證、模型訓練、模型評估和模型部署。
  • experiment
    • 實驗是一種情境,可包含一組 n 次實驗執行作業,以及管道執行作業,讓使用者可以以群組形式調查不同的設定,例如輸入構件或超參數。
  • experiment run
    • 實驗執行作業可包含使用者定義的指標、參數、執行作業、構件和 Vertex 資源 (例如 PipelineJob)。
  • Explainable AI
  • 探索性資料分析
    • 在統計學中,探索性資料分析 (EDA) 是一種分析資料集的方法,通常會使用視覺方法來總結資料的主要特徵。您可以使用或不使用統計模型,但 EDA 的主要目的是瞭解資料能否提供正式建模或假設測試任務以外的資訊。
  • F1 分數
    • F1 分數是用來評估模型輸出結果準確度的指標。這項指標特別適合用於評估模型在精確度和召回率都很重要的任務 (例如資訊擷取) 上的表現。對於生成式 AI 模型,您可以使用 F1 分數比較模型的推論與真值資料,以判斷模型的準確度。不過,對於摘要和文字產生等生成工作而言,Rough-L 分數等其他指標可能更合適。
  • 功能
    • 在機器學習 (ML) 技術中,特徵是指個別例項或實體的特性或屬性,可用於訓練機器學習模型或進行推論。
  • 特徵工程
    • 特徵工程是指將原始機器學習 (ML) 資料轉換為可用於訓練機器學習模型或進行推論的特徵的程序。
  • 功能群組
    • 特徵群組是一組特徵註冊庫資源,對應的 BigQuery 來源資料表或檢視表包含特徵資料。特徵檢視畫面可能包含特徵,可視為資料來源中特徵欄的邏輯分組。
  • 功能記錄
    • 地圖項目記錄是所有地圖項目值的匯總,用於描述特定實體在特定時間點的屬性。
  • 功能登錄表
    • 特徵註冊庫是用於記錄您要提供用於線上推論的特徵資料來源的集中式介面。詳情請參閱「功能登錄設定」。
  • 功能服務
    • 特徵服務是指匯出或擷取特徵值以供訓練或推論的程序。Vertex AI 提供兩種特徵服務:線上服務和離線服務。線上供應功能會擷取特徵資料來源子集的最新特徵值,用於線上推論。離線或批次服務會匯出大量特徵資料 (包括歷來資料),用於離線處理,例如機器學習模型訓練。
  • 功能時間戳記
    • 特徵時間戳記會指出實體特定特徵記錄中的特徵值組合產生時間。
  • 特徵值
    • 特徵值對應至執行個體或實體的特徵 (屬性) 的實際且可量化值。不重複實體的特徵值集合代表與該實體相對應的特徵記錄。
  • 功能檢視畫面
    • 特徵檢視畫面是指從 BigQuery 資料來源到線上商店執行個體的邏輯特徵集合。特徵檢視會儲存並定期重新整理客戶的特徵資料,這些資料會定期從 BigQuery 來源重新整理。特徵檢視會直接或透過與特徵註冊庫資源的關聯,與特徵資料儲存空間建立關聯。
  • 基礎模型 (FM)
    • 以廣泛資料訓練的模型,可調整 (例如微調) 以處理多種下游任務。
  • 基礎模型作業 (FMOP)
    • FMOps 擴充了 MLOps 的功能,並著重於將預先訓練 (從頭訓練) 或自訂 (精細調整) 的 FM 有效地導入實際工作環境。
  • Google Cloud 管道元件 SDK
    • Google Cloud 管道元件 (GCPC) SDK 提供一組預先建構的 Kubeflow Pipelines 元件,這些元件具有良好的生產品質、效能和易用性。您可以使用 Google Cloud Pipeline 元件,在 Vertex AI Pipelines 和其他符合 Kubeflow Pipelines 規範的機器學習管道執行後端中定義及執行機器學習管道。詳情請參閱「Google Cloud 管道元件簡介」。
  • Google 嵌入式調變器系統 (GEMS)
    • GEMS 是針對數據機的嵌入式軟體架構,以及隨附的一組開發工作流程和基礎架構。GEMS 的核心願景,是在許多含有數據機的 Google 裝置上提供高品質的數據機系統程式碼,並提高程式碼的重用性。為了實現這項廣泛的願景,GEMS 為開發人員提供全面的環境,其中包含下列主要構成要素。
  • 漸層
    • 相對於所有獨立變數的偏微分向量。在機器學習中,梯度是模型函式偏導數的向量。漸層會指向最陡峭的上升方向。
  • 圖表
    • 在 Vertex AI 的情況下,圖表是指表示實體及其屬性之間關係的資料結構。可用於建立模型及分析複雜資料,例如知識圖譜、社群網路和業務流程。詳情請參閱「Vertex 機器學習中繼資料簡介」。
  • 建立基準 (GT)
    • 真值是各個領域中用來指某些決策或測量問題的絕對真相,與某些系統的估計值相反。在機器學習中,「實際資料」一詞是指監督式學習技術的訓練集。
  • heuristic
    • 解決問題的簡單快速解決方案。例如:「使用啟發式法則,我們達到 86% 的準確率。改用深度類神經網路後,準確率提高到 98%」。
  • 隱藏層
    • 神經網路中輸入層 (特徵) 和輸出層 (推論) 之間的層。每個隱藏層都包含一或多個神經元。深度類神經網路包含多個隱藏層。
  • 直方圖
    • 以長條圖呈現資料集的變化情形。直方圖可將在簡單的數字表格中難以偵測到的模式以視覺化方式呈現。
  • 超參數
    • 超參數是指用於控管機器學習模型訓練程序的變數。這些變數包括學習率、最佳化器中的動量值,以及模型最後一個隱藏層中的單位數量。Vertex AI 中的超參數調整功能會針對訓練應用程式執行多次試驗,並為所選超參數設定不同的值 (在指定限制範圍內)。目標是最佳化超參數設定,盡可能提高模型的預測準確率。詳情請參閱「超參數調整總覽」。
  • 圖像辨識
    • 圖像辨識是指分類圖片中的物件、模式或概念的過程。也稱為圖像分類。圖像辨識是機器學習和電腦視覺的子領域。
  • index
    • 一組向量,會一起部署用於相似度搜尋。向量可新增至索引或從索引中移除。相似度搜尋查詢會傳送至特定索引,並搜尋該索引中的向量。
  • 推論
    • 在 Vertex AI 平台中,推論是指透過機器學習模型運算資料點,以便計算輸出結果 (例如單一數值分數) 的過程。這個程序也稱為「將機器學習模型導入實際運作」或「將機器學習模型投入生產」。推論是機器學習工作流程的重要步驟,因為這可讓模型用於對新資料進行推論。在 Vertex AI 中,推論可以透過多種方式執行,包括批次推論和線上推論。批次推論會執行一組推論要求,並將結果輸出至一個檔案,而線上推論則可針對個別資料點進行即時推論。
  • 資訊擷取 (IR)
    • 資訊檢索 (IR) 是 Vertex AI Search 的重要元件。是指從大量資料中尋找及擷取相關資訊的程序。在 Vertex AI 的情況下,IR 會根據使用者的查詢,從語料庫中擷取文件。Vertex AI 提供一系列 API,協助您建構自有的檢索增強生成 (RAG) 應用程式,或建構自有的搜尋引擎。詳情請參閱「使用 RAG 引擎將 Vertex AI Search 做為檢索後端」。
  • 基礎架構即程式碼 (IaC)
    • 基礎架構即程式碼。一種管理 IT 基礎架構的方法,可讓團隊透過程式碼管理及佈建服務。有了 IaC,系統就會建立包含基礎架構規格的設定檔,讓您更輕鬆地建立及編輯基礎架構。
  • 學習率 (步長)
    • 學習率是用來調整機器學習模型最佳化程序的超參數。它會決定模型在訓練期間更新權重的步距。學習率越高,收斂速度會越快,但可能會導致不穩定或過度擬合。相反地,學習率越低,收斂速度可能會越慢,但有助於避免過度擬合。詳情請參閱「超參數調整總覽」。
  • 損失 (成本)
    • 在監督式模型訓練期間,用來衡量模型推論結果與標籤之間的差距。損失函數會計算損失。
  • 機器學習中繼資料
    • ML Metadata (MLMD) 是一種程式庫,用於記錄及擷取與機器學習開發人員和數據資料學家工作流程相關聯的中繼資料。MLMD 是 TensorFlow Extended (TFX) 的必要元件,但設計上可獨立使用。作為更廣泛的 TFX 平台的一環,大多數使用者只會在檢查管道元件的結果時 (例如在 Notebook 或 TensorBoard 中) 與 MLMD 互動。
  • 受管理的資料集
    • 在 Vertex AI 中建立並代管的資料集物件。
  • 中繼資料資源
    • Vertex 機器學習中繼資料會公開類似圖形的資料模型,用於表示機器學習工作流程產生及消耗的中繼資料。主要概念包括構件、執行作業、事件和內容脈絡。
  • MetadataSchema
    • MetadataSchema 會說明特定類型的構件、執行作業或情境的結構定義。中繼資料架構可用於在建立相應中繼資料資源時驗證鍵/值組合。系統只會針對資源和 MetadataSchema 之間的對應欄位執行結構定義驗證。類型結構定義會使用 OpenAPI 結構定義物件表示,而這些物件應使用 YAML 描述。
  • MetadataStore
    • MetadataStore 是用來儲存中繼資料資源的頂層容器。MetadataStore 是區域化,且與特定 Google Cloud 專案相關聯。通常,機構組織會為每個專案中的中繼資料資源使用一個共用的 MetadataStore。
  • 機器學習管道
    • 機器學習管道是以容器為基礎的可攜式且可擴充的機器學習工作流程。
  • model
    • 任何預先訓練或未預先訓練的模型。一般來說,任何處理輸入資料並傳回輸出的數學結構。換句話說,模型是系統進行推論所需的參數和結構組合。
  • 模型蒸餾 (知識蒸餾、教師-學生模型)
    • 模型蒸餾是一種技術,可讓較小的學生模型從較大的教師模型學習。學生模型經過訓練後,會模仿老師模型的輸出內容,然後用於產生新資料或進行推論。模型提煉通常用於提升大型模型的效率,或讓資源有限的裝置更容易存取模型。也可以用來減少過度擬合,進而改善模型的一般化。
  • 模型監控
  • 模型資源名稱
    • model 的資源名稱如下:projects/<PROJECT_ID>/locations/<LOCATION_ID>/models/<MODEL_ID>。您可以在 Cloud 控制台的「Model Registry」頁面中找到型號 ID。
  • 網路檔案系統 (NFS)
  • 實體商店
    • 離線儲存庫是儲存最近和歷史特徵資料的儲存設施,通常用於訓練機器學習模型。離線儲存庫也包含最新的特徵值,可用於線上推論。
  • 線上推論
    • 同步取得個別執行個體的推論結果。詳情請參閱「線上推論」。
  • 線上預測
    • 同步取得個別執行個體的預測結果。詳情請參閱「線上預測」。
  • 線上商店
    • 在特徵管理中,線上儲存庫是用於儲存最新特徵值的儲存空間,可用於線上推論。
  • 參數
    • 參數是用來設定執行作業、規範執行作業行為,以及影響執行作業結果的鍵入輸入值。例如學習率、捨棄率和訓練步驟數。
  • 管道
    • 機器學習管道是以容器為基礎的可攜式且可擴充的機器學習工作流程。詳情請參閱「Vertex AI Pipelines 簡介」。
  • 管道元件
    • 一組獨立的程式碼,用於執行管道工作流程中的一個步驟,例如資料預先處理、資料轉換和訓練模型。
  • 管道工作
    • pipeline job 或 pipeline run 對應至 Vertex AI API 中的 PipelineJob 資源。這是機器學習管道定義的執行例項,該定義是指一組透過輸入/輸出依附元件互相連結的機器學習工作。
  • 管道執行作業
    • 您可以將一或多個 Vertex PipelineJob 與實驗相關聯,其中每個 PipelineJob 都會以單一執行作業的形式呈現。在這個情況下,執行作業的參數會由 PipelineJob 的參數推斷。系統會根據該 PipelineJob 產生的 system.Metric 構件推測指標。系統會根據該 PipelineJob 產生的構件,推斷執行作業的構件。
  • 管道範本
    • 單一使用者或多位使用者可重複使用來建立多個管道執行作業的 ML 工作流程定義。
  • positive 類別
    • 「正類」是指模型在訓練時要預測的結果或類別。舉例來說,如果模型要預測客戶是否會購買夾克,正類會是「顧客購買夾克」。同樣地,在預測客戶是否會申請定期存款的模型中,正類為「客戶已申請」。相反的則是「負向類別」。
  • 預先建構的容器
  • Private Google Access (PGA)
    • 啟用 Private Google Access 之後,只有內部 (私人) IP 位址 (沒有外部 IP 位址) 的 VM 執行個體就能連上 Google API 和服務的公開 IP 位址。詳情請參閱「設定私人 Google 存取權」。
  • 私人服務連線
    • 私人服務存取權是指在您的虛擬私有雲 (VPC) 網路與 Google 或第三方服務供應商所擁有的網路之間建立的私人連線。這可讓虛擬私有雲網路中的虛擬機器 (VM) 執行個體使用內部 IP 位址與這些服務通訊,避免暴露於公開網際網路。詳情請參閱「私人服務存取權」。
  • Private Service Connect
    • Private Service Connect 是一項技術,可讓 Compute Engine 客戶將網路中的私人 IP 對應至其他虛擬私有雲網路或 Google API。詳情請參閱「Private Service Connect」。
  • Private Service Connect 介面 (PSC-I)
    • Private Service Connect 介面可讓供應商私下啟動與用戶端虛擬私有雲網路中任何網路資源的連線。
  • 量化
    • 量化是一種模型最佳化技術,用於降低用來表示模型參數的數字精確度。這麼做可縮小模型、降低耗電量,並縮短推論延遲時間。
  • 隨機森林
    • Random Forest 是用於分類和迴歸的機器學習演算法。這並非直接的生成式 AI 模型,而是可用於更大型生成式 AI 系統的元件。隨機森林由多個決策樹組成,而其推論是這些個別樹狀圖的推論匯總。舉例來說,在分類工作中,每個樹狀圖都會為某個類別「投票」,最終推論就是獲得最多票的類別。詳情請參閱「決策樹」。
  • Vertex AI 上的 Ray 叢集
    • Vertex AI 上的 Ray 叢集是運算節點的受管理叢集,可用於執行分散式機器學習 (ML) 和 Python 應用程式。它提供基礎架構,可為機器學習工作流程執行分散式運算和平行處理作業。Vertex AI 內建 Ray 叢集,可確保在關鍵機器學習工作負載或尖峰時段提供足夠的容量。與自訂工作不同,在自訂工作中,訓練服務會在工作完成後釋放資源,但 Ray 叢集會一直保留,直到刪除為止。詳情請參閱「Vertex AI 上的 Ray 總覽」。
  • Ray on Vertex AI (RoV)
    • Vertex AI 中的 Ray 設計可讓您使用相同的開放原始碼 Ray 程式碼,在 Vertex AI 上編寫程式和開發應用程式,且只需進行少許變更。詳情請參閱「Vertex AI 上的 Ray 總覽」。
  • Ray on Vertex AI SDK for Python
    • Ray on Vertex AI SDK for Python 是 Vertex AI SDK for Python 的版本,其中包含 Ray 用戶端、Ray BigQuery 連接器、Vertex AI 上的 Ray 叢集管理,以及 Vertex AI 上的推論功能。詳情請參閱「Python 適用的 Vertex AI SDK 簡介」。
  • recall
    • 索引傳回的真正最近鄰點百分比。舉例來說,如果查詢 20 個最近鄰的最近鄰,傳回「真實值」最近鄰的 19 個,則回傳率為 19/20x100 = 95%。
  • 正則化
    • 正則化是一種用於防止機器學習模型過度擬合的技巧。過度配適是指模型過度學習訓練資料,導致在處理未知資料時成效不佳。這裡提到的一種特定正規化方法是提早中止訓練,也就是在驗證資料集的損失開始增加前停止訓練,這表示一般化效能下降。詳情請參閱「過度擬合:L2 正規化」。
  • 限制
    • 使用布林值規則,將搜尋範圍「限制」在索引的子集內。限制也稱為「篩選」。您可以使用 Vector Search 的數值篩選和文字屬性篩選功能。
  • 服務帳戶
    • 在 Google Cloud 中,服務帳戶是應用程式或虛擬機器 (VM) 執行個體所使用的特殊帳戶,而非使用者。應用程式會使用服務帳戶執行已授權的 API 呼叫。
  • 服務專員
    • 服務代理是指由 Google 代管的服務帳戶。當服務需要存取其他服務建立的資源時,就會使用此權限。舉例來說,如果 Dataflow 或 Dataproc 服務需要在執行階段建立執行個體,或是 Cloud Function 想要使用 Key Management Service (KMS) 保護 Cloud Function,當服務需要服務代理人時,Google Cloud 會自動建立服務代理人。通常用於管理資源存取權,並代表服務執行各種工作。詳情請參閱「服務代理程式」。
  • 摘要指標
    • 摘要指標是實驗執行期間每個指標鍵的單一值。舉例來說,實驗的測試準確度是指訓練結束時,根據測試資料集計算出的準確度,可擷取為單一值摘要指標。
  • TensorBoard
    • TensorBoard 是一套網頁應用程式,可用於視覺化及瞭解 TensorFlow 執行作業和模型。詳情請參閱 TensorBoard
  • TensorBoard 執行個體
    • TensorBoard 執行個體是區域性資源,用於儲存與專案相關聯的 Vertex AI TensorBoard 實驗。舉例來說,如果您想要建立多個啟用 CMEK 的執行個體,可以在專案中建立多個 TensorBoard 執行個體。這與 API 中的 TensorBoard 資源相同。
  • TensorBoard 資源名稱
    • TensorBoard 資源名稱可用於完整識別 Vertex AI TensorBoard 執行個體。格式如下:projects/PROJECT_ID_OR_NUMBER/locations/REGION/tensorboards/TENSORBOARD_INSTANCE_ID。
  • TensorFlow Extended (TFX)
    • TensorFlow Extended (TFX) 是端對端平台,可用於部署以 TensorFlow 平台為基礎的機器學習管道。
  • 時間偏移
    • 時間偏移是相對於影片開頭的時間。
  • 時間區段
    • 時間區段會以開始和結束時間偏移值來識別。
  • 時間序列指標
    • 時間序列指標是縱向指標值,每個值代表跑步訓練例行程序中的一個步驟。時間序列指標會儲存在 Vertex AI TensorBoard 中。Vertex AI 實驗會儲存 Vertex TensorBoard 資源的參照。
  • 符記
    • 語言模型中的符元是模型訓練和推論的微觀單位,包括字詞、詞素和字元。在語言模型以外的網域中,符記可代表其他類型的原子單位。舉例來說,在電腦視覺中,符記可能是圖片的子集。詳情請參閱「列出和計算詞元數」。
  • 訓練集
    • 在 Vertex AI 中,訓練集是用於訓練機器學習模型的資料中最大的部分 (通常為 80%)。模型會學習資料中的模式和關聯,進而做出推論。訓練集與驗證集和測試集不同,後者用於評估模型在訓練期間和訓練後的效能。
  • 軌跡
    • 「軌跡」是指代理程式或模型採取的一系列步驟或動作。這項指標通常用於評估生成式模型,評估模型產生文字、程式碼或其他內容的能力。您可以使用多種軌跡指標來評估生成模型,包括軌跡完全比對、軌跡順序比對、軌跡任何順序比對和軌跡精確度。這些指標可評估模型輸出內容與一組人類產生的參考輸出內容的相似度。
  • Transformer
    • 「Transformer」是一種神經網路架構,是大多數先進生成式模型的基礎。這項技術用於各種語言模型應用程式,包括翻譯。Transformer 由編碼器和解碼器組成;編碼器會將輸入的文字轉換為中繼表示法,而解碼器會將中繼表示法轉換為實用的輸出內容。它們會使用自注意力機制,從要處理的字詞周圍的字詞收集上下文。雖然訓練轉換器需要大量資源,但針對特定應用程式微調預先訓練的轉換器會更有效率。
  • 真實陽性
    • 「真陽性」是指模型正確識別正類的推論。舉例來說,如果模型經過訓練,可識別會購買夾克的客戶,則真實正確率會正確預測客戶會購買這類商品。
  • 未管理的構件
    • 位於 Vertex AI 脈絡以外的構件。
  • 向量
    • 向量是指文字、圖片或影片的數值表示法,用於擷取輸入內容之間的關係。機器學習模型適合透過識別大型資料集中的模式來建立嵌入資料。應用程式可使用嵌入處理及產生語言,識別內容的複雜意義和語意關係。詳情請參閱「嵌入 API 總覽」。
  • Vertex AI 資料類型
    • Vertex AI 資料類型包括「圖片」、「文字」、「表格」和「影片」。
  • Vertex AI 實驗
    • Vertex AI 實驗可讓使用者追蹤下列項目:1. 實驗執行步驟 (例如預先處理和訓練)。2. 輸入內容 (例如演算法、參數和資料集)。3. 這些步驟的輸出內容 (例如模型、查核點和指標)。
  • Vertex AI Model Registry
    • Vertex AI Model Registry 是中央存放區,可用於管理機器學習模型的生命週期。Vertex AI Model Registry 會顯示模型總覽,方便您更妥善地整理、追蹤及訓練新版本。有想部署的模型版本時,您可以直接從註冊表將其指派給端點,或使用別名將模型部署至端點。詳情請參閱「Vertex AI Model Registry 簡介」。
  • Vertex AI SDK for Python
    • Python 適用的 Vertex AI SDK 提供的功能與 Vertex AI Python 用戶端程式庫類似,但 SDK 層級較高,且精細程度較低。
  • Vertex AI TensorBoard 實驗
    • 您可以在 TensorBoard 網頁應用程式中查看與實驗相關聯的資料 (標量、直方圖、分布等)。您可以在 Google Cloud 控制台中查看時間序列標量。詳情請參閱「比較及分析執行作業」。
  • Vertex AI 特徵儲存庫
  • Vertex ML Metadata
  • 影片片段
    • 影片片段的識別依據是影片的開始和結束時間偏移。
  • 虛擬私有雲 (VPC)
    • 虛擬私有雲是可隨選的共用運算資源池,可在公有雲環境中進行配置,並為使用這些資源的不同機構提供一定程度的隔離功能。
  • Vertex AI Vizier
    • 這項黑盒最佳化服務可用於調整超參數和其他參數。詳情請參閱「Vertex AI Vizier 總覽」。