本頁面由 Cloud Translation API 翻譯而成。

自訂擷取

您可以訓練自訂模型並擷取資料，建立專為文件設計的模型，不必使用生成式 AI。如果您不想使用生成式 AI，並想控管訓練模型的各個層面，這就是理想的選擇。

資料集設定

如要訓練、進階訓練或評估處理器版本，必須使用文件資料集。Document AI 處理器會像人類一樣從範例中學習。資料集可提升處理器效能穩定性。

如要提升模型和準確率，請使用文件訓練資料集。模型是由包含真值的檔案組成。至少須有三份文件才能訓練新模型。

模型會使用測試資料集產生 F1 分數 (準確率)。這類資料集由含有真值的檔案組成，如要瞭解模型預測正確的頻率，請使用實際資料比較模型的預測結果 (從模型擷取的欄位) 與正確答案。測試資料集至少要有三份文件。

如果尚未啟用帳單和 Document AI API，請先啟用。

首先，請建構自訂處理器，然後進行評估。

建立處理器並定義要擷取的欄位，這很重要，因為會影響擷取品質。

注意： 預設處理器為基礎模型。
設定資料集位置：選取預設選項資料夾「Google-managed」(Google 代管)。建立處理器後，系統可能會在不久後自動執行這項操作。
前往「Build」(建構) 分頁，然後選取「Import Documents」(匯入文件)，並啟用自動加上標籤功能 (請參閱「使用基礎模型自動加上標籤」)。訓練集和測試集中至少需要各 10 份文件，才能訓練自訂模型。
訓練模型：
1. 選取「訓練新版本」，然後為處理器版本命名。
2. 前往「顯示進階選項」，然後選取「以模型為準」選項。
注意： 訓練作業需要一段時間才能完成。
評估：
- 前往「評估與測試」，選取剛訓練的版本，然後選取「查看完整評估」。
- 現在您會看到整份文件和每個欄位的指標，例如 f1、精確度和召回率。
- 判斷效能是否符合生產目標。如果不符合，請重新評估訓練和測試集，通常是將無法順利剖析的文件新增至訓練測試集。
將新版本設為預設版本。
1. 前往「管理版本」。
2. 前往選單，然後選取「設為預設」。