自訂擷取器會從特定類型的文件中擷取實體。例如,從菜單中擷取項目,或從履歷中擷取姓名和聯絡資訊。
總覽
自訂擷取器的目標是讓 Document AI 使用者為沒有預先訓練處理器的文件類型,建構自訂實體擷取解決方案。自訂擷取器包含版面配置感知深度學習模型 (適用於生成式 AI 和自訂模型) 和範本型模型的組合。
我該使用哪種訓練方法?
自訂擷取器提供三種不同模式,可支援各種用途。
訓練方法 | 文件範例 | 文件版面配置變化 | 任意形式的文字或段落 | 視變異性而定,達到可投入生產的品質所需的訓練文件數量 | |
---|---|---|---|---|---|
微調和基礎模型 (生成式 AI)。 | 合約、服務條款、月結單、銀行對帳單、提單、薪資單。 | 從高到低 (建議)。 | 高。 | 中型:0 到 50 份以上的文件。 | |
自訂模型。 | Model. | 不同年度或供應商的類似表單 (例如 W9),但版面配置不同。 | 低至中等。 | 低。 | 高:10 到 100 份以上的文件。 |
範本。 | 版面配置固定的稅務表單 (例如表單 941 和 709)。 | 無 | 低。 | 低 (3 份文件)。 |
由於基礎模型通常只需要較少的訓練文件,因此建議您將其做為所有變數版面配置的第一個選項。
可信度分數
可信度分數會顯示模型將每個實體與預測值建立關聯的程度。值介於 0 到 1 之間,越接近 1,模型就越有信心該值對應到實體。這樣一來,使用者就能在值偏低時,為個別實體設定手動審查的觸發條件。例如判斷實體中的文字是「Hello, world!」還是「HeIIo vvorld!」。
這種做法的好處包括:找出可信度較低的個別實體、設定預測結果的使用門檻、選取最佳可信度門檻,以及開發新策略,訓練出準確度和可信度分數更高的模型。
如要進一步瞭解評估概念和指標,請參閱「評估成效」。