カスタム エクストラクタは、特定のタイプのドキュメントからエンティティを抽出します。たとえば、メニューのアイテムや、履歴書の名前や連絡先情報を抽出できます。
概要
カスタム抽出ツールの目的は、Document AI ユーザーが、事前トレーニング済みのプロセッサが利用できない新しいドキュメント タイプに対してカスタム エンティティ抽出ソリューションを構築できるようにすることです。カスタム抽出ツールには、レイアウト認識ディープ ラーニング モデル(生成 AI とカスタムモデル用)とテンプレート ベースのモデルの組み合わせが含まれています。
どのトレーニング方法を使用すればよいですか?
カスタム抽出機能は、3 つの異なるモードで幅広いユースケースをサポートします。
トレーニング方法 | ドキュメントの例 | ドキュメント レイアウトのバリエーション | 自由形式のテキストまたは段落 | 本番環境で使用できる品質のトレーニング ドキュメントの数(ばらつきによって異なる) | |
---|---|---|---|---|---|
ファインチューニングと基盤モデル(生成 AI)。 | 契約書、利用規約、請求書、銀行取引明細書、船荷証券、給与明細。 | 高い順(推奨)。 | 高。 | 中: 0 ~ 50 個以上のドキュメント。 | |
カスタムモデル。 | モデル。 | レイアウトが年やベンダーによって異なる類似のフォーム(W9 など)。 | 低~中。 | 低。 | 高: 10 ~ 100 件以上のドキュメント。 |
テンプレート。 | レイアウトが固定されている税務書類(フォーム 941、709 など)。 | なし | 低。 | 低(3 個のドキュメント)。 |
基盤モデルは通常、トレーニング ドキュメントの数が少なくて済むため、すべての変数レイアウトの最初のオプションとして推奨されます。
信頼スコア
信頼スコアは、モデルによる各エンティティと予測値の関連性の強さを表します。値は 0 ~ 1 の範囲で、1 に近いほど、値がエンティティに対応しているというモデルの信頼度が高くなります。これにより、値が低い場合に個々のエンティティの手動レビューのトリガーを設定できます。たとえば、エンティティ内のテキストが「Hello, world!」か「HeIIo vvorld!」かを判断します。
このアプローチのメリットは、信頼度の低い個々のエンティティを特定し、予測に使用するしきい値を設定し、最適な信頼しきい値を選択し、精度と信頼スコアの高いモデルをトレーニングするための新しい戦略を開発できることです。
評価のコンセプトと指標の詳細については、パフォーマンスを評価するをご覧ください。