このページは Cloud Translation API によって翻訳されました。

カスタムベースの抽出

カスタムモデルのトレーニングと抽出を使用すると、生成 AI を使用せずに、ドキュメント専用に設計された独自のモデルを構築できます。生成 AI を使用せず、トレーニング済みモデルのすべての側面を制御したい場合に最適です。

データセットの構成

プロセッサバージョンのトレーニング、アップトレーニング、評価を行うには、ドキュメントデータセットが必要です。Document AI プロセッサは、人間と同じように例から学習します。データセットは、パフォーマンスの面でプロセッサの安定性を高めます。

トレーニングデータセット

モデルとその精度を向上させるには、ドキュメントでデータセットをトレーニングします。モデルは、正解を含むドキュメントで構成されています。新しいモデルをトレーニングするには、少なくとも 3 つのドキュメントが必要です。

テストデータセット

テストデータセットは、モデルが F1 スコア（精度）を生成するために使用するものです。グラウンドトゥルースを含むドキュメントで構成されています。モデルの正答率を確認するには、グラウンドトゥルースを使用して、モデルの予測（モデルから抽出されたフィールド）と正解を比較します。テストデータセットには、少なくとも 3 つのドキュメントが必要です。

始める前に

まだ行っていない場合は、請求を有効にして Document AI API を有効にします。

カスタムモデルを構築して評価する

まず、カスタムプロセッサをビルドして評価します。

プロセッサを作成し、抽出するフィールドを定義します。これは抽出の品質に影響するため重要です。

注: デフォルトのプロセッサは基盤モデルです。
データセットのロケーションを設定する: デフォルトのオプションフォルダ [Google-managed] を選択します。これは、プロセッサの作成直後に自動的に行われることがあります。
[ビルド] タブに移動し、自動ラベル付けが有効になっている [ドキュメントのインポート] を選択します（基盤モデルによる自動ラベル付けをご覧ください）。カスタムモデルをトレーニングするには、トレーニングセットに少なくとも 10 個のドキュメント、テストセットに 10 個のドキュメントが必要です。
モデルをトレーニングします。
1. [新しいバージョンをトレーニング] を選択し、プロセッサバージョンに名前を付けます。
2. [詳細オプションを表示] に移動し、[モデルベース] オプションを選択します。
注: トレーニングが完了するまで少し時間がかかります。
評価:
- [評価とテスト] に移動し、トレーニングしたばかりのバージョンを選択して、[完全な評価を表示] を選択します。
- ドキュメント全体と各フィールドの f1、適合率、再現率などの指標が表示されます。
- パフォーマンスが本番環境の目標を満たしているかどうかを判断します。満たしていない場合は、トレーニングセットとテストセットを再評価します。通常は、解析がうまくいかないドキュメントをトレーニングテストセットに追加します。
新しいバージョンをデフォルトとして設定します。
1. [版を管理] に移動します。
2. メニューに移動して、[デフォルトに設定] を選択します。

モデルがデプロイされ、このプロセッサに送信されたドキュメントでカスタムバージョンが使用されるようになりました。モデルのパフォーマンスを評価して、追加のトレーニングが必要かどうかを確認します。

評価参照

評価エンジンは、完全一致とファジーマッチングの両方を行うことができます。完全一致の場合、抽出された値が正解ラベルと完全に一致している必要があります。一致していない場合は、不一致としてカウントされます。

大文字と小文字の違いなど、わずかな違いがあるファジーマッチング抽出は、一致としてカウントされます。この設定は [評価] 画面で変更できます。

custom-based-extraction-4

基盤モデルを使用した自動ラベル付け

基盤モデルは、さまざまなドキュメントタイプのフィールドを正確に抽出できますが、追加のトレーニングデータを提供して、特定のドキュメント構造に対するモデルの精度を向上させることもできます。

Document AI は、定義したラベル名と以前のアノテーションを使用して、自動ラベル付けでドキュメントを大規模にラベル付けします。

カスタムプロセッサを作成したら、[スタートガイド] タブに移動します。
[新しいフィールドを作成] を選択します。
わかりやすい名前を入力し、説明フィールドに入力します。プロパティの説明を使用すると、各エンティティに追加のコンテキスト、分析情報、事前知識を提供して、抽出の精度とパフォーマンスを向上させることが可能です。

custom-based-extraction-5