このページは Cloud Translation API によって翻訳されました。

Vertex AI RAG Engine で Document AI レイアウトパーサーを使用する

このページでは、Document AI レイアウトパーサーと、RAG Engine での使用方法について説明します。

Document AI

Document AI は、ドキュメントから非構造化データを取り出し、その非構造化データをデータベースへの保存に適したフィールドに変換するドキュメント処理とドキュメント理解のプラットフォームです。構造化データは、理解、分析、利用が可能なデータにつながります。

Document AI は、Vertex AI 内のプロダクトの上に構築されており、生成 AI を使用して、スケーラブルなエンドツーエンドのクラウドベースのドキュメント処理アプリケーションを作成できます。これらのプロダクトを使用するために、特別な機械学習の専門知識は必要ありません。

Document AI レイアウトパーサー

レイアウトパーサーは、ドキュメントからテキスト、表、リストなどのコンテンツ要素を抽出します。レイアウトパーサーは、生成 AI や検索アプリケーションでの情報検索を容易にするコンテキストアウェアチャンクを作成します。

検索と LLM 生成に使用される場合、チャンク化プロセスでドキュメントのレイアウトが考慮されるため、セマンティックコヒーレンスが向上し、コンテンツのノイズが軽減されます。チャンク内のすべてのテキストは、見出し、小見出し、リストなどの同じレイアウトエンティティから取得されます。

レイアウト検出で使用されるファイル形式については、ファイル形式ごとのレイアウト検出をご覧ください。

Vertex AI RAG Engine でレイアウトパーサーを使用する

Vertex AI RAG Engine でレイアウトパーサーを使用するには、コーパスを作成する必要があります。コーパスを作成する手順は次のとおりです。

Google Cloud コンソールで、[RAG Engine] ページに移動します。

[RAG Engine] に移動
[コーパスを作成] を選択します。
[リージョン] フィールドでリージョンを選択します。
[コーパス名] フィールドに、コーパス名を入力します。
[説明] フィールドに説明を入力します。
[データ] セクションで、データをアップロードする場所を選択します。
[詳細オプション] セクションを開きます。
1. [チャンキング方法] セクションでは、次のデフォルトサイズが推奨されます。
  - チャンクサイズ: 1024
  - チャンクオーバーラップ: 256
2. [レイアウトパーサー] セクションで、画像やグラフを含むドキュメントの精度が最も高い [Document AI レイアウトパーサー] オプションを選択します。
  1. [モデル] フィールドで、モデルを選択します。
  2. 省略可: [1 分あたりに解析する最大リクエスト数] フィールドに、解析する最大リクエスト数を入力します。
  3. 省略可: [カスタム解析プロンプト] フィールドに、解析プロンプトを入力します。
  4. [続行] をクリックします。
[ベクトルストアの構成] ページで、次の操作を行います。
1. [エンベディングモデル] フィールドで、エンベディングモデルを選択します。
2. [ベクトルデータベース] セクションで、データベースを選択します。
[コーパスを作成] をクリックします。

制限事項

ImportRagFiles API はレイアウトパーサーをサポートしていますが、次の制限が適用されます。

すべてのファイル形式で、ファイルサイズの最大値を 20 MB と入力します。
PDF ファイルあたりの最大ページ数は 500 ページです。

Document AI の割り当てと料金が適用されます。

Document AI API を有効にする

プロジェクトで Document AI API を有効にする必要があります。API の有効化の詳細については、Service Usage のドキュメントをご覧ください。

Enable the Document AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

レイアウトパーサーをオンにする

レイアウトパーサーをオンにする手順は次のとおりです。

プロセッサの作成と管理の手順に沿って、レイアウトパーサーを作成します。

プロセッサタイプ名は LAYOUT_PARSER_PROCESSOR です。
プロセッサを有効にするの手順に沿って、レイアウトパーサーを有効にします。

RAG ナレッジベース（コーパス）

RAG コーパスがない場合は、RAG コーパスを作成します。たとえば、RAG コーパスの作成の例をご覧ください。

RAG コーパスがすでに存在する場合、レイアウトパーサーを使用してファイルをインポートしても、レイアウトパーサーなしでインポートされた既存のファイルは再インポートされません。ファイルでレイアウトパーサーを使用する場合は、まずファイルを削除します。たとえば、RAG ファイルの削除の例をご覧ください。

レイアウトパーサーを使用してファイルをインポートする

レイアウトパーサーを使用すると、さまざまなソースのファイルやフォルダをインポートできます。

Python

Vertex AI SDK for Python のインストールまたは更新の方法については、Vertex AI SDK for Python をインストールするをご覧ください。詳細については、Python API リファレンスドキュメントをご覧ください。

コードサンプルで使用されている次の変数を置き換えます。

PROJECT_ID: プロジェクト ID。
LOCATION: リクエストを処理するリージョン。
RAG_CORPUS_ID: RAG コーパスリソースの ID。
GCS_URIS: Cloud Storage ロケーションのリスト。例: "gs://my-bucket1"、"gs://my-bucket2"。
LAYOUT_PARSER_PROCESSOR_NAME: 作成されたレイアウトパーサープロセッサのリソースパス。例: "projects/{project}/locations/{location}/processors/{processor_id}"。
CHUNK_SIZE: 省略可。各チャンクに必要なトークンの数。

from vertexai import rag
import vertexai

PROJECT_ID = YOUR_PROJECT_ID
corpus_name = "projects/{PROJECT_ID}/locations/us-central1/ragCorpora/{rag_corpus_id}"
paths = ["https://drive.google.com/file/123", "gs://my_bucket/my_files_dir"]  # Supports Cloud Storage and Google Drive.

# Initialize Vertex AI API once per session
vertexai.init(project=PROJECT_ID, location="LOCATION")

response = rag.import_files(
    corpus_name=corpus_name,
    paths=paths,
    transformation_config=rag.TransformationConfig(
        rag.ChunkingConfig(chunk_size=1024, chunk_overlap=256)
    ),
    import_result_sink="gs://sample-existing-folder/sample_import_result_unique.ndjson",  # Optional: This must be an existing storage bucket folder, and the filename must be unique (non-existent).
    layout_parser=rag.LayoutParserConfig(
      processor_name="projects/{PROJECT_ID}/locations/us/processors/{processor_id}/processorVersions/{processor_version_id}",
      max_parsing_requests_per_min=120,
    ),
    max_embedding_requests_per_min=900,  # Optional
)
print(f"Import response: {response}")

REST

このコードサンプルは、レイアウトパーサーを使用して Cloud Storage ファイルをインポートする方法を示しています。別のソースからファイルをインポートするなど、その他の構成オプションについては、ImportRagFilesConfig リファレンスをご覧ください。

リクエストデータを使用する前に、コードサンプルで使用されている次の変数を置き換えます。

PROJECT_ID: プロジェクト ID。
LOCATION: リクエストを処理するリージョン。
RAG_CORPUS_ID: RAG コーパスリソースの ID。
GCS_URIS: Cloud Storage ロケーションのリスト。例: "gs://my-bucket1"、"gs://my-bucket2"。
LAYOUT_PARSER_PROCESSOR_NAME: 作成されたレイアウトパーサープロセッサのリソースパス。例: "projects/{project}/locations/{location}/processors/{processor_id}"。
CHUNK_SIZE: 省略可。各チャンクに必要なトークンの数。

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/ragCorpora/RAG_CORPUS_ID/ragFiles:import

リクエストの本文（JSON）:

{
  "import_rag_files_config": {
    "gcs_source": {
      "uris": "GCS_URIS"
    },
    "rag_file_parsing_config": {
      "layout_parser": {
        "processor_name": "LAYOUT_PARSER_PROCESSOR_NAME"
      }
    },
    "rag_file_transformation_config": {
      "rag_file_chunking_config": {
        "fixed_length_chunking": {
          "chunk_size": CHUNK_SIZE
        }
      }
    },
  }
}

リクエストを送信するには、次のいずれかのオプションを選択します。

curl

request.json という名前のファイルにリクエスト本文を保存し、次のコマンドを実行します。

curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/ragCorpora/RAG_CORPUS_ID/ragFiles:import"

Powershell

request.json という名前のファイルにリクエスト本文を保存し、次のコマンドを実行します。

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/ragCorpora/RAG_CORPUS_ID/ragFiles:import" | Select-Object -Expand Content

取得クエリ

ユーザーが質問をするか、プロンプトを指定すると、RAG の検索コンポーネントがナレッジベースを検索し、クエリに関連する情報を探します。

クエリテキストに基づいてコーパスから RAG ファイルを取得する例については、取得クエリをご覧ください。

予測

予測では、取得したコンテキストを使用してグラウンディングされた回答を生成します。例については、世代をご覧ください。

次のステップ

Vertex AI RAG Engine で選択できるベクトルデータベース
RAG ファイルをインポートする方法については、RAG ファイルのインポートの例をご覧ください。