データストア

データストアは、データストア ツールがエンドユーザーの質問に対する回答をデータから見つけるために使用されます。データストアは、ウェブサイト、ドキュメント、またはサードパーティ システムのデータのコレクションで、それぞれがデータを参照します。

エンドユーザーがエージェントに質問すると、エージェントは特定のソース コンテンツから回答を検索し、見つかった結果を簡潔なエージェント レスポンスに要約します。 また、エンドユーザーが詳細を確認できるように、レスポンスのソースへのサポート リンクも提供します。 エージェントは、特定の質問に対して最大 5 つの回答スニペットを提供できます。

データストアのソース

データにはさまざまなソースを指定できます。

  • ウェブサイトの URL: ドメインまたはウェブページのリストからウェブサイトのコンテンツを自動的にクロールします。
  • BigQuery: BigQuery テーブルからデータをインポートします。
  • Cloud Storage: Cloud Storage バケットからデータをインポートします。
  • AlloyDB: AlloyDB クラスタからデータをインポートします。
  • Bigtable: Bigtable テーブルからデータをインポートします。
  • Firestore: Firestore コレクションからデータをインポートします。
  • Cloud SQL: Cloud SQL テーブルからデータをインポートします。
  • Spanner: Spanner テーブルからデータをインポートします。

アクセスが制限されたデータストアのソース

Google は、制限付きアクセス機能として、ファーストパーティとサードパーティのデータストア ソースを多数提供しています。使用可能なソースのリストを表示してアクセスをリクエストするには、このページの追加のデータストア ソースをご覧ください。

ウェブサイトのコンテンツ

ウェブサイトのコンテンツをソースとして追加する場合は、複数のサイトを追加または除外できます。 サイトを指定するときに、パターンのワイルドカードとして個々のページまたは * を使用できます。 すべての HTML と PDF のコンテンツが処理されます。

ウェブサイトのコンテンツをソースとして使用する場合は、ドメインの所有権を確認する必要があります。

制限事項:

  • 公開 URL からのファイルは、検索インデックスに存在するように、Google 検索インデクサによってクロールされている必要があります。これは Google Search Console で確認できます。
  • インデックスに登録されるページ数は最大 200,000 ページです。データストアにこれ以上のページ数が含まれている場合、その時点でインデックス登録は失敗します。すでにインデックス登録されているコンテンツはそのまま残ります。

データのインポート

BigQuery または Cloud Storage からデータをインポートできます。このデータは、FAQ 形式または非構造化とすることができ、メタデータありまたはメタデータなしとすることができます。

次のデータ インポートのオプションを使用できます。

  • データの追加 / 更新: 提供されたドキュメントがデータストアに追加されます。 新しいドキュメントの ID が古いドキュメントの ID と同じ場合、新しいドキュメントは古いドキュメントを置き換えます。
  • 既存のデータをオーバーライド: 古いデータがすべて削除され、新しいデータがアップロードされます。 この操作は元に戻せません。

よくある質問のデータストア

FAQ データストアは、よくある質問(FAQ)の回答を保持できます。ユーザーの質問がアップロードされた質問と高い信頼性で一致すると、エージェントはその質問に対する回答を変更せずに返します。 エージェントで表示される質問と回答のペアごとにタイトルと URL を指定できます。

データは CSV 形式でデータストアにアップロードする必要があります。各ファイルには、列を記述するヘッダー行が必要です。

次に例を示します。

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

title 列と url 列は省略可能です。

"answer","question"
"42","What is the meaning of life?"

アップロード プロセス中に、フォルダを選択します。ここでは、拡張子に関係なく各ファイルが CSV ファイルとして扱われます。

制限事項:

  • , の後に余分なスペース文字があると、エラーが発生します。
  • 空白行(ファイルの末尾にある場合も含む)があるとエラーが発生します。

非構造化データストア

非構造化データストアには、次の形式のコンテンツを含めることができます。

  • HTML
  • PDF
  • TXT
  • CSV

別のプロジェクトの Cloud Storage バケットからファイルをインポートすることは可能ですが、あまり一般的ではありません。これを行うには、インポート プロセスに明示的なアクセス権を付与する必要があります。エラー メッセージの指示に従ってください。エラー メッセージには、インポートを実行するためにバケットへの読み取りアクセス権が必要なユーザーの名前が含まれています。

制限事項:

  • テキストベースの形式のファイルの最大サイズは 2.5 MB、その他の形式の場合は 100 MB です。

メタデータを含むデータストア

タイトルと URL をメタデータとして指定できます。エージェントがユーザーと会話中、エージェントはユーザーにこの情報を提供します。 これによりユーザーは、Google 検索インデクサがアクセスできない内部ウェブページにすばやくリンクできます。

メタデータを含むコンテンツをインポートするには、JSON Lines ファイルを 1 つ以上指定する必要があります。このファイルの各行に 1 つのドキュメントを記述します。実際のドキュメントを直接アップロードしません。Cloud Storage パスにリンクする URIs が、JSON Lines ファイルで指定されます。

JSON Lines ファイルを指定するには、これらのファイルが含まれている Cloud Storage フォルダを指定する必要があります。このフォルダには他のファイルを保存しないでください。

フィールドの説明

フィールド タイプ 説明
id 文字列 ドキュメントの一意の識別子。
content.mimeType 文字列 ドキュメントの MIME タイプ。「application/pdf」と「text/html」がサポートされています。
content.uri 文字列 Cloud Storage 内のドキュメントの URI。
structData 文字列 title フィールドと url フィールド(省略可)を含む単一行の JSON オブジェクト。

次に例を示します。

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

メタデータなしのデータストア

このタイプのコンテンツにはメタデータがありません。代わりに、個々のドキュメントへの URI リンクを指定します。コンテンツ タイプはファイル拡張子によって決まります。

解析とチャンク処理の構成

データソースによっては、Vertex AI Search で定義されている解析とチャンクの設定を構成できる場合があります。

データストア ドキュメントに対する Cloud Storage の使用

コンテンツが公開されていない場合は、Cloud Storage にコンテンツを保存することをおすすめします。データストア ドキュメントを作成するときは、Cloud Storage オブジェクトの URL を gs://bucket-name/folder-name の形式で指定します。フォルダ内の各ドキュメントがデータストアに追加されます。

Cloud Storage バケットを作成する場合は、次の手順を行います。

Cloud Storage クイックスタートの手順に沿って、バケットを作成し、ファイルをアップロードします。

言語

サポートされている言語については、言語リファレンスのデータストア列を参照してください。

最適なパフォーマンスを得るには、データストアを 1 つの言語で作成することをおすすめします。

データストアを作成したら、必要に応じてデータストアの言語を指定できます。データストアの言語を設定すると、別の言語用に構成されたエージェントにデータストアを接続できます。たとえば、英語のエージェントに接続されるフランス語のデータストアを作成できます。

サポートされるリージョン

サポートされているリージョンについては、リージョン リファレンスをご覧ください。

(アクセス制限あり)その他のデータストアのソース

次の表に、追加のデータストア タイプを示します。これらは、アクセスが制限されている機能として利用できます。アクセスをリクエストするには、許可リスト用フォームにご記入ください。承認されると、AI アプリケーションで新しいデータストアを作成するときに、これらのオプションが表示されます。

Google データストアのソース

データストアのソース 説明
Google ドライブ 組織のドライブへのリンク。
(プレビュー)Google Gmail 組織の Gmail へのリンク。
(プレビュー)Google サイト 組織のサイトへのリンク。
(プレビュー)Google カレンダー 組織のカレンダーへのリンク。
(プレビュー)Google グループ 組織の Google グループへのリンク。

サードパーティのデータストアのソース

データストアのソース 説明
(プレビュー)AODocs AODocs ドキュメント管理システムからデータをインポートします。
Box 組織の Box サイトからデータをインポートします。
Confluence Cloud Confluence Cloud ワークスペースからデータをインポートします。
(プレビュー)Confluence Data Center Confluence Data Center ワークスペースからデータをインポートします。
Dropbox Dropbox ストレージからデータをインポートします。
EntraID 組織の EntraID システムからデータをインポートします。
(プレビュー)HubSpot 組織の HubSpot サイトからデータをインポートします。
Jira Cloud Jira タスク管理システムからデータをインポートします。
(プレビュー)Jira Data Center Jira Data Center サイトからデータをインポートします。
(プレビュー)Marketo 組織の Marketo マーケティング システムからデータをインポートします。
(プレビュー)Notion 組織の Notion ワークスペースからデータをインポートします。
OneDrive 組織の OneDrive ストレージからデータをインポートします。
Microsoft Outlook Microsoft Outlook からデータをインポートします。
Salesforce Salesforce からデータをインポートします。
ServiceNow ServiceNow からデータをインポートします。
SharePoint 組織の SharePoint システムからデータをインポートします。
(プレビュー)Shopify 組織の Shopify システムからデータをインポートします。
Slack Slack からデータをインポートします。
Microsoft Teams Microsoft Teams からデータをインポートします。
(プレビュー)WordPress 組織の WordPress サイトからデータをインポートします。

コネクタを使用してサードパーティ データストアを設定する

このセクションでは、サードパーティのデータを使用してデータストアを設定するプロセスの概要を説明します。各サードパーティ データソースに固有の手順については、生成 AI のドキュメントをご覧ください。

ID プロバイダ

ID プロバイダを使用すると、ユーザー、グループ、認証を管理できます。サードパーティのデータストアを設定する際に、Google ID プロバイダまたはサードパーティの ID プロバイダのいずれかを使用できます。

Google ID プロバイダ:

  • エージェントのユーザーは、Google 認証情報を使用してログインする必要があります。これは、任意の @gmail.com メールアドレス、または Google を ID プロバイダとして使用するアカウント(Google Workspace など)にすることができます。ユーザーが Google Cloud を使用してエージェントと直接やり取りする場合、Google ID がシステムに自動的に組み込まれるため、このステップはスキップされます。
  • IAM を使用して、Google アカウントにアクセス権を割り当てることができます。

サードパーティ ID プロバイダ:

  • エージェントのユーザーは、Google 以外の認証情報(Microsoft のメールアドレスなど)を使用してログインします。
  • Google 以外の ID プロバイダを含む Google Cloud を使用して、Workforce プールを作成する必要があります。その後、IAM を使用して、プール全体またはそのプール内の個々のユーザーにアクセス権を付与できます。
  • このメソッドは、@google.com 組織で設定された Google Cloud プロジェクトでは使用できません。

コネクタ

サードパーティ データストアは、コネクタを使用して実装されます。各コネクタには複数のデータストアを含めることができます。これらのデータストアは、会話エージェント(Dialogflow CX)システムにエンティティとして保存されます。

  • データストアを作成する前に、Google Cloud -> [エージェント ビルダー] -> [設定] で、各リージョンに単一の ID プロバイダを設定する必要があります。そのリージョン内のすべてのデータストアは、同じ ID プロバイダを使用します。Workforce プールでは、Google ID またはサードパーティ ID のいずれかを選択できます。同じ Google 認証情報でも、Workforce プールにある場合は別の ID と見なされます。たとえば、test@gmail.comworkforcePools/test-pool/subject/test@gmail.com とは異なる ID とみなされます。

    • (必要に応じて)Workforce プールを作成します。
    • [エージェント ビルダー] [設定] に移動し、[Google Identity] または [サードパーティの ID] を選択します。[保存] をクリックして、ID をリージョンに保存します。
    • これで、リージョンにデータストアを作成できるようになりました。
  • 各データストアは、アクセス制御リスト(ACL)データを各ドキュメントとともに保存します。これは、どのユーザーまたはグループがどのエンティティに対する読み取りアクセス権を持っているかの記録です。実行時に、ユーザーまたはグループ メンバーは、読み取りアクセス権を持つエンティティをソースとするエージェントからのレスポンスのみを受け取ります。ユーザーがデータストア内のエンティティに対する読み取りアクセス権を持っていない場合、エージェントは空のレスポンスを返します。

  • データストア内のデータはサードパーティ インスタンスのコピーであるため、定期的に更新する必要があります。更新間隔は、時間または日のタイムスケールで構成できます。

  • データストアを構成して [作成] をクリックすると、データストアがデータストアのリストに表示されるまでに 1 時間ほどかかることがあります。

データストアのトレース

この機能は次の 2 つの部分で構成されています。

  1. エージェント シミュレータでのデータストアの内部実行トレースとステップ レイテンシの表示。
  2. トレースとレイテンシ データを Cloud Logging と BigQuery にエクスポートする。

シミュレータでデータを表示する

エージェント データにトレースと実行データを表示するには、エージェントのレスポンスの右にある展開キャレットをクリックして、会話ターンの詳細を開きます。

[実行] タブには、次の情報を含む内部データストアの実行トレースが表示されます。

  • 元のユーザー入力。
  • データストア エンジンによって書き換えられたクエリ。
  • セキュリティ チェックのステータス、安定性チェックのステータス、グラウンディング チェックの結果、安全性チェックのステータスなど、さまざまな実行ステップでの品質シグナル。
  • データストア検索からスニペットを検索します。
  • スニペットのソースとなったサポート ドキュメントのリスト。

[レイテンシ] タブには、さまざまなデータストア実行ステップのタイムグラフが表示されます。手順のリストは、データストアの構成方法と実行フローによって異なる場合があります。表示されるデータには次のものが含まれます。

  • FAQ マッチ: データストアが FAQ マッチング ステップを実行しました。
  • クエリの書き換え: データストアが元のユーザー クエリを書き換えました。
  • 検索: データストアがスニペット検索を実行しました。
  • 要約: データストアが回答を要約しました。
  • 安全確認: データストアが安全確認の手順を実行しました。

他のロケーションでトレースデータを表示する

  • 会話エージェントが会話履歴のロギングで構成されている場合は、[会話履歴] でデータストアのトレースを表示することもできます。

  • 会話型エージェントが Cloud Logging で構成されている場合は、クラウドのログ エクスプローラでトレースとレイテンシを表示することもできます。

  • 会話エージェントが BigQuery エクスポートで構成されている場合は、エクスポートされた BigQuery テーブルでトレースとレイテンシを表示することもできます。

次のステップ

データストアを作成してエージェントで使用する手順については、データストア ツールのドキュメントをご覧ください。