一部のサービスと機能は名前を変更中です。生成ハンドブックとフロー機能も、単一の統合コンソールに移行されます。詳しくは、こちらをご覧ください。

このページは Cloud Translation API によって翻訳されました。

データストア

データストアは、データストアツールがエンドユーザーの質問に対する回答をデータから見つけるために使用されます。データストアは、ウェブサイト、ドキュメント、またはサードパーティシステムのデータのコレクションで、それぞれがデータを参照します。

エンドユーザーがエージェントに質問すると、エージェントは特定のソースコンテンツから回答を検索し、見つかった結果を簡潔なエージェントレスポンスに要約します。また、エンドユーザーが詳細を確認できるように、レスポンスのソースへのサポートリンクも提供します。エージェントは、特定の質問に対して最大 5 つの回答スニペットを提供できます。

データストアのソース

データにはさまざまなソースを指定できます。

ウェブサイトの URL: ドメインまたはウェブページのリストからウェブサイトのコンテンツを自動的にクロールします。
BigQuery: BigQuery テーブルからデータをインポートします。
Cloud Storage: Cloud Storage バケットからデータをインポートします。
AlloyDB: AlloyDB クラスタからデータをインポートします。
Bigtable: Bigtable テーブルからデータをインポートします。
Firestore: Firestore コレクションからデータをインポートします。
Cloud SQL: Cloud SQL テーブルからデータをインポートします。
Spanner: Spanner テーブルからデータをインポートします。

アクセスが制限されたデータストアのソース

Google は、制限付きアクセス機能として、ファーストパーティとサードパーティのデータストアソースを多数提供しています。使用可能なソースのリストを表示してアクセスをリクエストするには、このページの追加のデータストアソースをご覧ください。

ウェブサイトのコンテンツ

ウェブサイトのコンテンツをソースとして追加する場合は、複数のサイトを追加または除外できます。サイトを指定するときに、パターンのワイルドカードとして個々のページまたは * を使用できます。すべての HTML と PDF のコンテンツが処理されます。

ウェブサイトのコンテンツをソースとして使用する場合は、ドメインの所有権を確認する必要があります。

制限事項:

公開 URL からのファイルは、検索インデックスに存在するように、Google 検索インデクサによってクロールされている必要があります。これは Google Search Console で確認できます。
インデックスに登録されるページ数は最大 200,000 ページです。データストアにこれ以上のページ数が含まれている場合、その時点でインデックス登録は失敗します。すでにインデックス登録されているコンテンツはそのまま残ります。

データのインポート

BigQuery または Cloud Storage からデータをインポートできます。このデータは、FAQ 形式または非構造化とすることができ、メタデータありまたはメタデータなしとすることができます。

次のデータインポートのオプションを使用できます。

データの追加 / 更新: 提供されたドキュメントがデータストアに追加されます。新しいドキュメントの ID が古いドキュメントの ID と同じ場合、新しいドキュメントは古いドキュメントを置き換えます。
既存のデータをオーバーライド: 古いデータがすべて削除され、新しいデータがアップロードされます。この操作は元に戻せません。

よくある質問のデータストア

FAQ データストアは、よくある質問（FAQ）の回答を保持できます。ユーザーの質問がアップロードされた質問と高い信頼性で一致すると、エージェントはその質問に対する回答を変更せずに返します。エージェントで表示される質問と回答のペアごとにタイトルと URL を指定できます。

データは CSV 形式でデータストアにアップロードする必要があります。各ファイルには、列を記述するヘッダー行が必要です。

次に例を示します。

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

title 列と url 列は省略可能です。

"answer","question"
"42","What is the meaning of life?"

アップロードプロセス中に、フォルダを選択します。ここでは、拡張子に関係なく各ファイルが CSV ファイルとして扱われます。

制限事項:

, の後に余分なスペース文字があると、エラーが発生します。
空白行（ファイルの末尾にある場合も含む）があるとエラーが発生します。

非構造化データストア

非構造化データストアには、次の形式のコンテンツを含めることができます。

HTML
PDF
TXT
CSV

別のプロジェクトの Cloud Storage バケットからファイルをインポートすることは可能ですが、あまり一般的ではありません。これを行うには、インポートプロセスに明示的なアクセス権を付与する必要があります。エラーメッセージの指示に従ってください。エラーメッセージには、インポートを実行するためにバケットへの読み取りアクセス権が必要なユーザーの名前が含まれています。

制限事項:

テキストベースの形式のファイルの最大サイズは 2.5 MB、その他の形式の場合は 100 MB です。

メタデータを含むデータストア

タイトルと URL をメタデータとして指定できます。エージェントがユーザーと会話中、エージェントはユーザーにこの情報を提供します。これによりユーザーは、Google 検索インデクサがアクセスできない内部ウェブページにすばやくリンクできます。

メタデータを含むコンテンツをインポートするには、JSON Lines ファイルを 1 つ以上指定する必要があります。このファイルの各行に 1 つのドキュメントを記述します。実際のドキュメントを直接アップロードしません。Cloud Storage パスにリンクする URIs が、JSON Lines ファイルで指定されます。

JSON Lines ファイルを指定するには、これらのファイルが含まれている Cloud Storage フォルダを指定する必要があります。このフォルダには他のファイルを保存しないでください。

フィールドの説明

フィールド	タイプ	説明
id	文字列	ドキュメントの一意の識別子。
content.mimeType	文字列	ドキュメントの MIME タイプ。「application/pdf」と「text/html」がサポートされています。
content.uri	文字列	Cloud Storage 内のドキュメントの URI。
structData	文字列	`title` フィールドと `url` フィールド（省略可）を含む単一行の JSON オブジェクト。

次に例を示します。

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

メタデータなしのデータストア

このタイプのコンテンツにはメタデータがありません。代わりに、個々のドキュメントへの URI リンクを指定します。コンテンツタイプはファイル拡張子によって決まります。

解析とチャンク処理の構成

データソースによっては、Vertex AI Search で定義されている解析とチャンクの設定を構成できる場合があります。

データストアドキュメントに対する Cloud Storage の使用

コンテンツが公開されていない場合は、Cloud Storage にコンテンツを保存することをおすすめします。データストアドキュメントを作成するときは、Cloud Storage オブジェクトの URL を gs://bucket-name/folder-name の形式で指定します。フォルダ内の各ドキュメントがデータストアに追加されます。

Cloud Storage バケットを作成する場合は、次の手順を行います。

エージェントに使用するプロジェクトが選択されていることを確認します。
Standard Storage クラスを使用します。
バケットのロケーションをエージェントと同じロケーションに設定します。

Cloud Storage クイックスタートの手順に沿って、バケットを作成し、ファイルをアップロードします。

言語

サポートされている言語については、言語リファレンスのデータストア列を参照してください。

最適なパフォーマンスを得るには、データストアを 1 つの言語で作成することをおすすめします。

データストアを作成したら、必要に応じてデータストアの言語を指定できます。データストアの言語を設定すると、別の言語用に構成されたエージェントにデータストアを接続できます。たとえば、英語のエージェントに接続されるフランス語のデータストアを作成できます。

サポートされるリージョン

サポートされているリージョンについては、リージョンリファレンスをご覧ください。

（アクセス制限あり）その他のデータストアのソース

次の表に、追加のデータストアタイプを示します。これらは、アクセスが制限されている機能として利用できます。アクセスをリクエストするには、許可リスト用フォームにご記入ください。承認されると、AI アプリケーションで新しいデータストアを作成するときに、これらのオプションが表示されます。

Google データストアのソース

データストアのソース	説明
Google ドライブ	組織のドライブへのリンク。
（プレビュー）Google Gmail	組織の Gmail へのリンク。
（プレビュー）Google サイト	組織のサイトへのリンク。
（プレビュー）Google カレンダー	組織のカレンダーへのリンク。
（プレビュー）Google グループ	組織の Google グループへのリンク。

サードパーティのデータストアのソース

データストアのソース	説明
（プレビュー）AODocs	AODocs ドキュメント管理システムからデータをインポートします。
Box	組織の Box サイトからデータをインポートします。
Confluence Cloud	Confluence Cloud ワークスペースからデータをインポートします。
（プレビュー）Confluence Data Center	Confluence Data Center ワークスペースからデータをインポートします。
Dropbox	Dropbox ストレージからデータをインポートします。
EntraID	組織の EntraID システムからデータをインポートします。
（プレビュー）HubSpot	組織の HubSpot サイトからデータをインポートします。
Jira Cloud	Jira タスク管理システムからデータをインポートします。
（プレビュー）Jira Data Center	Jira Data Center サイトからデータをインポートします。
（プレビュー）Marketo	組織の Marketo マーケティングシステムからデータをインポートします。
（プレビュー）Notion	組織の Notion ワークスペースからデータをインポートします。
OneDrive	組織の OneDrive ストレージからデータをインポートします。
Microsoft Outlook	Microsoft Outlook からデータをインポートします。
Salesforce	Salesforce からデータをインポートします。
ServiceNow	ServiceNow からデータをインポートします。
SharePoint	組織の SharePoint システムからデータをインポートします。
（プレビュー）Shopify	組織の Shopify システムからデータをインポートします。
Slack	Slack からデータをインポートします。
Microsoft Teams	Microsoft Teams からデータをインポートします。
（プレビュー）WordPress	組織の WordPress サイトからデータをインポートします。

コネクタを使用してサードパーティデータストアを設定する

このセクションでは、サードパーティのデータを使用してデータストアを設定するプロセスの概要を説明します。各サードパーティデータソースに固有の手順については、生成 AI のドキュメントをご覧ください。

ID プロバイダ

ID プロバイダを使用すると、ユーザー、グループ、認証を管理できます。サードパーティのデータストアを設定する際に、Google ID プロバイダまたはサードパーティの ID プロバイダのいずれかを使用できます。

Google ID プロバイダ:

エージェントのユーザーは、Google 認証情報を使用してログインする必要があります。これは、任意の @gmail.com メールアドレス、または Google を ID プロバイダとして使用するアカウント（Google Workspace など）にすることができます。ユーザーが Google Cloud を使用してエージェントと直接やり取りする場合、Google ID がシステムに自動的に組み込まれるため、このステップはスキップされます。
IAM を使用して、Google アカウントにアクセス権を割り当てることができます。

サードパーティ ID プロバイダ:

エージェントのユーザーは、Google 以外の認証情報（Microsoft のメールアドレスなど）を使用してログインします。
Google 以外の ID プロバイダを含む Google Cloud を使用して、Workforce プールを作成する必要があります。その後、IAM を使用して、プール全体またはそのプール内の個々のユーザーにアクセス権を付与できます。
このメソッドは、@google.com 組織で設定された Google Cloud プロジェクトでは使用できません。

コネクタ

サードパーティデータストアは、コネクタを使用して実装されます。各コネクタには複数のデータストアを含めることができます。これらのデータストアは、会話エージェント（Dialogflow CX）システムにエンティティとして保存されます。

データストアを作成する前に、Google Cloud -> [エージェントビルダー] -> [設定] で、各リージョンに単一の ID プロバイダを設定する必要があります。そのリージョン内のすべてのデータストアは、同じ ID プロバイダを使用します。Workforce プールでは、Google ID またはサードパーティ ID のいずれかを選択できます。同じ Google 認証情報でも、Workforce プールにある場合は別の ID と見なされます。たとえば、test@gmail.com は workforcePools/test-pool/subject/test@gmail.com とは異なる ID とみなされます。
- （必要に応じて）Workforce プールを作成します。
- [エージェントビルダー] [設定] に移動し、[Google Identity] または [サードパーティの ID] を選択します。[保存] をクリックして、ID をリージョンに保存します。
- これで、リージョンにデータストアを作成できるようになりました。
各データストアは、アクセス制御リスト（ACL）データを各ドキュメントとともに保存します。これは、どのユーザーまたはグループがどのエンティティに対する読み取りアクセス権を持っているかの記録です。実行時に、ユーザーまたはグループメンバーは、読み取りアクセス権を持つエンティティをソースとするエージェントからのレスポンスのみを受け取ります。ユーザーがデータストア内のエンティティに対する読み取りアクセス権を持っていない場合、エージェントは空のレスポンスを返します。
データストア内のデータはサードパーティインスタンスのコピーであるため、定期的に更新する必要があります。更新間隔は、時間または日のタイムスケールで構成できます。
データストアを構成して [作成] をクリックすると、データストアがデータストアのリストに表示されるまでに 1 時間ほどかかることがあります。

データストアのトレース

この機能は次の 2 つの部分で構成されています。

エージェントシミュレータでのデータストアの内部実行トレースとステップレイテンシの表示。
トレースとレイテンシデータを Cloud Logging と BigQuery にエクスポートする。

シミュレータでデータを表示する

エージェントデータにトレースと実行データを表示するには、エージェントのレスポンスの右にある展開キャレットをクリックして、会話ターンの詳細を開きます。

[実行] タブには、次の情報を含む内部データストアの実行トレースが表示されます。

元のユーザー入力。
データストアエンジンによって書き換えられたクエリ。
セキュリティチェックのステータス、安定性チェックのステータス、グラウンディングチェックの結果、安全性チェックのステータスなど、さまざまな実行ステップでの品質シグナル。
データストア検索からスニペットを検索します。
スニペットのソースとなったサポートドキュメントのリスト。

[レイテンシ] タブには、さまざまなデータストア実行ステップのタイムグラフが表示されます。手順のリストは、データストアの構成方法と実行フローによって異なる場合があります。表示されるデータには次のものが含まれます。

FAQ マッチ: データストアが FAQ マッチングステップを実行しました。
クエリの書き換え: データストアが元のユーザークエリを書き換えました。
検索: データストアがスニペット検索を実行しました。
要約: データストアが回答を要約しました。
安全確認: データストアが安全確認の手順を実行しました。

他のロケーションでトレースデータを表示する

会話エージェントが会話履歴のロギングで構成されている場合は、[会話履歴] でデータストアのトレースを表示することもできます。
会話型エージェントが Cloud Logging で構成されている場合は、クラウドのログエクスプローラでトレースとレイテンシを表示することもできます。
会話エージェントが BigQuery エクスポートで構成されている場合は、エクスポートされた BigQuery テーブルでトレースとレイテンシを表示することもできます。

次のステップ

データストアを作成してエージェントで使用する手順については、データストアツールのドキュメントをご覧ください。

データストア コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

データストアのソース

アクセスが制限されたデータストアのソース

ウェブサイトのコンテンツ

データのインポート

よくある質問のデータストア

非構造化データストア

メタデータを含むデータストア

メタデータなしのデータストア

解析とチャンク処理の構成

データストア ドキュメントに対する Cloud Storage の使用

言語

サポートされるリージョン

（アクセス制限あり）その他のデータストアのソース

Google データストアのソース

サードパーティのデータストアのソース

コネクタを使用してサードパーティ データストアを設定する

ID プロバイダ

コネクタ

データストアのトレース

シミュレータでデータを表示する

他のロケーションでトレースデータを表示する

次のステップ

データストア

データストアドキュメントに対する Cloud Storage の使用

コネクタを使用してサードパーティデータストアを設定する