このページは Cloud Translation API によって翻訳されました。

会話データセットを作成する

会話データセットには会話の文字起こしデータが含まれており、スマートリプライまたは要約のカスタムモデルのトレーニングに使用されます。スマートリプライは、会話の文字起こしを使用して、エンドユーザーと会話している人間のエージェントにテキストレスポンスを推奨します。要約カスタムモデルは、文字起こしとアノテーション データを含む会話データセットでトレーニングされます。会話が完了すると、アノテーションを使用して会話の要約を生成し、人間のエージェントに提供します。

データセットを作成するには、Console チュートリアルのワークフローを使用する方法と、[データ] -> [データセット] タブを使用して Console でデータセットを手動で作成する方法の 2 つがあります。最初のオプションとして、コンソールのチュートリアルを使用することをおすすめします。コンソールのチュートリアルを使用するには、Agent Assist コンソールに移動し、テストする機能の下にある [開始] ボタンをクリックします。

このページでは、データセットを手動で作成する方法について説明します。

始める前に

Dialogflow の設定の手順に沿って、Google Cloud Platform プロジェクトで Dialogflow を有効にします。
このチュートリアルを始める前に、Agent Assist の基本ページを読むことをおすすめします。
独自の文字起こしデータを使用してスマート返信を実装する場合は、文字起こしが指定された形式の JSON で、Google Cloud Storage バケットに保存されていることを確認してください。会話データセットには少なくとも 30,000 件の会話が含まれている必要があります。そうでない場合、モデルのトレーニングは失敗します。一般に、会話が多いほど、モデルの品質は向上します。メッセージ数が 20 件未満、または会話のターン（発言者が変わる回数）が 3 回未満の会話は削除することをおすすめします。また、bot メッセージやシステムによって自動的に生成されたメッセージ（「エージェントがチャットルームに入室しました」など）は削除することをおすすめします。できるだけ多くのユースケースをカバーするため、少なくとも 3 か月分の会話をアップロードすることをおすすめします。会話データセット内の会話の最大数は 1,000,000 です。
独自の文字起こしデータとアノテーションデータを使用して要約を実装する場合は、文字起こしが指定された形式で、Google Cloud Storage バケットに保存されていることを確認してください。トレーニングアノテーションの推奨最小数は 1,000 です。強制される最小数は 100 です。
Agent Assist コンソールに移動します。 Google Cloud Platform プロジェクトを選択し、ページの左端の余白にある [データ] メニューオプションをクリックします。[データ] メニューには、すべてのデータが表示されます。[会話データセット] と [ナレッジベース] の 2 つのタブがあります。
[会話データセット] タブをクリックし、会話データセットページの右上にある [+ 新規作成] ボタンをクリックします。

会話データセットを作成する

新しいデータセットの [名前] と [説明]（省略可）を入力します。[会話データ] フィールドに、会話の文字起こしを含むストレージバケットの URI を入力します。Agent Assist は、ワイルドカードマッチングに * 記号を使用することをサポートしています。URI の形式は次のとおりです。
```
gs://<bucket name>/<object name>
```
次に例を示します。
```
gs://mydata/conversationjsons/conv0*.json
gs://mydatabucket/test/conv.json
```
[作成] をクリックします。新しいデータセットが、[データ] メニューページの [会話データセット] タブのデータセットリストに表示されます。

次のステップ

Agent Assist コンソールを使用して、1 つ以上の会話データセットでスマートリプライモデルまたは要約モデルをトレーニングします。