会話データセットには会話の文字起こしデータが含まれており、スマート リプライまたは要約のカスタムモデルのトレーニングに使用されます。スマート リプライは、会話の文字起こしを使用して、エンドユーザーと会話している人間のエージェントにテキスト レスポンスを推奨します。要約カスタムモデルは、文字起こしとアノテーション データを含む会話データセットでトレーニングされます。会話が完了すると、アノテーションを使用して会話の要約を生成し、人間のエージェントに提供します。
データセットを作成するには、Console チュートリアルのワークフローを使用する方法と、[データ] -> [データセット] タブを使用して Console でデータセットを手動で作成する方法の 2 つがあります。最初のオプションとして、コンソールのチュートリアルを使用することをおすすめします。コンソールのチュートリアルを使用するには、Agent Assist コンソールに移動し、テストする機能の下にある [開始] ボタンをクリックします。
このページでは、データセットを手動で作成する方法について説明します。
始める前に
Dialogflow の設定の手順に沿って、Google Cloud Platform プロジェクトで Dialogflow を有効にします。
このチュートリアルを始める前に、Agent Assist の基本ページを読むことをおすすめします。
独自の文字起こしデータを使用してスマート返信を実装する場合は、文字起こしが指定された形式の
JSON
で、Google Cloud Storage バケットに保存されていることを確認してください。会話データセットには少なくとも 30,000 件の会話が含まれている必要があります。そうでない場合、モデルのトレーニングは失敗します。一般に、会話が多いほど、モデルの品質は向上します。メッセージ数が 20 件未満、または会話のターン(発言者が変わる回数)が 3 回未満の会話は削除することをおすすめします。また、bot メッセージやシステムによって自動的に生成されたメッセージ(「エージェントがチャットルームに入室しました」など)は削除することをおすすめします。できるだけ多くのユースケースをカバーするため、少なくとも 3 か月分の会話をアップロードすることをおすすめします。会話データセット内の会話の最大数は 1,000,000 です。独自の文字起こしデータとアノテーション データを使用して要約を実装する場合は、文字起こしが指定された形式で、Google Cloud Storage バケットに保存されていることを確認してください。トレーニング アノテーションの推奨最小数は 1,000 です。強制される最小数は 100 です。
Agent Assist コンソールに移動します。 Google Cloud Platform プロジェクトを選択し、ページの左端の余白にある [データ] メニュー オプションをクリックします。[データ] メニューには、すべてのデータが表示されます。[会話データセット] と [ナレッジベース] の 2 つのタブがあります。
[会話データセット] タブをクリックし、会話データセット ページの右上にある [+ 新規作成] ボタンをクリックします。
会話データセットを作成する
新しいデータセットの [名前] と [説明](省略可)を入力します。[会話データ] フィールドに、会話の文字起こしを含むストレージ バケットの URI を入力します。Agent Assist は、ワイルドカード マッチングに
*
記号を使用することをサポートしています。URI の形式は次のとおりです。gs://<bucket name>/<object name>
次に例を示します。
gs://mydata/conversationjsons/conv0*.json gs://mydatabucket/test/conv.json
[作成] をクリックします。新しいデータセットが、[データ] メニューページの [会話データセット] タブのデータセット リストに表示されます。
次のステップ
Agent Assist コンソールを使用して、1 つ以上の会話データセットでスマート リプライ モデルまたは要約モデルをトレーニングします。