会話データセットを作成する

会話データセットには会話の文字起こしデータが含まれており、スマート リプライまたは要約のカスタムモデルのトレーニングに使用されます。スマート リプライは、会話の文字起こしを使用して、エンドユーザーと会話している人間のエージェントにテキスト レスポンスを推奨します。要約カスタムモデルは、文字起こしとアノテーション データを含む会話データセットでトレーニングされます。会話が完了すると、アノテーションを使用して会話の要約を生成し、人間のエージェントに提供します。

データセットを作成するには、Console チュートリアルのワークフローを使用する方法と、[データ] -> [データセット] タブを使用して Console でデータセットを手動で作成する方法の 2 つがあります。最初のオプションとして、コンソールのチュートリアルを使用することをおすすめします。コンソールのチュートリアルを使用するには、Agent Assist コンソールに移動し、テストする機能の下にある [開始] ボタンをクリックします。

このページでは、データセットを手動で作成する方法について説明します。

始める前に

  1. Dialogflow の設定の手順に沿って、Google Cloud Platform プロジェクトで Dialogflow を有効にします。

  2. このチュートリアルを始める前に、Agent Assist の基本ページを読むことをおすすめします。

  3. 独自の文字起こしデータを使用してスマート返信を実装する場合は、文字起こしが指定された形式JSON で、Google Cloud Storage バケットに保存されていることを確認してください。会話データセットには少なくとも 30,000 件の会話が含まれている必要があります。そうでない場合、モデルのトレーニングは失敗します。一般に、会話が多いほど、モデルの品質は向上します。メッセージ数が 20 件未満、または会話のターン(発言者が変わる回数)が 3 回未満の会話は削除することをおすすめします。また、bot メッセージやシステムによって自動的に生成されたメッセージ(「エージェントがチャットルームに入室しました」など)は削除することをおすすめします。できるだけ多くのユースケースをカバーするため、少なくとも 3 か月分の会話をアップロードすることをおすすめします。会話データセット内の会話の最大数は 1,000,000 です。

  4. 独自の文字起こしデータとアノテーション データを使用して要約を実装する場合は、文字起こしが指定された形式で、Google Cloud Storage バケットに保存されていることを確認してください。トレーニング アノテーションの推奨最小数は 1,000 です。強制される最小数は 100 です。

  5. Agent Assist コンソールに移動します。 Google Cloud Platform プロジェクトを選択し、ページの左端の余白にある [データ] メニュー オプションをクリックします。[データ] メニューには、すべてのデータが表示されます。[会話データセット] と [ナレッジベース] の 2 つのタブがあります。

  6. [会話データセット] タブをクリックし、会話データセット ページの右上にある [+ 新規作成] ボタンをクリックします。

会話データセットを作成する

  1. 新しいデータセットの [名前] と [説明](省略可)を入力します。[会話データ] フィールドに、会話の文字起こしを含むストレージ バケットの URI を入力します。Agent Assist は、ワイルドカード マッチングに * 記号を使用することをサポートしています。URI の形式は次のとおりです。

    gs://<bucket name>/<object name>
    

    次に例を示します。

    gs://mydata/conversationjsons/conv0*.json
    gs://mydatabucket/test/conv.json
    
  2. [作成] をクリックします。新しいデータセットが、[データ] メニューページの [会話データセット] タブのデータセット リストに表示されます。

次のステップ

Agent Assist コンソールを使用して、1 つ以上の会話データセットでスマート リプライ モデルまたは要約モデルをトレーニングします。