Importer les données des conversations

Les données de conversation sont acceptées sous forme de transcriptions (Réponse suggérée) et de transcriptions avec données d'annotation (Synthèse). Vous pouvez éventuellement utiliser les données de conversation et les modèles de démonstration fournis par Agent Assist pour tester la fonctionnalité ou l'intégration, sans avoir à fournir vos propres données. Pour pouvoir utiliser les fonctionnalités Réponse suggérée et Résumé pendant l'exécution, vous devez fournir vos propres données de conversation.

Cette page vous guide tout au long des étapes nécessaires pour utiliser les ensembles de données publics et pour mettre en forme vos propres données afin de les importer dans Cloud Storage. Vous devez fournir vos données de conversation sous forme de fichiers texte au format JSON.

Format des données de réponse suggérée

La fonctionnalité Réponse suggérée peut être utilisée avec n'importe quelle fonctionnalité Agent Assist ou de manière autonome. Pour implémenter la réponse suggérée, vous devez fournir des données de conversation à Agent Assist.

Agent Assist fournit des exemples de données de conversation que vous pouvez utiliser pour entraîner un modèle, ainsi qu'un modèle de démonstration et une liste d'autorisation. Vous pouvez utiliser ces ressources pour créer un profil de conversation et tester les fonctionnalités de la fonctionnalité sans avoir à fournir vos propres données. Si vous fournissez vos propres données, elles doivent être au format spécifié.

Utiliser les exemples de données de conversation de la fonctionnalité Réponse suggérée

L'ensemble de données de conversation exemple est dérivé d'une source externe et est stocké dans un bucket Google Cloud Storage. Les données contiennent des dialogues axés sur les tâches portant sur six domaines : "Réservations", "restaurant", "hôtel", "attraction", "taxi" et "train". Pour entraîner votre propre modèle à l'aide de cet ensemble de données, suivez la procédure de création d'un ensemble de données de conversation à l'aide de la console Agent Assist. Dans le champ Données de conversation, saisissez gs://smart_messaging_integration_test_data/*.json pour utiliser l'ensemble de données de test. Si vous effectuez des appels d'API directs au lieu d'utiliser la console, vous pouvez créer un ensemble de données de conversation en pointant l'API vers le bucket Cloud Storage ci-dessus.

Utiliser le modèle de réponse suggérée et la liste d'autorisations de démonstration

Pour tester le modèle de réponse suggérée de démonstration et la liste d'autorisation à l'aide de la console (aucun ensemble de données n'est nécessaire), accédez à la console Agent Assist, puis cliquez sur le bouton Commencer sous la fonctionnalité Réponse suggérée. Les tutoriels de la console vous permettent d'utiliser vos propres données, des données fournies ou le modèle de démonstration.

Si vous appelez l'API directement au lieu d'utiliser la console, vous trouverez le modèle et la liste d'autorisation aux emplacements suivants :

  • Modèle : projects/ccai-shared-external/conversationModels/c671dd72c5e4656f
  • Liste d'autorisations : projects/ccai-shared-external/knowledgeBases/smart_messaging_kb/documents/NzU1MDYzOTkxNzU0MjQwODE5Mg

Pour tester la fonctionnalité, nous vous conseillons de commencer par utiliser les messages d'utilisateur final suivants pour déclencher une réponse:

  • "Pouvez-vous m'indiquer un endroit coûteux où séjourner dans l'est ?"
  • "Je recherche un restaurant coûteux qui sert des plats Thailandais."
  • "Bonjour, j'ai besoin d'un hôtel avec Wi-Fi gratuit dans le nord de Cambridge."

Format des données de synthèse

La synthèse peut être utilisée avec n'importe quelle fonctionnalité Agent Assist ou en tant que fonctionnalité autonome. Pour implémenter la synthèse, vous devez fournir à Agent Assist des données de conversation incluant des annotations. Une annotation est un résumé d'une transcription de conversation associée. Les annotations permettent d'entraîner un modèle que vous pouvez utiliser pour générer des résumés pour vos agents à la fin de chaque conversation avec un utilisateur final.

Utiliser l'exemple de données de conversation et le modèle de démonstration de synthèse

Agent Assist fournit également des exemples de données de conversation annotées que vous pouvez utiliser pour entraîner un modèle. Nous vous recommandons de choisir cette option si vous souhaitez tester la fonctionnalité de synthèse avant de mettre en forme votre propre ensemble de données. L'ensemble de données de test se trouve dans le bucket Cloud Storage suivant : gs://summarization_integration_test_data/data. Si vous utilisez les exemples de données, vous pouvez entraîner un modèle de synthèse à l'aide de la console ou de l'API. Saisissez gs://summarization_integration_test_data/data/* dans le champ de l'URI de l'ensemble de données pour utiliser l'ensemble de données exemple.

Pour tester le modèle de synthèse de démonstration (aucun ensemble de données n'est nécessaire), accédez à la console d'assistance de l'agent, puis cliquez sur le bouton Commencer sous la fonctionnalité de synthèse. Les tutoriels de la console vous permettent d'utiliser vos propres données, des données fournies ou le modèle de démonstration.

Mettre en forme les annotations

Les modèles personnalisés de synthèse Agent Assist sont entraînés à l'aide d'ensembles de données de conversations. Un ensemble de données de conversation contient les données de transcription et d'annotation que vous avez importées.

Avant de pouvoir importer des données, vous devez vous assurer que chaque transcription de conversation est au format JSON, qu'elle est associée à une annotation et qu'elle est stockée dans un bucket Google Cloud Storage.

Pour créer des annotations, ajoutez les chaînes key et value attendues au champ annotation associé à chaque conversation de votre ensemble de données. Pour obtenir les meilleurs résultats, les données d'entraînement à l'annotation doivent respecter les consignes suivantes :

  1. Le nombre minimal recommandé d'annotations d'entraînement est de 1 000. Le nombre minimal appliqué est de 100.
  2. Les données d'entraînement ne doivent pas contenir d'informations permettant d'identifier personnellement l'utilisateur.
  3. Les annotations ne doivent pas inclure d'informations sur le genre, l'origine ethnique ou l'âge.
  4. Les annotations ne doivent pas utiliser de langage toxique ou grossier.
  5. Les annotations ne doivent pas contenir d'informations qui ne peuvent pas être déduites de la transcription de la conversation correspondante.
  6. Chaque annotation peut contenir jusqu'à trois sections. Vous pouvez choisir vos propres noms de sections.
  7. Les annotations doivent respecter les règles d'orthographe et de grammaire.

Voici un exemple illustrant le format d'une transcription de conversation avec l'annotation associée :

{
  "entries": [
    {
      "text": "How can I help?",
      "role": "AGENT"
    },
    {
      "text": "I cannot login",
      "role": "CUSTOMER"
    },
    {
      "text": "Ok, let me confirm. Are you experiencing issues accessing your account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "CUSTOMER"
    },
    {
      "text": "Got it. Do you still have access to the registered email for the account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "AGENT"
    },
    {
      "text": "I have sent an email with reset steps. You can follow the instructions in the email to reset your login password",
      "role": "AGENT"
    },
    {
      "text": "That's nice",
      "role": "CUSTOMER"
    },
    {
      "text": "Is there anything else I can help",
      "role": "AGENT"
    },
    {
      "text": "No that's all",
      "role": "CUSTOMER"
    },
    {
      "text": "Thanks for calling. You have a nice day",
      "role": "AGENT"
    }
  ],
  "conversation_info": {
    "annotations": [
      {
        "annotation": {
          "conversation_summarization_suggestion": {
            "text_sections": [
              {
                "key": "Situation",
                "value": "Customer was unable to login to account"
              },
              {
                "key": "Action",
                "value": "Agent sent an email with password reset instructions"
              },
              {
                "key": "Outcome",
                "value": "Problem was resolved"
              }
            ]
          }
        }
      }
    ]
  }
}

Données de transcription des conversations

Les données des conversations textuelles doivent être fournies dans des fichiers au format JSON, chaque fichier contenant des données pour une seule conversation. La section suivante décrit le format JSON requis.

Conversation

Objet de premier niveau pour les données de conversation.

Champ Type Description
conversation_info ConversationInfo { } Facultatif. Métadonnées de la conversation.
entries Entrée [ ] Obligatoire. Messages de conversation classés dans l'ordre chronologique.

ConversationInfo

Métadonnées d'une conversation.

Champ Type Description
catégories Catégorie [ ] Facultatif. Catégories personnalisées pour les données de conversation

Catégorie

Catégorie de données de conversation. Si vous fournissez des catégories avec vos données de conversation, elles seront utilisées pour identifier les sujets de vos conversations. Si vous ne fournissez pas de catégories, le système les classe automatiquement en fonction du contenu.

Champ Type Description
display_name chaîne Obligatoire. Nom à afficher pour la catégorie.

Entrée

Données pour un seul message de conversation.

Champ Type Description
text chaîne Obligatoire. Texte de ce message de conversation. Tous les textes doivent être correctement mis en majuscules. La qualité du modèle peut être considérablement affectée si toutes les lettres du texte sont en majuscules ou en minuscules. Une erreur sera renvoyée si ce champ est laissé vide.
user_id Entier Facultatif. Numéro qui identifie le participant à la conversation. Chaque participant doit disposer d'un user_id unique, utilisé à plusieurs reprises s'il participe à plusieurs conversations.
role chaîne Obligatoire. Rôle du participant à la conversation. Au choix: "AGENT", "CLIENT".
start_timestamp_usec entier Facultatif si la conversation n'est utilisée que pour l'assistance FAQ, la suggestion d'articles et la synthèse. Obligatoire dans les autres cas. L'horodatage du début de la conversation est exprimé en microsecondes.

Exemple

Vous trouverez ci-dessous un exemple de fichier de données de conversation.

{
  "conversation_info":{
    "categories":[
      {
        "display_name":"Category 1"
      }
    ]
  },
  "entries": [
    {
      "start_timestamp_usec": 1000000,
      "text": "Hello, I'm calling in regards to ...",
      "role": "CUSTOMER",
      "user_id": 1
    },
    {
      "start_timestamp_usec": 5000000,
      "text": "Yes, I can answer your question ...",
      "role": "AGENT",
      "user_id": 2
    },
    ...
  ]
}

Importer des conversations dans Cloud Storage

Vous devez fournir vos données de conversation dans un bucket Cloud Storage hébergé dans votre projet Google Cloud Platform. Lors de la création du bucket:

  • Assurez-vous d'avoir sélectionné le projet Google Cloud Platform que vous utilisez pour Dialogflow.
  • Utilisez la classe Stockage standard.
  • Définissez l'emplacement du bucket sur l'emplacement le plus proche du vôtre. Vous aurez besoin de l'ID d'emplacement (par exemple, us-west1) pour fournir les données de conversation. Prenez donc note de votre choix.
  • Vous aurez également besoin du nom du bucket pour fournir les données de conversation.

Suivez les instructions de la page Démarrage rapide de Cloud Storage pour créer un bucket et importer des fichiers.