Sube datos de conversaciones

Se aceptan los datos de conversación como transcripciones (Respuestas inteligentes) y transcripciones más datos de anotación (Resúmenes). De manera opcional, puedes usar los datos de conversación y los modelos de demostración proporcionados por Agent Assist para probar la funcionalidad o la integración sin tener que proporcionar tus propios datos. Para usar Respuesta inteligente y Resumen durante el tiempo de ejecución, debes proporcionar tus propios datos de conversación.

En esta página, se explican los pasos necesarios para usar los conjuntos de datos públicos y dar formato a tus propios datos para subirlos a Cloud Storage. Debes proporcionar tus datos de conversación como archivos de texto con formato JSON.

Formato de datos de Respuesta inteligente

La Respuesta inteligente se puede usar junto con cualquier función de Agent Assist o como una función independiente. Para implementar Respuesta inteligente, debes proporcionar datos de conversación a Agent Assist.

El Asistente de agentes proporciona datos de conversaciones de muestra que puedes usar para entrenar un modelo, además de un modelo de demostración y una lista de entidades permitidas. Puedes usar estos recursos para crear un perfil de conversación y probar la funcionalidad de las funciones sin necesidad de proporcionar tus propios datos. Si proporcionas tus propios datos, deben estar en el formato especificado.

Usa los datos de conversación de muestra de Respuesta inteligente

El conjunto de datos de conversaciones de muestra se deriva de una fuente externa y se almacena en un bucket de Google Cloud Storage. Los datos contienen diálogos orientados a tareas que abarcan seis dominios: "Reservas", "Restaurante", "Hotel", "Atracción", "Taxi" y "Tren". Para entrenar tu propio modelo con este conjunto de datos, sigue los pasos para crear un conjunto de datos de conversación con la consola de Agent Assist. En el campo Datos de conversación, ingresa gs://smart_messaging_integration_test_data/*.json para usar el conjunto de datos de prueba. Si realizas llamadas directas a la API en lugar de usar la consola, puedes crear un conjunto de datos de conversación dirigiendo la API al bucket de Cloud Storage anterior.

Usa el modelo de demostración de Respuesta inteligente y la lista de entidades permitidas

Para probar el modelo de Respuesta inteligente de demostración y la lista de entidades permitidas con la consola (no se necesita un conjunto de datos), navega a la consola de Agent Assist y haz clic en el botón Comenzar en la función de Respuesta inteligente. Los instructivos de la consola te brindan opciones para usar tus propios datos, los datos proporcionados o el modelo de demostración.

Si realizas llamadas a la API directamente en lugar de usar la consola, el modelo y la lista de entidades permitidas se encuentran en las siguientes ubicaciones:

  • Modelo: projects/ccai-shared-external/conversationModels/c671dd72c5e4656f
  • Lista de entidades permitidas: projects/ccai-shared-external/knowledgeBases/smart_messaging_kb/documents/NzU1MDYzOTkxNzU0MjQwODE5Mg

Para probar la funcionalidad de la función, te sugerimos que comiences usando los siguientes mensajes para el usuario final para activar una respuesta:

  • "¿Puedes encontrar un lugar caro para quedarme que esté ubicado en el este?"
  • "Busco un restaurante caro que sirva comida tailandesa".
  • "Hola, necesito un hotel con Wi-Fi gratis en el norte de Cambridge".

Formato de datos de resumen

El resumen se puede usar junto con cualquier función de Agent Assist o como una función independiente. Para implementar la función de Resumen, debes proporcionar a Agent Assist datos de conversaciones que incluyan anotaciones. Una anotación es un resumen de la transcripción de una conversación asociada. Las anotaciones se usan para entrenar un modelo que puedes usar para generar resúmenes para tus agentes al final de cada conversación con un usuario final.

Usa los datos de conversación de ejemplo de Summarization y el modelo de demostración

El Asistente de agente también proporciona datos de conversaciones anotadas de muestra que puedes usar para entrenar un modelo. Te recomendamos que elijas esta opción si quieres probar la función de Resumen antes de darle formato a tu propio conjunto de datos. El conjunto de datos de prueba se encuentra en el siguiente bucket de Cloud Storage: gs://summarization_integration_test_data/data. Si usas los datos de muestra, puedes entrenar un modelo de resumen con la consola o la API. Ingresa gs://summarization_integration_test_data/data/* en el campo URI del conjunto de datos para usar el conjunto de datos de muestra.

Para probar el modelo de resumen de demostración (no se necesita un conjunto de datos), navega a la consola de Agent Assist y haz clic en el botón Comenzar en la función de resumen. Los instructivos de la consola te ofrecen opciones para usar tus propios datos, los datos proporcionados o el modelo de demostración.

Anotaciones de formato

Los modelos personalizados de Resúmenes con Agent Assist se entrenan con conjuntos de datos de conversaciones. Un conjunto de datos de conversación contiene tus propios datos de transcripción y anotación subidos.

Antes de comenzar a subir datos, debes asegurarte de que cada transcripción de conversación esté en formato JSON, tenga una anotación asociada y se almacene en un bucket de Google Cloud Storage.

Para crear anotaciones, agrega las cadenas key y value esperadas al campo annotation asociado con cada conversación de tu conjunto de datos. Para obtener los mejores resultados, los datos de entrenamiento de anotación deben cumplir con los siguientes lineamientos:

  1. La cantidad mínima recomendada de anotaciones de entrenamiento es de 1,000. La cantidad mínima obligatoria es 100.
  2. Los datos de entrenamiento no deben contener PII.
  3. Las anotaciones no deben incluir información sobre el género, la raza o la edad.
  4. Las anotaciones no deben usar lenguaje tóxico ni profano.
  5. Las anotaciones no deben contener información que no se pueda inferir de la transcripción de la conversación correspondiente.
  6. Cada anotación puede contener hasta 3 secciones. Puedes elegir los nombres de las secciones.
  7. Las anotaciones deben tener la ortografía y la gramática correctas.

A continuación, se muestra un ejemplo que ilustra el formato de una transcripción de conversación con la anotación asociada:

{
  "entries": [
    {
      "text": "How can I help?",
      "role": "AGENT"
    },
    {
      "text": "I cannot login",
      "role": "CUSTOMER"
    },
    {
      "text": "Ok, let me confirm. Are you experiencing issues accessing your account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "CUSTOMER"
    },
    {
      "text": "Got it. Do you still have access to the registered email for the account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "AGENT"
    },
    {
      "text": "I have sent an email with reset steps. You can follow the instructions in the email to reset your login password",
      "role": "AGENT"
    },
    {
      "text": "That's nice",
      "role": "CUSTOMER"
    },
    {
      "text": "Is there anything else I can help",
      "role": "AGENT"
    },
    {
      "text": "No that's all",
      "role": "CUSTOMER"
    },
    {
      "text": "Thanks for calling. You have a nice day",
      "role": "AGENT"
    }
  ],
  "conversation_info": {
    "annotations": [
      {
        "annotation": {
          "conversation_summarization_suggestion": {
            "text_sections": [
              {
                "key": "Situation",
                "value": "Customer was unable to login to account"
              },
              {
                "key": "Action",
                "value": "Agent sent an email with password reset instructions"
              },
              {
                "key": "Outcome",
                "value": "Problem was resolved"
              }
            ]
          }
        }
      }
    ]
  }
}

Datos de transcripciones de conversaciones

Los datos de conversaciones de texto deben proporcionarse en archivos con formato JSON, en los que cada archivo contiene datos de una sola conversación. A continuación, se describe el formato JSON requerido.

Conversación

Es el objeto de nivel superior para los datos de conversación.

Campo Tipo Descripción
conversation_info ConversationInfo { } Opcional. Son los metadatos de la conversación.
entradas Entrada [ ] Obligatorio. Son los mensajes de la conversación ordenados cronológicamente.

ConversationInfo

Son los metadatos de una conversación.

Campo Tipo Descripción
categorías Categoría [ ] Opcional. Son categorías personalizadas para los datos de la conversación.

Categoría

Es la categoría de datos de conversación. Si proporcionas categorías con tus datos de conversación, se usarán para identificar temas en tus conversaciones. Si no proporcionas categorías, el sistema clasificará automáticamente las conversaciones según el contenido.

Campo Tipo Descripción
display_name cadena Obligatorio. Es el nombre visible de la categoría.

Entrada

Son los datos de un solo mensaje de conversación.

Campo Tipo Descripción
texto cadena Obligatorio. Es el texto de este mensaje de conversación. Todo el texto debe tener las mayúsculas adecuadas. La calidad del modelo puede verse afectada de manera significativa si todas las letras del texto están en mayúsculas o minúsculas. Se mostrará un error si se deja vacío este campo.
user_id integer Opcional. Es un número que identifica al participante de la conversación. Cada participante debe tener un solo user_id, que se usará repetidamente si participa en varias conversaciones.
rol cadena Obligatorio. Es el rol del participante en la conversación. Puede ser uno de los siguientes: "AGENT" o "CUSTOMER".
start_timestamp_usec integer Es opcional si la conversación solo se usa para la asistencia de preguntas frecuentes, la sugerencia y el resumen de artículos; de lo contrario, es obligatorio. Es la marca de tiempo del inicio de este turno de conversación en microsegundos.

Ejemplo

A continuación, se muestra un ejemplo de un archivo de datos de conversación.

{
  "conversation_info":{
    "categories":[
      {
        "display_name":"Category 1"
      }
    ]
  },
  "entries": [
    {
      "start_timestamp_usec": 1000000,
      "text": "Hello, I'm calling in regards to ...",
      "role": "CUSTOMER",
      "user_id": 1
    },
    {
      "start_timestamp_usec": 5000000,
      "text": "Yes, I can answer your question ...",
      "role": "AGENT",
      "user_id": 2
    },
    ...
  ]
}

Sube conversaciones a Cloud Storage

Debes proporcionar tus datos de conversación en un bucket de Cloud Storage incluido en tu proyecto de Google Cloud Platform. Cuando crees el bucket, haz lo siguiente:

  • Asegúrate de seleccionar el proyecto de Google Cloud Platform que usas para Dialogflow.
  • Usa la clase Standard Storage.
  • Como ubicación de bucket, selecciona la opción más cercana a la ubicación en la que te encuentres. Necesitarás el ID de ubicación (por ejemplo, us-west1) cuando proporciones los datos de la conversación, así que toma nota de tu elección.
  • También necesitarás el nombre del bucket cuando proporciones los datos de conversación.

Sigue las instrucciones de la guía de inicio rápido de Cloud Storage para crear un bucket y subir archivos.