대화 데이터 업로드

대화 데이터는 스크립트 (스마트 답장) 및 스크립트와 주석 데이터 (요약)로 허용됩니다. 원하는 경우 자체 데이터를 제공하지 않고 Agent Assist에서 제공하는 대화 데이터 및 데모 모델을 사용하여 기능 또는 통합을 테스트할 수 있습니다. 런타임 중에 스마트 답장 및 요약을 사용하려면 자체 대화 데이터를 제공해야 합니다.

이 페이지에서는 공개 데이터 세트를 사용하고 Cloud Storage에 업로드할 자체 데이터를 포맷하는 데 필요한 단계를 안내합니다. 대화 데이터는 JSON 형식의 텍스트 파일로 제공해야 합니다.

스마트 답장 데이터 형식

스마트 답장은 Agent Assist 기능과 함께 사용하거나 단독 기능으로 사용할 수 있습니다. 스마트 답장을 구현하려면 Agent Assist에 대화 데이터를 제공해야 합니다.

Agent Assist에서는 모델을 학습하는 데 사용할 수 있는 샘플 대화 데이터와 데모 모델, 허용 목록을 제공합니다. 이 리소스를 사용하면 자체 데이터를 제공할 필요 없이 대화 프로필을 만들어 기능을 테스트할 수 있습니다. 자체 데이터를 제공하는 경우 지정된 형식이어야 합니다.

스마트 답장 샘플 대화 데이터 사용

샘플 대화 데이터 세트는 외부 소스에서 파생되며 Google Cloud Storage 버킷에 저장됩니다. 이 데이터에는 '예약', '레스토랑', '호텔', '관광', '택시', '기차'와 같은 6개 도메인을 다루는 작업 중심의 대화가 포함되어 있습니다. 이 데이터 세트를 사용하여 자체 모델을 학습하려면 Agent Assist 콘솔을 사용하여 대화 데이터 세트를 만드는 단계를 따르세요. 대화 데이터 필드에 gs://smart_messaging_integration_test_data/*.json를 입력하여 테스트 데이터 세트를 사용합니다. 콘솔을 사용하는 대신 직접 API를 호출하는 경우 위의 Cloud Storage 버킷을 API로 가리켜 대화 데이터 세트를 만들 수 있습니다.

데모 스마트 답장 모델 및 허용 목록 사용

콘솔을 사용하여 데모 스마트 답장 모델을 테스트하고 허용 목록을 추가하려면(데이터 세트 필요 없음) Agent Assist Console로 이동하여 스마트 답장 기능 아래의 시작하기 버튼을 클릭합니다. Console 튜토리얼에서는 자체 데이터, 제공된 데이터 또는 데모 모델을 사용할 수 있는 옵션을 제공합니다.

Console을 사용하는 대신 API를 직접 호출하는 경우 모델과 허용 목록은 다음 위치에서 확인할 수 있습니다.

  • 모델: projects/ccai-shared-external/conversationModels/c671dd72c5e4656f
  • 허용 목록: projects/ccai-shared-external/knowledgeBases/smart_messaging_kb/documents/NzU1MDYzOTkxNzU0MjQwODE5Mg

기능을 테스트하려면 먼저 다음 최종 사용자 메시지를 사용하여 응답을 트리거하는 것이 좋습니다.

  • '동쪽에 위치한 고급 숙소를 찾아주세요'
  • '태국 음식을 판매하는 고급 레스토랑을 찾습니다.'
  • '안녕하세요. 케임브리지 북부에서 무료 Wi-Fi를 제공하는 호텔이 필요합니다.'

요약 데이터 형식

요약은 Agent Assist 기능과 함께 사용하거나 단독 기능으로 사용할 수 있습니다. 요약을 구현하려면 Agent Assist에 주석이 포함된 대화 데이터를 제공해야 합니다. 주석은 연결된 대화 스크립트의 요약입니다. 주석은 최종 사용자와의 각 대화가 끝날 때 에이전트의 요약을 생성하는 데 사용할 수 있는 모델을 학습하는 데 사용됩니다.

샘플 요약 대화 데이터 및 데모 모델 사용

또한 Agent Assist는 모델을 학습하는 데 사용할 수 있는 주석이 달린 샘플 대화 데이터를 제공합니다. 자체 데이터 세트의 형식을 지정하기 전에 요약 기능을 테스트하려면 이 옵션을 선택하는 것이 좋습니다. 테스트 데이터 세트는 다음 Cloud Storage 버킷에 있습니다. gs://summarization_integration_test_data/data 샘플 데이터를 사용하는 경우 Console 또는 API를 사용하여 요약 모델을 학습할 수 있습니다. 샘플 데이터 세트를 사용하려면 데이터 세트 URI 필드에 gs://summarization_integration_test_data/data/*를 입력합니다.

데모 요약 모델을 테스트하려면 (데이터 세트 필요 없음) Agent Assist 콘솔로 이동하여 요약 기능 아래의 시작하기 버튼을 클릭합니다. Console 튜토리얼에서는 자체 데이터, 제공된 데이터 또는 데모 모델을 사용할 수 있는 옵션을 제공합니다.

주석 서식 지정

Agent Assist 요약 커스텀 모델은 대화 데이터 세트를 사용하여 학습됩니다. 대화 데이터 세트에는 자체 업로드한 스크립트 및 주석 데이터가 포함됩니다.

데이터 업로드를 시작하려면 먼저 각 대화 스크립트가 JSON 형식이고 연결된 주석이 있으며 Google Cloud Storage 버킷에 저장되어 있는지 확인해야 합니다.

주석을 만들려면 데이터 세트의 각 대화와 연결된 annotation 필드에 예상되는 keyvalue 문자열을 추가합니다. 최상의 결과를 얻으려면 주석 학습 데이터가 다음 가이드라인을 준수해야 합니다.

  1. 권장되는 최소 학습 주석 수는 1,000개입니다. 적용되는 최소 개수는 100개입니다.
  2. 학습 데이터에는 개인 식별 정보가 포함되어서는 안 됩니다.
  3. 주석에는 성별, 인종, 연령에 관한 정보가 포함되어서는 안 됩니다.
  4. 주석에는 유해하거나 외설적인 언어를 사용해서는 안 됩니다.
  5. 주석에는 해당 대화 스크립트에서 추론할 수 없는 정보가 포함되어서는 안 됩니다.
  6. 각 주석에는 최대 3개의 섹션이 포함될 수 있습니다. 섹션 이름은 원하는 대로 선택할 수 있습니다.
  7. 주석의 맞춤법과 문법은 올바르게 작성되어야 합니다.

다음은 연결된 주석이 있는 대화 스크립트의 형식을 보여주는 예입니다.

{
  "entries": [
    {
      "text": "How can I help?",
      "role": "AGENT"
    },
    {
      "text": "I cannot login",
      "role": "CUSTOMER"
    },
    {
      "text": "Ok, let me confirm. Are you experiencing issues accessing your account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "CUSTOMER"
    },
    {
      "text": "Got it. Do you still have access to the registered email for the account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "AGENT"
    },
    {
      "text": "I have sent an email with reset steps. You can follow the instructions in the email to reset your login password",
      "role": "AGENT"
    },
    {
      "text": "That's nice",
      "role": "CUSTOMER"
    },
    {
      "text": "Is there anything else I can help",
      "role": "AGENT"
    },
    {
      "text": "No that's all",
      "role": "CUSTOMER"
    },
    {
      "text": "Thanks for calling. You have a nice day",
      "role": "AGENT"
    }
  ],
  "conversation_info": {
    "annotations": [
      {
        "annotation": {
          "conversation_summarization_suggestion": {
            "text_sections": [
              {
                "key": "Situation",
                "value": "Customer was unable to login to account"
              },
              {
                "key": "Action",
                "value": "Agent sent an email with password reset instructions"
              },
              {
                "key": "Outcome",
                "value": "Problem was resolved"
              }
            ]
          }
        }
      }
    ]
  }
}

대화 스크립트 데이터

텍스트 대화 데이터는 각 파일마다 단일 대화의 데이터가 포함된 JSON 형식의 파일로 제공되어야 합니다. 다음은 필수 JSON 형식을 설명합니다.

대화

대화 데이터의 최상위 객체입니다.

필드 유형 설명
conversation_info ConversationInfo { } 선택사항. 대화의 메타데이터입니다.
entries Entry [ ] 필수 항목입니다. 시간순으로 정렬된 대화 메시지입니다.

대화 정보

대화의 메타데이터입니다.

필드 유형 설명
categories Category [ ] 선택사항. 대화 데이터의 커스텀 카테고리입니다.

카테고리

대화 데이터 카테고리입니다. 대화 데이터와 함께 카테고리를 제공하면 대화의 주제를 식별하는 데 카테고리가 사용됩니다. 카테고리를 제공하지 않으면 시스템에서 콘텐츠에 따라 대화를 자동으로 분류합니다.

필드 유형 설명
display_name 문자열 필수 항목입니다. 카테고리의 표시 이름입니다.

항목

단일 대화 메시지의 데이터입니다.

필드 유형 설명
텍스트 문자열 필수 항목입니다. 이 대화 메시지의 텍스트입니다. 모든 텍스트를 대문자로 적절하게 표기해야 합니다. 텍스트의 모든 문자가 대문자이거나 소문자일 경우 모델 품질이 크게 영향을 받을 수 있습니다. 이 필드를 비워두면 오류가 반환됩니다.
user_id 정수 선택사항. 대화 참여자를 식별하는 번호입니다. 여러 대화에 참여하는 경우 참가자마다 반복적으로 사용하는 단일 user_id가 있어야 합니다.
role 문자열 필수 항목입니다. 대화 참여자 역할입니다. 'AGENT', 'CUSTOMER' 중 하나입니다.
start_timestamp_usec 정수 대화가 FAQ 지원, 자료 추천, 요약에만 사용되는 경우 선택사항이고, 그렇지 않으면 필수입니다. 이 대화의 시작 타임스탬프가 마이크로초 단위로 표시됩니다.

예시

다음은 대화 데이터 파일의 예시입니다.

{
  "conversation_info":{
    "categories":[
      {
        "display_name":"Category 1"
      }
    ]
  },
  "entries": [
    {
      "start_timestamp_usec": 1000000,
      "text": "Hello, I'm calling in regards to ...",
      "role": "CUSTOMER",
      "user_id": 1
    },
    {
      "start_timestamp_usec": 5000000,
      "text": "Yes, I can answer your question ...",
      "role": "AGENT",
      "user_id": 2
    },
    ...
  ]
}

Cloud Storage에 대화 업로드

Google Cloud Platform 프로젝트에 포함된 Cloud Storage 버킷에 대화 데이터를 제공해야 합니다. 버킷을 만들려면 다음 안내를 따르세요.

  • Dialogflow에 사용할 Google Cloud Platform 프로젝트를 선택했는지 확인합니다.
  • 표준 스토리지 클래스를 사용합니다.
  • 버킷 위치를 자신과 가장 가까운 위치로 설정합니다. 대화 데이터를 제공할 때 위치 ID(예: us-west1)가 필요하므로 선택한 위치 ID를 기록합니다.
  • 대화 데이터를 제공할 때 버킷 이름도 필요합니다.

Cloud Storage 빠른 시작의 안내를 따라 버킷을 만들고 파일을 업로드합니다.