準備情緒分析的文字訓練資料

本頁面說明如何準備文字資料,以便在 Vertex AI 資料集中使用,訓練情緒分析模型。

情緒分析訓練資料包含與情緒值相關聯的文件,可用來判斷內容的情緒。舉例來說,您可能會發布關於特定領域 (例如航空旅行) 的推文。每則推文都會與情緒值相關聯,指出推文是正面、負面或中性。

資料條件

  • 您必須提供至少 10 份,但最多 100,000 份的訓練文件。
  • 情緒值必須是介於 0 到 10 的整數。您可以選擇情緒值上限。舉例來說,如果您想判斷情緒是負面、正面還是中性,可以為訓練資料加上情緒分數 0 (負面)、1 (中性) 和 2 (正面)。這個資料集的情緒分數上限為 2。如要擷取更細微的層次,例如五個情緒等級,您可以將文件標記為 0 (最負面) 到 4 (最正面)。
  • 您必須將每個情緒值套用至至少 10 份文件。
  • 情緒分數值必須是從零開始的連續整數。如果分數有空白或不是從零開始,請重新對應分數,讓分數從零開始的連續整數。
  • 您可以內嵌文件或參考 Cloud Storage 值區中的 TXT 檔案。

訓練 AutoML 模型的文字資料最佳做法

以下建議適用於用於訓練 AutoML 模型的資料集。

  • 每個情緒值至少提供 100 份文件。
  • 每個情緒分數都應使用平衡的文件數量。針對特定情緒分數提供更多範例,可能會導致模型產生偏差。

輸入檔案

情緒分析的輸入檔案類型可以是 JSON Lines 或 CSV。

JSON 行

JSON Lines 檔案的格式、欄位名稱和值類型,是由結構定義檔案決定,這些檔案是可公開存取的 YAML 檔案。

您可以從下列 Cloud Storage 位置下載情緒分析的結構定義檔案:
gs://google-cloud-aiplatform/schema/dataset/ioformat/text_sentiment_io_format_1.0.0.yaml

JSON 行範例

以下範例說明如何使用結構定義建立自己的 JSON 資料行檔案。為了方便閱讀,範例中加入了換行符號。在 JSON Lines 檔案中,請只在每個文件後面加入換行符號。dataItemResourceLabels 欄位指定 ml_use 等項目,為選填欄位。

{
  "sentimentAnnotation": {
    "sentiment": number,
    "sentimentMax": number
  },
  "textContent": "inline_text",
  "dataItemResourceLabels": {
    "aiplatform.googleapis.com/ml_use": "training|test|validation"
  }
}
{
  "sentimentAnnotation": {
    "sentiment": number,
    "sentimentMax": number
  },
  "textGcsUri": "gcs_uri_to_file",
  "dataItemResourceLabels": {
    "aiplatform.googleapis.com/ml_use": "training|test|validation"
  }
}

CSV

CSV 檔案中的每一行都代表一個文件。以下範例顯示有效 CSV 檔案的一般格式。ml_use 欄為選用欄。

  [ml_use],gcs_file_uri|"inline_text",sentiment,sentimentMax
  

以下程式碼片段是輸入 CSV 檔案的範例。

  test,gs://path_to_file,sentiment_value,sentiment_max_value
  test,"inline_text",sentiment_value,sentiment_max_value
  training,gs://path_to_file,sentiment_value,sentiment_max_value
  validation,gs://path_to_file,sentiment_value,sentiment_max_value