本頁面說明如何準備文字資料,以便在 Vertex AI 資料集中使用,訓練情緒分析模型。
情緒分析訓練資料包含與情緒值相關聯的文件,可用來判斷內容的情緒。舉例來說,您可能會發布關於特定領域 (例如航空旅行) 的推文。每則推文都會與情緒值相關聯,指出推文是正面、負面或中性。
資料條件
- 您必須提供至少 10 份,但最多 100,000 份的訓練文件。
- 情緒值必須是介於 0 到 10 的整數。您可以選擇情緒值上限。舉例來說,如果您想判斷情緒是負面、正面還是中性,可以為訓練資料加上情緒分數 0 (負面)、1 (中性) 和 2 (正面)。這個資料集的情緒分數上限為 2。如要擷取更細微的層次,例如五個情緒等級,您可以將文件標記為 0 (最負面) 到 4 (最正面)。
- 您必須將每個情緒值套用至至少 10 份文件。
- 情緒分數值必須是從零開始的連續整數。如果分數有空白或不是從零開始,請重新對應分數,讓分數從零開始的連續整數。
- 您可以內嵌文件或參考 Cloud Storage 值區中的 TXT 檔案。
訓練 AutoML 模型的文字資料最佳做法
以下建議適用於用於訓練 AutoML 模型的資料集。
- 每個情緒值至少提供 100 份文件。
- 每個情緒分數都應使用平衡的文件數量。針對特定情緒分數提供更多範例,可能會導致模型產生偏差。
輸入檔案
情緒分析的輸入檔案類型可以是 JSON Lines 或 CSV。
JSON 行
JSON Lines 檔案的格式、欄位名稱和值類型,是由結構定義檔案決定,這些檔案是可公開存取的 YAML 檔案。
您可以從下列 Cloud Storage 位置下載情緒分析的結構定義檔案:
gs://google-cloud-aiplatform/schema/dataset/ioformat/text_sentiment_io_format_1.0.0.yaml
JSON 行範例
以下範例說明如何使用結構定義建立自己的 JSON 資料行檔案。為了方便閱讀,範例中加入了換行符號。在 JSON Lines 檔案中,請只在每個文件後面加入換行符號。dataItemResourceLabels
欄位指定 ml_use
等項目,為選填欄位。
{ "sentimentAnnotation": { "sentiment": number, "sentimentMax": number }, "textContent": "inline_text", "dataItemResourceLabels": { "aiplatform.googleapis.com/ml_use": "training|test|validation" } } { "sentimentAnnotation": { "sentiment": number, "sentimentMax": number }, "textGcsUri": "gcs_uri_to_file", "dataItemResourceLabels": { "aiplatform.googleapis.com/ml_use": "training|test|validation" } }
CSV
CSV 檔案中的每一行都代表一個文件。以下範例顯示有效 CSV 檔案的一般格式。ml_use
欄為選用欄。
[ml_use],gcs_file_uri|"inline_text",sentiment,sentimentMax
以下程式碼片段是輸入 CSV 檔案的範例。
test,gs://path_to_file,sentiment_value,sentiment_max_value test,"inline_text",sentiment_value,sentiment_max_value training,gs://path_to_file,sentiment_value,sentiment_max_value validation,gs://path_to_file,sentiment_value,sentiment_max_value