建立及管理資料集
資料集包含您要翻譯的內容類型代表性樣本,以原文和譯文語言的相符區隔配對形式呈現。資料集可做為輸入用於訓練模型。
一個專案可以包含多個資料集,每個資料集可用來訓練單獨的模型。
建立資料集
建立資料集,內含模型的訓練資料。建立資料集時,請指定訓練資料的原文和譯文語言。如要進一步瞭解支援的語言和變體,請參閱自訂模型的語言支援。
網路使用者介面
您可以在 AutoML Translation 控制台中建立新資料集,並將項目匯入該資料集。前往 AutoML Translation 主控台。
在導覽窗格中,按一下「資料集」。
在「資料集」頁面,點選「建立資料集」。
在「建立資料集」對話方塊中,指定資料集的詳細資料:
- 輸入資料集名稱。
- 從下拉式清單中選取來源語言和目標語言。
- 按一下「建立」。
REST
以下範例說明如何將POST
要求傳送至 project.locations.datasets/create
方法。
使用任何要求資料之前,請先替換以下項目:
- PROJECT_ID:您的 Google Cloud 專案 ID。
- LOCATION:資料集所在區域,例如
us-central1
。 - DATASET_NAME:資料集的名稱。
- SOURCE_LANG_CODE:指定資料集來源語言的語言代碼。
- TARGET_LANG_CODE:指定資料集目標語言的語言代碼。
HTTP 方法和網址:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets
JSON 要求主體:
{ "display_name": "DATASET_NAME", "source_language_code": "SOURCE_LANG_CODE", "target_language_code": "TARGET_LANG_CODE" }
如要傳送要求,請展開以下其中一個選項:
您應該會收到如下的 JSON 回應:
{ "name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID" }
其他語言
C#: 請按照用戶端程式庫頁面的 C# 設定說明操作, 然後前往 .NET 適用的 Cloud Translation 參考說明文件。
PHP: 請按照用戶端程式庫頁面的 PHP 設定說明 操作,然後前往 PHP 適用的 Cloud Translation 參考說明文件。
Ruby: 請按照用戶端程式庫頁面的 Ruby 設定說明 操作,然後前往 Ruby 適用的 Cloud Translation 參考文件。
將區隔匯入資料集
建立資料集後,您可以將區隔配對匯入資料集。如要進一步瞭解如何準備來源資料,請參閱「準備訓練資料」。
針對每個檔案,您可以在控制台中為匯入的區隔配對加上一或多個鍵/值組合。 Google Cloud 加上標籤後,即可輕鬆依來源尋找及篩選區隔。舉例來說,鍵/值組合可以是 Domain:costmetics
或 Year:2020
。
透過 Google Cloud 控制台匯入區隔時,您可以新增標記;API 不支援標記功能。此外,您也無法修改標記,或為已匯入的區隔新增標記。
網路使用者介面
以下步驟會將其他項目匯入到現有資料集中。
前往 AutoML Translation 主控台。
在導覽窗格中,按一下「資料集」。
在資料集清單中,按一下要新增訓練資料的資料集名稱。
前往「匯入」分頁。
新增檔案,匯入用於模型訓練的區隔配對。
將本機電腦中的檔案上傳至 Cloud Storage 值區,或選取 Cloud Storage 中的現有檔案。
根據預設,Cloud Translation 會自動將資料分割為訓練集、驗證集和測試集。如要為每個分割上傳個別檔案,請選取「使用不同的檔案進行訓練、驗證與測試 (進階)」。如果資料集有超過 100,000 個片段配對,請使用這個選項,以免驗證集和測試集的片段配對超過上限 10,000 個。
如要為區隔配對新增標記,請展開「標記 (選用)」。
在檔案清單中,按一下「編輯」
,為特定檔案的所有區隔配對新增一或多個標記。在「標記」窗格中,按一下「新增標記」。
輸入鍵和值。您將能依據這個鍵/值組合篩選區隔。
如要新增更多標記,請按一下「新增標記」。
新增完代碼後,按一下「繼續」。
按一下「繼續」匯入區隔配對。
匯入完成後,您可以在資料集的「句子」分頁中查看匯入的句子配對。您可以依分割 (訓練、驗證或測試) 和一或多個標籤篩選區隔。
REST
使用projects.locations.datasets.importData
方法將項目匯入資料集。
使用任何要求資料之前,請先替換以下項目:
- PROJECT_ID:您的 Google Cloud 專案 ID。
- LOCATION:資料集所在區域,例如
us-central1
。 - DATASET_ID:要新增資料的資料集 ID。
- FILE_DISPLAY_NAME:包含要匯入資料的檔案名稱。
- USAGE:指定這些區隔配對的資料分割 (
TRAIN
、VALIDATION
或TEST
)。 - FILE_PATH:Cloud Storage 中來源資料檔案的路徑。
HTTP 方法和網址:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData
JSON 要求主體:
{ "input_config": { "input_files": [ { "display_name": "FILE_DISPLAY_NAME", "usage": "USAGE", "gcs_source": { "input_uris": "gs://FILE_PATH" } }, ... ] } }
如要傳送要求,請展開以下其中一個選項:
您應該會收到如下的 JSON 回應:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID" }
其他語言
C#: 請按照用戶端程式庫頁面的 C# 設定說明操作, 然後前往 .NET 適用的 Cloud Translation 參考說明文件。
PHP: 請按照用戶端程式庫頁面的 PHP 設定說明 操作,然後前往 PHP 適用的 Cloud Translation 參考說明文件。
Ruby: 請按照用戶端程式庫頁面的 Ruby 設定說明 操作,然後前往 Ruby 適用的 Cloud Translation 參考文件。
建立並填入資料集後,即可訓練模型。詳情請參閱「建立及管理模型」一文。
匯入問題
建立資料集時,如果片段配對過長、來源和目標語言的片段相同 (未翻譯),或有重複的片段 (多個片段的來源語言文字相同),AutoML Translation 可能會捨棄這些片段配對。
如果區隔配對過長,建議您將區隔分成大約 200 字或更短的段落,然後重新建立資料集。200 字的限制是長度上限的預估值。處理資料時,AutoML Translation 會使用內部程序將輸入資料權杖化,這可能會增加區隔的大小。AutoML Translation 會使用這個權杖化資料來測量資料大小。
如果區隔配對完全相同,請從資料集中移除。如要避免翻譯某些區隔,請改用字彙表資源建立自訂字典。
匯出資料
您可以將現有資料集的區隔配對匯出至 Cloud Storage bucket。
網路使用者介面
前往 AutoML Translation 主控台。
在導覽窗格中,按一下「資料集」即可查看資料集清單。
按一下要匯出資料的資料集名稱。
在資料集詳細資料頁面中,按一下「匯出資料」。
選取要儲存匯出 TSV 檔案的 Cloud Storage 目標位置。
按一下 [匯出]。
AutoML Translation 會輸出 TSV 檔案,並根據資料集 (訓練、驗證和測試) 命名。
REST
使用projects.locations.datasets.exportData
方法,將資料匯出至 Cloud Storage 做為 TSV 檔案。
使用任何要求資料之前,請先替換以下項目:
- PROJECT_ID:您的 Google Cloud 專案 ID。
- LOCATION:要匯出資料集的區域,例如
us-central1
。 - DATASET_ID:要匯出的資料集 ID。
- DESTINATION_DIRECTORY:輸出內容傳送至 Cloud Storage 的路徑。
HTTP 方法和網址:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData
JSON 要求主體:
{ "output_config": { "gcs_destination": { "output_uri_prefix": "gs://DESTINATION_DIRECTORY" } } }
如要傳送要求,請展開以下其中一個選項:
您應該會收到如下的 JSON 回應:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID" }
其他語言
C#: 請按照用戶端程式庫頁面的 C# 設定說明操作, 然後前往 .NET 適用的 Cloud Translation 參考說明文件。
PHP: 請按照用戶端程式庫頁面的 PHP 設定說明 操作,然後前往 PHP 適用的 Cloud Translation 參考說明文件。
Ruby: 請按照用戶端程式庫頁面的 Ruby 設定說明 操作,然後前往 Ruby 適用的 Cloud Translation 參考文件。
列出資料集
列出專案中的可用資料集。
網路使用者介面
如要使用 AutoML Translation 控制台查看可用資料集清單,請按一下導覽窗格中的「資料集」。
如要查看不同專案的資料集,請從標題列右上方的下拉式清單中選取專案。
REST
使用任何要求資料之前,請先替換以下項目:
- PROJECT_ID:您的 Google Cloud 專案 ID。
- LOCATION:要列出資料集的所在區域,例如
us-central1
。
HTTP 方法和網址:
GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets
如要傳送要求,請展開以下其中一個選項:
您應該會收到如下的 JSON 回應:
{ "datasets": [ { "name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID", "displayName": "DATASET_NAME", "sourceLanguageCode": "SOURCE_LANG_CODE", "targetLanguageCode": "TARGET_LANG_CODE", "exampleCount": 8720, "createTime": "2022-10-19T23:24:34.734549Z", "updateTime": "2022-10-19T23:24:35.357525Z" }, ... ] }
其他語言
C#: 請按照用戶端程式庫頁面的 C# 設定說明操作, 然後前往 .NET 適用的 Cloud Translation 參考說明文件。
PHP: 請按照用戶端程式庫頁面的 PHP 設定說明 操作,然後前往 PHP 適用的 Cloud Translation 參考說明文件。
Ruby: 請按照用戶端程式庫頁面的 Ruby 設定說明 操作,然後前往 Ruby 適用的 Cloud Translation 參考文件。
刪除資料集
網路使用者介面
在 AutoML Translation 控制台中,按一下導覽窗格中的「資料集」,即可顯示可用資料集清單。
找出要刪除的資料集,然後依序選取
「更多」>「刪除」。在確認對話方塊中,按一下 [Confirm] (確認)。
REST
使用任何要求資料之前,請先替換以下項目:
- PROJECT_ID:您的 Google Cloud 專案 ID。
- LOCATION:要列出資料集的所在區域,例如
us-central1
。 - DATASET_ID:要刪除的資料集 ID。
HTTP 方法和網址:
DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID
如要傳送要求,請展開以下其中一個選項:
您應該會收到如下的 JSON 回應:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata" }, "done": true }
其他語言
C#: 請按照用戶端程式庫頁面的 C# 設定說明操作, 然後前往 .NET 適用的 Cloud Translation 參考說明文件。
PHP: 請按照用戶端程式庫頁面的 PHP 設定說明 操作,然後前往 PHP 適用的 Cloud Translation 參考說明文件。
Ruby: 請按照用戶端程式庫頁面的 Ruby 設定說明 操作,然後前往 Ruby 適用的 Cloud Translation 參考文件。