データセットを作成して管理する
データセットには、翻訳するコンテンツ タイプの代表サンプルが、ソース言語とターゲット言語の対応するセグメントのペアとして含まれています。このデータセットを入力値として利用し、モデルをトレーニングします。
1 つのプロジェクトに複数のデータセットを含めることができます。また、それぞれを個別のモデルのトレーニングに使用できます。
データセットを作成する
モデルのトレーニング データを格納するデータセットを作成します。データセットを作成するときに、トレーニング データのソース言語とターゲット言語を指定します。サポートされている言語とバリエーションの詳細については、カスタムモデルに対する言語サポートをご覧ください。
ウェブ UI
AutoML Translation コンソールを使用すると、新しいデータセットを作成してアイテムをデータセットにインポートできます。- AutoML Translation のコンソールに移動します。 
- ナビゲーション パネルで、[データセット] をクリックします。 
- [データセット] ページで、[データセットを作成] をクリックします。 
- [データセットを作成] ダイアログで、データセットの詳細を指定します。 - データセットの名前を入力します。
- ソース言語とターゲット言語をプルダウン リストから選択します。
- [作成] をクリックします。
 
REST
以下の例では、POST リクエストを project.locations.datasets/create メソッドに送信しています。
  
  
  
  
  
  
    
    
  
  
  
    
  
リクエストのデータを使用する前に、次のように置き換えます。
- PROJECT_ID: 実際の Google Cloud プロジェクト ID。
- LOCATION: データセットが配置されるリージョン(us-central1など)
- DATASET_NAME: データセットの名前。
- SOURCE_LANG_CODE: データセットのソース言語を指定する言語コード。
- TARGET_LANG_CODE: データセットのターゲット言語を指定する言語コード。
HTTP メソッドと URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets
リクエストの本文(JSON):
{
  "display_name": "DATASET_NAME",
  "source_language_code": "SOURCE_LANG_CODE",
  "target_language_code": "TARGET_LANG_CODE"
}
リクエストを送信するには、次のいずれかのオプションを展開します。
次のような JSON レスポンスが返されます。
{
  "name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID"
}
その他の言語
C#: クライアント ライブラリ ページの C# の設定手順を行ってから、.NET 用の Cloud Translation リファレンス ドキュメントをご覧ください。
PHP: クライアント ライブラリ ページの PHP の設定手順を行ってから、PHP 用の Cloud Translation リファレンス ドキュメントをご覧ください。
Ruby: クライアント ライブラリ ページの Ruby の設定手順を行ってから、Ruby 用の Cloud Translation リファレンス ドキュメントをご覧ください。
セグメントをデータセットにインポートする
データセットを作成したら、セグメントペアをデータセットにインポートできます。ソースデータの準備の詳細については、トレーニング データの準備をご覧ください。
 Google Cloud コンソールでは、ファイルごとに、インポートしたセグメントペアに 1 つ以上の Key-Value ペアでタグ付けできます。タグ設定により、セグメントをソース別に見つけてフィルタすることが容易になります。たとえば、Key-Value ペアは Domain:costmetics または Year:2020 です。
タグは、 Google Cloud コンソールからセグメントをインポートするときに追加できます。API ではタグ付けはサポートされていません。また、すでにインポートしたセグメントに対してタグを変更する、または追加することもできません。
ウェブ UI
次の手順で、アイテムを既存のデータセットにインポートします。
- AutoML Translation のコンソールに移動します。 
- ナビゲーション パネルで、[データセット] をクリックします。 
- データセット リストで、トレーニング データを追加するデータセットの名前をクリックします。 
- [インポート] タブに移動します。 
- モデル トレーニング用にセグメントペアをインポートするファイルを追加します。 - ローカル コンピュータから Cloud Storage バケットにファイルをアップロードするか、Cloud Storage から既存のファイルを選択します。 - デフォルトでは、Cloud Translation はデータをトレーニング セット、検証セット、テストセットに自動的に分割します。分割ごとに別々のファイルをアップロードする場合は、[トレーニング、検証、テストに別のファイルを使用します(上級者向け)] を選択します。検証セットとテストセットでセグメントペア数の上限 10,000 を超えないように、データセットにセグメントペアが 100,000 個を超える場合は、このオプションを使用します。 
- セグメントペアにタグを追加するには、[タグ(省略可)] を開きます。 - ファイルのリストで [編集] をクリックすると、指定したファイルのすべてのセグメントペアに 1 つ以上のタグを追加できます。 
- [タグ] ペインで、[タグを追加] をクリックします。 
- キーと値を入力します。この Key-Value ペアでセグメントをフィルタリングできます 
- さらにタグを追加するには、[タグを追加] をクリックします。 
- タグの追加が完了したら、[続行] をクリックします。 
 
- [続行] をクリックして、セグメントペアをインポートします。 - インポートが完了すると、インポートしたセグメントペアをデータセットの [文] タブで確認できます。セグメントは、分割(トレーニング、検証、テスト)と 1 つ以上のタグでフィルタします。 
REST
projects.locations.datasets.importData メソッドを使用して、アイテムをデータセットにインポートします。
  
  
  
  
  
  
    
    
  
  
  
    
  
リクエストのデータを使用する前に、次のように置き換えます。
- PROJECT_ID: 実際の Google Cloud プロジェクト ID。
- LOCATION: データセットが配置されるリージョン(us-central1など)
- DATASET_ID: データを追加するデータセットの ID。
- FILE_DISPLAY_NAME: インポートするデータを含むファイルの名前。
- USAGE: これらのセグメントペア(TRAIN、VALIDATION、TEST)のデータ分割を指定します。
- FILE_PATH: Cloud Storage のソースデータ ファイルのパス。
HTTP メソッドと URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData
リクエストの本文(JSON):
{
  "input_config": {
    "input_files": [
      {
        "display_name": "FILE_DISPLAY_NAME",
        "usage": "USAGE",
        "gcs_source": {
          "input_uris": "gs://FILE_PATH"
        }
      },
      ...
    ]
  }
}
リクエストを送信するには、次のいずれかのオプションを展開します。
次のような JSON レスポンスが返されます。
{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}
その他の言語
C#: クライアント ライブラリ ページの C# の設定手順を行ってから、.NET 用の Cloud Translation リファレンス ドキュメントをご覧ください。
PHP: クライアント ライブラリ ページの PHP の設定手順を行ってから、PHP 用の Cloud Translation リファレンス ドキュメントをご覧ください。
Ruby: クライアント ライブラリ ページの Ruby の設定手順を行ってから、Ruby 用の Cloud Translation リファレンス ドキュメントをご覧ください。
データセットを作成して入力すると、モデルをトレーニングできます。詳細については、モデルの作成と管理をご覧ください。
インポートに関する問題
データセットの作成時に、セグメントペアが長すぎたり、ソース言語とターゲット言語のセグメントが同一であったり(未翻訳)重複している(同じソース言語のテキストを含むセグメントが複数存在している)場合、AutoML Translation でセグメントペアが削除される可能性があります。
セグメントペアが長すぎる場合は、セグメントを約 200 単語に分割してからデータセットを再作成することをおすすめします。最大長は 200 語です。データの処理中に、AutoML Translation は内部プロセスを使用して入力データをトークン化します。これにより、セグメントのサイズが大きくなる可能性があります。このトークン化されたデータは、AutoML Translation でデータサイズの測定に使用するものです。
同一のセグメントペアの場合は、データセットから削除します。一部のセグメントが翻訳されないようにするには、用語集リソースを使用してカスタム辞書を作成します。
データをエクスポートする
既存のデータセットから Cloud Storage バケットにセグメントペアをエクスポートできます。
ウェブ UI
- AutoML Translation のコンソールに移動します。 
- ナビゲーション パネルで [データセット] をクリックして、データセットのリストを表示します。 
- データをエクスポートするデータセットの名前をクリックします。 
- データセットの詳細ページで、[データをエクスポート] をクリックします。 
- エクスポートされた TSV ファイルが保存される Cloud Storage の宛先を選択します。 
- [エクスポート] をクリックします。 - AutoML Translation は、データセットのセット(トレーニング、検証、テスト)に応じた名前の TSV ファイルを出力します。 
REST
projects.locations.datasets.exportData メソッドを使用して、データを TSV ファイルとして Cloud Storage にエクスポートします。
  
  
  
  
  
  
    
    
  
  
  
    
  
リクエストのデータを使用する前に、次のように置き換えます。
- PROJECT_ID: 実際の Google Cloud プロジェクト ID。
- LOCATION: エクスポートするデータセットが配置されているリージョン(us-central1など)。
- DATASET_ID: エクスポートするデータセットの ID。
- DESTINATION_DIRECTORY: 出力が送信される Cloud Storage パス。
HTTP メソッドと URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData
リクエストの本文(JSON):
{
  "output_config": {
    "gcs_destination": {
      "output_uri_prefix": "gs://DESTINATION_DIRECTORY"
    }
  }
}
リクエストを送信するには、次のいずれかのオプションを展開します。
次のような JSON レスポンスが返されます。
{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}
その他の言語
C#: クライアント ライブラリ ページの C# の設定手順を行ってから、.NET 用の Cloud Translation リファレンス ドキュメントをご覧ください。
PHP: クライアント ライブラリ ページの PHP の設定手順を行ってから、PHP 用の Cloud Translation リファレンス ドキュメントをご覧ください。
Ruby: クライアント ライブラリ ページの Ruby の設定手順を行ってから、Ruby 用の Cloud Translation リファレンス ドキュメントをご覧ください。
データセットのリスト表示
プロジェクトで使用可能なデータセットを一覧表示します。
ウェブ UI
AutoML Translation コンソールを使用して使用可能なデータセットを一覧表示するには、ナビゲーション パネルで [データセット] をクリックします。
別のプロジェクトのデータセットを表示するには、タイトルバーの右上にあるプルダウン リストからプロジェクトを選択します。
REST
リクエストのデータを使用する前に、次のように置き換えます。
- PROJECT_ID: 実際の Google Cloud プロジェクト ID。
- LOCATION: 一覧表示するデータセットが配置されているリージョン(us-central1など)。
HTTP メソッドと URL:
GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets
リクエストを送信するには、次のいずれかのオプションを展開します。
次のような JSON レスポンスが返されます。
{
  "datasets": [
    {
      "name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID",
      "displayName": "DATASET_NAME",
      "sourceLanguageCode": "SOURCE_LANG_CODE",
      "targetLanguageCode": "TARGET_LANG_CODE",
      "exampleCount": 8720,
      "createTime": "2022-10-19T23:24:34.734549Z",
      "updateTime": "2022-10-19T23:24:35.357525Z"
    },
    ...
  ]
}
その他の言語
C#: クライアント ライブラリ ページの C# の設定手順を行ってから、.NET 用の Cloud Translation リファレンス ドキュメントをご覧ください。
PHP: クライアント ライブラリ ページの PHP の設定手順を行ってから、PHP 用の Cloud Translation リファレンス ドキュメントをご覧ください。
Ruby: クライアント ライブラリ ページの Ruby の設定手順を行ってから、Ruby 用の Cloud Translation リファレンス ドキュメントをご覧ください。
データセットの削除
ウェブ UI
- AutoML Translation コンソールのナビゲーション パネルで、[データセット] をクリックして、使用可能なデータセットを一覧表示します。 
- 削除するデータセットで、[その他] > [削除] を選択します。 
- 確認ダイアログ ボックスで [確認] をクリックします。 
REST
リクエストのデータを使用する前に、次のように置き換えます。
- PROJECT_ID: 実際の Google Cloud プロジェクト ID。
- LOCATION: 一覧表示するデータセットが配置されているリージョン(us-central1など)。
- DATASET_ID: 削除するデータセットの ID。
HTTP メソッドと URL:
DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID
リクエストを送信するには、次のいずれかのオプションを展開します。
次のような JSON レスポンスが返されます。
{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata"
  },
  "done": true
}
その他の言語
C#: クライアント ライブラリ ページの C# の設定手順を行ってから、.NET 用の Cloud Translation リファレンス ドキュメントをご覧ください。
PHP: クライアント ライブラリ ページの PHP の設定手順を行ってから、PHP 用の Cloud Translation リファレンス ドキュメントをご覧ください。
Ruby: クライアント ライブラリ ページの Ruby の設定手順を行ってから、Ruby 用の Cloud Translation リファレンス ドキュメントをご覧ください。