Data Masking/Tokenization from Cloud Storage to BigQuery（using Cloud DLP）テンプレート

Data Masking/Tokenization from Cloud Storage to BigQuery テンプレートでは、Sensitive Data Protection を使用して、次の処理を行うストリーミングパイプラインを作成します。

Cloud Storage バケットから CSV ファイルを読み取る。
匿名化のために Cloud Data Loss Prevention API（Sensitive Data Protection の一部）を呼び出す。
匿名化されたデータを指定した BigQuery テーブルに書き込む。

このテンプレートでは、Sensitive Data Protection の検査テンプレートと Sensitive Data Protection の匿名化テンプレートの両方を使用できます。そのため、このテンプレートは次の両方のタスクをサポートします。

機密情報の可能性がある情報を検査し、データを匿名化する。
列の匿名化が指定されていて、検査が不要な構造化データを匿名化する。

このテンプレートでは、匿名化テンプレートの場所にリージョンパスは使用できません。グローバルパスのみがサポートされています。

パイプラインの要件

トークン化する入力データが存在している必要があります。
Sensitive Data Protection テンプレート（DeidentifyTemplate や InspectTemplate）が存在している必要があります。詳細については、Sensitive Data Protection テンプレートをご覧ください。
BigQuery データセットが存在している必要があります。

テンプレートのパラメータ

必須パラメータ

inputFilePattern: 入力データレコードを読み込む CSV ファイル。ワイルドカードも使用できます。例: gs://mybucket/my_csv_filename.csv or gs://mybucket/file-*.csv
deidentifyTemplateName: API リクエストに使用する Sensitive Data Protection の匿名化テンプレート。projects/<PROJECT_ID>/deidentifyTemplates/<TEMPLATE_ID> のパターンで指定します。例: projects/your-project-id/locations/global/deidentifyTemplates/generated_template_id
datasetName: トークン化された結果を送信する際に使用する BigQuery データセット。データセットは、実行前に存在している必要があります。
dlpProjectId: DLP API リソースを所有する Google Cloud プロジェクトの ID。このプロジェクトは、Sensitive Data Protection テンプレートを所有するプロジェクトと同じプロジェクトにすることも、別のプロジェクトにすることもできます。

オプションパラメータ

inspectTemplateName: API リクエストに使用する Sensitive Data Protection 検査テンプレート。projects/<PROJECT_ID>/identifyTemplates/<TEMPLATE_ID> のパターンで指定します。例: projects/your-project-id/locations/global/inspectTemplates/generated_template_id
batchSize: 検査とトークン化解除を行うためにデータを送信する際に使用するチャンクまたはバッチサイズ。CSV ファイルの場合、batchSize の値はバッチ内の行数です。レコードのサイズとファイルのサイズに基づいてバッチサイズを決定します。DLP API では、ペイロードのサイズが API 呼び出しごとに 524 KB に制限されます。

テンプレートを実行する

コンソール

Dataflow の [テンプレートからジョブを作成] ページに移動します。

[テンプレートからジョブを作成] に移動

[ジョブ名] フィールドに、固有のジョブ名を入力します。
（省略可）[リージョンエンドポイント] で、プルダウンメニューから値を選択します。デフォルトのリージョンは us-central1 です。
Dataflow ジョブを実行できるリージョンのリストについては、Dataflow のロケーションをご覧ください。
[Dataflow テンプレート] プルダウンメニューから、[ the Data Masking/Tokenization from Cloud Storage to BigQuery (using Cloud DLP) template] を選択します。
表示されたパラメータフィールドに、パラメータ値を入力します。
[ジョブを実行] をクリックします。

gcloud

シェルまたはターミナルで、テンプレートを実行します。

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/Stream_DLP_GCS_Text_to_BigQuery \
    --region REGION_NAME \
    --staging-location STAGING_LOCATION \
    --parameters \
inputFilePattern=INPUT_DATA,\
datasetName=DATASET_NAME,\
batchSize=BATCH_SIZE_VALUE,\
dlpProjectId=DLP_API_PROJECT_ID,\
deidentifyTemplateName=projects/TEMPLATE_PROJECT_ID/deidentifyTemplates/DEIDENTIFY_TEMPLATE,\
inspectTemplateName=projects/TEMPLATE_PROJECT_ID/identifyTemplates/INSPECT_TEMPLATE_NUMBER

次のように置き換えます。

DLP_API_PROJECT_ID: DLP API プロジェクト ID
JOB_NAME: 一意の任意のジョブ名
REGION_NAME: Dataflow ジョブをデプロイするリージョン（例: us-central1）
VERSION: 使用するテンプレートのバージョン
使用できる値は次のとおりです。
- latest: 最新バージョンのテンプレートを使用します。このテンプレートは、バケット内で日付のない親フォルダ（gs://dataflow-templates-REGION_NAME/latest/）にあります。
- バージョン名（例: 2023-09-12-00_RC00）。特定のバージョンのテンプレートを使用します。このテンプレートは、バケット内で対応する日付の親フォルダ（gs://dataflow-templates-REGION_NAME/）にあります。
注: 最新のテンプレートでは、互換性のない変更が行われている場合があります。こうした互換性のない変更が本番環境のワークフローに影響しないように、本番環境では最新の日付付き親フォルダに保存されているテンプレートを使用する必要があります。
STAGING_LOCATION: ローカルファイルをステージングする場所（例: gs://your-bucket/staging）
INPUT_DATA: 入力ファイルのパス
DEIDENTIFY_TEMPLATE: Sensitive Data Protection 匿名化テンプレート番号
DATASET_NAME: BigQuery データセット名
INSPECT_TEMPLATE_NUMBER: Sensitive Data Protection 検査テンプレート番号
BATCH_SIZE_VALUE: バッチサイズ（CSV ファイルの場合は API ごとの行数）

REST

REST API を使用してテンプレートを実行するには、HTTP POST リクエストを送信します。API とその認可スコープの詳細については、projects.templates.launch をご覧ください。

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/Stream_DLP_GCS_Text_to_BigQuery
{
   "jobName": "JOB_NAME",
   "environment": {
       "ipConfiguration": "WORKER_IP_UNSPECIFIED",
       "additionalExperiments": []
   },
   "parameters": {
      "inputFilePattern":INPUT_DATA,
      "datasetName": "DATASET_NAME",
      "batchSize": "BATCH_SIZE_VALUE",
      "dlpProjectId": "DLP_API_PROJECT_ID",
      "deidentifyTemplateName": "projects/TEMPLATE_PROJECT_ID/deidentifyTemplates/DEIDENTIFY_TEMPLATE",
      "inspectTemplateName": "projects/TEMPLATE_PROJECT_ID/identifyTemplates/INSPECT_TEMPLATE_NUMBER"
   }
}