Plantilla de enmascaramiento de datos y asignación de token de Cloud Storage a BigQuery (con DLP de Cloud)

El enmascaramiento de datos y la asignación de tokens de Cloud Storage a la plantilla de BigQuery usa Sensitive Data Protection y crea una canalización de transmisión que realiza los siguientes pasos:

  1. Lee archivos CSV de un bucket de Cloud Storage.
  2. Llama a la API de Cloud Data Loss Prevention (parte de Sensitive Data Protection) para la desidentificación.
  3. Escribe los datos desidentificados en la tabla de BigQuery especificada.

La plantilla admite el uso de una plantilla de inspección de Sensitive Data Protection y una plantilla de desidentificación de Sensitive Data Protection. Como resultado, la plantilla admite estas dos tareas:

  • Inspecciona la información potencialmente sensible y desidentifica los datos.
  • Desidentifica datos estructurados en los que las columnas están especificadas para ser desidentificadas y no se necesita la inspección.

Esta plantilla no admite una ruta de acceso regional para la ubicación de la plantilla de desidentificación. Solo se admite una ruta global.

Requisitos de la canalización

  • Los datos de entrada para la asignación de tokens deben existir.
  • Las plantillas de Sensitive Data Protection deben existir (por ejemplo, InspectTemplate y DeidentifyTemplate). Para obtener más detalles, consulta Plantillas de Sensitive Data Protection.
  • El conjunto de datos de BigQuery debe existir.

Parámetros de la plantilla

Parámetros obligatorios

  • inputFilePattern: Los archivos CSV desde los que se leen los registros de datos de entrada. También se aceptan comodines. Por ejemplo, gs://mybucket/my_csv_filename.csv or gs://mybucket/file-*.csv
  • deidentifyTemplateName: Es la plantilla de desidentificación de Sensitive Data Protection que se usará para las solicitudes a la API, especificada con el patrón projects/<PROJECT_ID>/deidentifyTemplates/<TEMPLATE_ID>. Por ejemplo, projects/your-project-id/locations/global/deidentifyTemplates/generated_template_id.
  • datasetName: Es el conjunto de datos de BigQuery que se usará cuando se envíen resultados con asignación de tokens. El conjunto de datos debe existir antes de la ejecución.
  • dlpProjectId: Es el ID del proyecto de Google Cloud que posee el recurso de la API de DLP. Este proyecto puede ser el mismo que posee las plantillas de Sensitive Data Protection, o puede ser uno independiente.

Parámetros opcionales

  • inspectTemplateName: Es la plantilla de inspección de Sensitive Data Protection que se usará para las solicitudes a la API, especificada con el patrón projects/<PROJECT_ID>/identifyTemplates/<TEMPLATE_ID>. Por ejemplo, projects/your-project-id/locations/global/inspectTemplates/generated_template_id.
  • batchSize: Es el tamaño de fragmentación o del lote que se usa para enviar datos para inspeccionar y quitar la asignación de token. En un archivo CSV, el valor de batchSize es la cantidad de filas en un lote. Determina el tamaño del lote según el tamaño de los registros y del archivo. La API de DLP tiene un límite de tamaño de carga útil de 524 KB por llamada a la API.

Ejecuta la plantilla

Console

  1. Ve a la página Crear un trabajo a partir de una plantilla de Dataflow.
  2. Ir a Crear un trabajo a partir de una plantilla
  3. En el campo Nombre del trabajo, ingresa un nombre de trabajo único.
  4. Opcional: Para Extremo regional, selecciona un valor del menú desplegable. La región predeterminada es us-central1.

    Para obtener una lista de regiones en las que puedes ejecutar un trabajo de Dataflow, consulta Ubicaciones de Dataflow.

  5. En el menú desplegable Plantilla de Dataflow, selecciona the Data Masking/Tokenization from Cloud Storage to BigQuery (using Cloud DLP) template.
  6. En los campos de parámetros proporcionados, ingresa los valores de tus parámetros.
  7. Haga clic en Ejecutar trabajo.

gcloud

En tu shell o terminal, ejecuta la plantilla:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/Stream_DLP_GCS_Text_to_BigQuery \
    --region REGION_NAME \
    --staging-location STAGING_LOCATION \
    --parameters \
inputFilePattern=INPUT_DATA,\
datasetName=DATASET_NAME,\
batchSize=BATCH_SIZE_VALUE,\
dlpProjectId=DLP_API_PROJECT_ID,\
deidentifyTemplateName=projects/TEMPLATE_PROJECT_ID/deidentifyTemplates/DEIDENTIFY_TEMPLATE,\
inspectTemplateName=projects/TEMPLATE_PROJECT_ID/identifyTemplates/INSPECT_TEMPLATE_NUMBER

Reemplaza lo siguiente:

  • DLP_API_PROJECT_ID: Es el ID del proyecto de la API de DLP
  • JOB_NAME: Es el nombre del trabajo que elijas
  • REGION_NAME: La región en la que deseas implementar tu trabajo de Dataflow, por ejemplo, us-central1
  • VERSION: Es la versión de la plantilla que deseas usar.

    Puedes usar los siguientes valores:

    • latest para usar la última versión de la plantilla, que está disponible en la carpeta superior non-dated en el bucket gs://dataflow-templates-REGION_NAME/latest/
    • el nombre de la versión, como 2023-09-12-00_RC00, para usar una versión específica de la plantilla, que se puede encontrar anidada en la carpeta superior con fecha correspondiente en el bucket gs://dataflow-templates-REGION_NAME/
  • STAGING_LOCATION: la ubicación para los archivos locales de etapa de pruebas (por ejemplo, gs://your-bucket/staging).
  • INPUT_DATA: Es la ruta de acceso del archivo de entrada.
  • DEIDENTIFY_TEMPLATE: Es el número de plantilla de Sensitive Data ProtectionDeidentify
  • DATASET_NAME: Es el nombre del conjunto de datos de BigQuery.
  • INSPECT_TEMPLATE_NUMBER: Es el número de plantilla de Sensitive Data ProtectionInspect
  • BATCH_SIZE_VALUE: Es el tamaño del lote (número de filas por API para archivos CSV)

REST

Para ejecutar la plantilla con la API de REST, envía una solicitud HTTP POST. Para obtener más información de la API y sus permisos de autorización, consulta projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/Stream_DLP_GCS_Text_to_BigQuery
{
   "jobName": "JOB_NAME",
   "environment": {
       "ipConfiguration": "WORKER_IP_UNSPECIFIED",
       "additionalExperiments": []
   },
   "parameters": {
      "inputFilePattern":INPUT_DATA,
      "datasetName": "DATASET_NAME",
      "batchSize": "BATCH_SIZE_VALUE",
      "dlpProjectId": "DLP_API_PROJECT_ID",
      "deidentifyTemplateName": "projects/TEMPLATE_PROJECT_ID/deidentifyTemplates/DEIDENTIFY_TEMPLATE",
      "inspectTemplateName": "projects/TEMPLATE_PROJECT_ID/identifyTemplates/INSPECT_TEMPLATE_NUMBER"
   }
}

Reemplaza lo siguiente:

  • PROJECT_ID: El ID del proyecto de Google Cloud en el que deseas ejecutar el trabajo de Dataflow.
  • DLP_API_PROJECT_ID: Es el ID del proyecto de la API de DLP
  • JOB_NAME: Es el nombre del trabajo que elijas
  • LOCATION: La región en la que deseas implementar tu trabajo de Dataflow, por ejemplo, us-central1
  • VERSION: Es la versión de la plantilla que deseas usar.

    Puedes usar los siguientes valores:

    • latest para usar la última versión de la plantilla, que está disponible en la carpeta superior non-dated en el bucket gs://dataflow-templates-REGION_NAME/latest/
    • el nombre de la versión, como 2023-09-12-00_RC00, para usar una versión específica de la plantilla, que se puede encontrar anidada en la carpeta superior con fecha correspondiente en el bucket gs://dataflow-templates-REGION_NAME/
  • STAGING_LOCATION: la ubicación para los archivos locales de etapa de pruebas (por ejemplo, gs://your-bucket/staging).
  • INPUT_DATA: Es la ruta de acceso del archivo de entrada.
  • DEIDENTIFY_TEMPLATE: Es el número de plantilla de Sensitive Data ProtectionDeidentify
  • DATASET_NAME: Es el nombre del conjunto de datos de BigQuery.
  • INSPECT_TEMPLATE_NUMBER: Es el número de plantilla de Sensitive Data ProtectionInspect
  • BATCH_SIZE_VALUE: Es el tamaño del lote (número de filas por API para archivos CSV)

¿Qué sigue?