Taguer les tables dans Data Catalog en fonction des insights issus des profils de données

Cette page explique comment appliquer automatiquement des tags Data Catalog aux tables BigQuery après que la protection des données sensibles a profilé ces tables. Cette page fournit également des exemples de requêtes que vous pouvez utiliser pour trouver des données taguées dans votre organisation et vos projets.

Cette fonctionnalité est utile si vous souhaitez enrichir vos métadonnées organisées manuellement dans Dataplex Universal Catalog avec des insights recueillis à partir des profils de données de la protection des données sensibles. Les tags générés incluent les insights suivants :

  • Types d'informations (infoTypes) détectés dans les colonnes du tableau
  • Niveau de sensibilité calculé pour la table
  • Niveau de risque lié aux données calculé pour la table

Les insights issus des profils de données Sensitive Data Protection peuvent vous aider à utiliser le catalogue universel Dataplex pour découvrir les données sensibles et à haut risque dans votre organisation. Utilisez ces insights pour prendre des décisions éclairées sur la façon de gérer et de gouverner vos données.

Si vous souhaitez envoyer les résultats des tâches d'inspection (et non les opérations de profilage des données) à Dataplex Universal Catalog, consultez plutôt Envoyer les résultats d'inspection de Sensitive Data Protection à Data Catalog.

À propos des profils de données

Vous pouvez configurer la protection des données sensibles pour qu'elle génère automatiquement des profils sur les données d'une organisation, d'un dossier ou d'un projet. Les profils de données contiennent des métriques et des métadonnées relatives à vos données, et vous permettent de déterminer l'emplacement des données sensibles et à haut risque. La protection des données sensibles signale ces métriques à différents niveaux de détail. Pour en savoir plus sur les types de données que vous pouvez profiler, consultez Ressources compatibles.

À propos de Dataplex Universal Catalog et de Data Catalog

Dataplex Universal Catalog est un service Google Cloud qui unifie les données distribuées et automatise la gestion et la gouvernance de ces données. Data Catalog (obsolète) est un service de gestion des métadonnées entièrement géré et évolutif.

Data Catalog vous permet d'utiliser des tags et des modèles de tag pour associer des métadonnées métier à vos données. Vous pouvez ensuite rechercher et gérer toutes les métadonnées de votre organisation ou de votre projet dans un service unifié. Pour en savoir plus, consultez Tags et modèles de tags.

Fonctionnement

Si l'action Envoyer à Dataplex en tant que tags est activée dans votre configuration d'analyse de découverte, Sensitive Data Protection effectue les opérations suivantes chaque fois qu'il profile vos données. Cette action ne s'applique qu'aux profils nouveaux et modifiés. Les profils existants qui ne sont pas mis à jour ne sont pas envoyés à Dataplex Universal Catalog.

  1. Crée un modèle de tag privé contenant le schéma des tags qui seront associés à vos tables BigQuery. Pour en savoir plus sur le nom, l'ID et l'emplacement du modèle de tag, consultez Détails du modèle de tag.

    Seuls les comptes principaux disposant des rôles et autorisations appropriés peuvent afficher le modèle de tag.

  2. Crée un tag pour chaque table BigQuery que vous profilez. Le tag est basé sur le modèle de tag que vous venez de créer.

    Par exemple, un tag associé à une table peut contenir les métadonnées suivantes :

    Nom à afficher Valeur
    Column Insights ccn: CREDIT_CARD_NUMBER
    first_name: PERSON_NAME
    last_name: PERSON_NAME
    ssn: US_SOCIAL_SECURITY_NUMBER
    email: EMAIL_ADDRESS
    Column Sensitivity ccn: HIGH
    first_name: MODERATE
    last_name: MODERATE
    favorite_animal: LOW
    ssn: HIGH
    email: MODERATE
    id: LOW
    Data Risk Level HIGH
    Other InfoTypes PHONE_NUMBER
    Predicted InfoTypes CREDIT_CARD_NUMBER,US_SOCIAL_SECURITY_NUMBER,EMAIL_ADDRESS,PERSON_NAME
    Profile Last Generated DATE at TIME
    Sensitive Data Profile organizations/ORGANIZATION_ID/locations/REGION/tableDataProfiles/TABLE_DATA_PROFILE_ID
    Sensitivity Score HIGH

Une table comporte deux tags si elle a été profilée à l'aide des deux méthodes suivantes :

  • Une configuration d'analyse au niveau de l'organisation ou d'un dossier
  • Configuration d'analyse au niveau du projet

Une fois les tables taguées, vous pouvez rechercher dans le catalogue universel Dataplex toutes les données de votre organisation ou de votre projet avec des valeurs de tag spécifiques.

Détails du modèle de tag

Le nom et l'ID du modèle, ainsi que le projet dans lequel le nouveau modèle de balise est stocké, dépendent de la ressource à laquelle la configuration d'analyse se rapporte.

  • Si la configuration d'analyse est une configuration au niveau de l'organisation ou du dossier, le modèle de tag est stocké dans le conteneur de l'agent de service. Le nom du modèle de balise est Sensitive Data Profile. Son ID de modèle est sensitive_data_profile.
  • Si la configuration d'analyse est une configuration au niveau du projet, le modèle de tag est stocké dans le projet à profiler. Le nom du modèle de balise est Sensitive Data Profile (Project). Son ID de modèle est sensitive_data_profile_project.

Tarifs

Pour savoir comment d'autres services Google Cloud peuvent vous facturer l'exportation de profils de données, consultez Tarifs de l'exportation de profils de données.

Taguer automatiquement les tables BigQuery en fonction des profils de données

  1. Créez une configuration d'analyse. Vous pouvez également modifier une configuration d'analyse existante.

  2. À l'étape Ajouter des actions, assurez-vous que l'option Envoyer à Dataplex sous forme de tags est activée.

    • Si vous créez une configuration d'analyse, cette action est activée par défaut.
    • Si vous modifiez une configuration d'analyse, vous devez activer cette action.

Une fois les données profilées et taguées, vous pouvez commencer à rechercher les données taguées dans Dataplex Universal Catalog.

Rôles et autorisations pour afficher les tags

Les résultats de recherche Dataplex Universal Catalog n'affichent que les données auxquelles vous avez accès. Vous avez besoin des rôles ou autorisations IAM (Identity and Access Management) suivants pour rechercher les tags associés à vos tables BigQuery.

Objectif Rôle prédéfini Autorisations pertinentes
Afficher le modèle de tag privé Lecteur de modèles de tag Data Catalog (roles/datacatalog.tagTemplateViewer) datacatalog.tagTemplates.getTag
Afficher les tags appliqués aux tables BigQuery Lecteur de métadonnées BigQuery (roles/bigquery.metadataViewer) bigquery.datasets.get
bigquery.tables.get

Pour en savoir plus sur les rôles Dataplex Universal Catalog, consultez Rôles permettant d'afficher les tags publics et privés.

Pour savoir comment attribuer un rôle prédéfini, consultez Attribuer un rôle unique. Si vous souhaitez utiliser un rôle personnalisé au lieu d'un rôle prédéfini, assurez-vous qu'il dispose des autorisations appropriées. Pour en savoir plus, consultez Créer un rôle personnalisé.

Rechercher le modèle de tag généré

  1. Dans la console Google Cloud , accédez à la page Modèles de tags de Dataplex Universal Catalog.

    Accéder aux modèles de tag

  2. Dans la liste, recherchez le modèle de tag. Pour en savoir plus sur le nom, l'ID et l'emplacement du modèle de tag, consultez Détails du modèle de tag.

  3. Facultatif : Pour trouver le modèle de tag généré par une configuration d'analyse de découverte donnée, saisissez ce qui suit dans le champ Filtre :

    name:PROJECT_ID.TAG_TEMPLATE_ID
    

    Remplacez les éléments suivants :

    • PROJECT_ID : ID du projet associé à la configuration de l'analyse. Si vous avez profilé vos données au niveau de l'organisation ou du dossier, saisissez l'ID du projet du conteneur d'agent de service.
    • TAG_TEMPLATE_ID : sensitive_data_profile si la configuration d'analyse concerne une organisation ou un dossier ; sensitive_data_profile_project si la configuration d'analyse concerne un projet.

Rechercher le tag généré pour un profil de données de table donné

  1. Dans la console Google Cloud , accédez à la page Rechercher de Dataplex Universal Catalog.

    Accéder à la recherche

  2. Dans le champ Rechercher, saisissez ce qui suit :

    name:TABLE_ID tag:PROJECT_ID.TAG_TEMPLATE_ID
    

    Remplacez les éléments suivants :

    • TABLE_ID : ID de la table qui a été profilée.
    • PROJECT_ID : ID du projet contenant le modèle de balise. Si vous avez profilé vos données au niveau de l'organisation ou du dossier, saisissez l'ID du projet du conteneur d'agent de service.
    • TAG_TEMPLATE_ID : sensitive_data_profile si la configuration d'analyse concerne une organisation ou un dossier ; sensitive_data_profile_project si la configuration d'analyse concerne un projet.
  3. Dans la liste qui s'affiche, cliquez sur l'ID de la table. Les détails de la table BigQuery s'affichent, ainsi que les tags Sensitive Data Profile ou Sensitive Data Profile (Project) qui y sont associés.

    Une table comporte deux tags si elle a été profilée à l'aide des deux méthodes suivantes :

    • Une configuration d'analyse au niveau de l'organisation ou d'un dossier
    • Configuration d'analyse au niveau du projet

Pour savoir comment effectuer une recherche à l'aide de l'API Data Catalog, consultez Rechercher des éléments de données.

Exemples de requêtes de recherche

Cette section fournit des exemples de requêtes de recherche que vous pouvez utiliser dans Dataplex Universal Catalog pour trouver des données dans votre organisation ou votre projet avec des valeurs de tag spécifiques.

Vous ne pouvez trouver que les données auxquelles vous avez accès. L'accès aux données est contrôlé par des autorisations IAM. Pour en savoir plus, consultez Rôles et autorisations pour afficher les tags sur cette page.

Vous pouvez saisir ces requêtes sur la page Recherche de Dataplex Universal Catalog dans la console Google Cloud .

Accéder à la recherche

Pour savoir comment formuler les requêtes, consultez la section Syntaxe de recherche dans Data Catalog. Pour savoir comment effectuer une recherche à l'aide de l'API Data Catalog, consultez Rechercher des composants de données.

Rechercher toutes les tables taguées à l'aide du nouveau modèle de tag

tag:PROJECT_ID.TAG_TEMPLATE_ID

Remplacez les éléments suivants :

  • PROJECT_ID : ID du projet contenant le modèle de balise. Si vous avez profilé vos données au niveau de l'organisation ou du dossier, saisissez l'ID du projet du conteneur d'agent de service.
  • TAG_TEMPLATE_ID : sensitive_data_profile si la configuration d'analyse concerne une organisation ou un dossier ; sensitive_data_profile_project si la configuration d'analyse concerne un projet.

Les exemples suivants sur cette page n'incluent pas l'ID de projet. Vous pouvez donc obtenir des résultats associés à différentes configurations d'analyse de découverte. Pour limiter vos résultats à une configuration d'analyse spécifique, ajoutez l'ID du projet à la requête, comme indiqué dans cet exemple.

Rechercher toutes les tables qui ont été profilées avant une date donnée

tag:TAG_TEMPLATE_ID.profile_last_generated<DATE

Remplacez les éléments suivants :

  • TAG_TEMPLATE_ID : sensitive_data_profile si la configuration d'analyse concerne une organisation ou un dossier ; sensitive_data_profile_project si la configuration d'analyse concerne un projet.
  • DATE : date au format YYYY-MM-DD (par exemple, 2023-01-15).

Rechercher toutes les tables avec un score de confidentialité donné au niveau de la table

tag:TAG_TEMPLATE_ID.sensitivity_score=SENSITIVITY_SCORE

Remplacez les éléments suivants :

  • TAG_TEMPLATE_ID : sensitive_data_profile si la configuration d'analyse concerne une organisation ou un dossier ; sensitive_data_profile_project si la configuration d'analyse concerne un projet.
  • SENSITIVITY_SCORE : HIGH, MODERATE, ou LOW.

Pour en savoir plus, consultez Niveaux de sensibilité et de risques liés aux données.

Rechercher toutes les tables présentant un niveau de risque de données donné

tag:TAG_TEMPLATE_ID.data_risk_level=DATA_RISK_LEVEL

Remplacez les éléments suivants :

  • TAG_TEMPLATE_ID : sensitive_data_profile si la configuration d'analyse concerne une organisation ou un dossier ; sensitive_data_profile_project si la configuration d'analyse concerne un projet.
  • DATA_RISK_LEVEL : HIGH, MODERATE, ou LOW.

Pour en savoir plus, consultez Niveaux de sensibilité et de risques liés aux données.

Rechercher toutes les tables contenant un infoType prédit donné

tag:TAG_TEMPLATE_ID.predicted_info_types:INFOTYPE

Remplacez les éléments suivants :

  • TAG_TEMPLATE_ID : sensitive_data_profile si la configuration d'analyse concerne une organisation ou un dossier ; sensitive_data_profile_project si la configuration d'analyse concerne un projet.
  • INFOTYPE : infoType (par exemple, PERSON_NAME).

Pour obtenir la liste de tous les infoTypes intégrés, consultez la documentation de référence sur les détecteurs d'infoTypes.

Pour en savoir plus, consultez Predicted infoType dans la documentation de référence sur les métriques.

Rechercher toutes les tables qui contiennent partiellement un infoType donné

tag:TAG_TEMPLATE_ID.other_info_types:INFOTYPE

Remplacez les éléments suivants :

  • TAG_TEMPLATE_ID : sensitive_data_profile si la configuration d'analyse concerne une organisation ou un dossier ; sensitive_data_profile_project si la configuration d'analyse concerne un projet.
  • INFOTYPE : infoType (par exemple, PERSON_NAME).

Pour obtenir la liste de tous les infoTypes intégrés, consultez la documentation de référence sur les détecteurs d'infoTypes.

Pour en savoir plus, consultez Autres infoTypes dans la documentation de référence sur les métriques.

Trouver toutes les tables contenant une colonne donnée avec un infoType prédit donné

tag:TAG_TEMPLATE_ID.column_insights:COLUMN_NAME:INFOTYPE

Remplacez les éléments suivants :

  • TAG_TEMPLATE_ID : sensitive_data_profile si la configuration d'analyse concerne une organisation ou un dossier ; sensitive_data_profile_project si la configuration d'analyse concerne un projet.
  • COLUMN_NAME : nom de la colonne dans la table BigQuery.
  • INFOTYPE : infoType (par exemple, PERSON_NAME).

Pour obtenir la liste de tous les infoTypes intégrés, consultez la documentation de référence sur les détecteurs d'infoTypes.

Pour en savoir plus, consultez Predicted infoType dans la documentation de référence sur les métriques.

Trouver toutes les tables contenant une colonne donnée avec un score de sensibilité au niveau de la colonne donné

tag:TAG_TEMPLATE_ID.column_sensitivity:COLUMN_NAME:SENSITIVITY_SCORE

Remplacez les éléments suivants :

  • TAG_TEMPLATE_ID : sensitive_data_profile si la configuration d'analyse concerne une organisation ou un dossier ; sensitive_data_profile_project si la configuration d'analyse concerne un projet.
  • COLUMN_NAME : nom de la colonne dans la table BigQuery.
  • SENSITIVITY_SCORE : HIGH, MODERATE, ou LOW.

Pour en savoir plus, consultez Niveaux de sensibilité et de risques liés aux données.

Valeurs de tag tronquées

Si les données d'en-tête de colonne d'une table BigQuery dépassent 10 Mo, le tag obtenu peut afficher [TRUNCATED] dans le champ Column Insights ou Column Sensitivity. Dans ce cas, nous vous recommandons d'accéder à la protection des données sensibles pour examiner le profil des données de table et les profils des données de colonne associés.