Une tâche est une action exécutée par la protection des données sensibles pour analyser le contenu à la recherche de données sensibles ou calculer le risque de restauration de l'identification. La protection des données sensibles crée et exécute une ressource de tâche chaque fois que vous lui indiquez d'inspecter vos données.
Il existe actuellement deux types de tâches de protection des données sensibles:
- Les tâches d'inspection analysent le contenu à la recherche de données sensibles selon vos critères et génèrent des rapports récapitulatifs sur l'emplacement et le type de données sensibles.
- Les tâches d'analyse des risques analysent les données anonymisées et renvoient des métriques sur la probabilité de restauration de l'identification des données.
Vous pouvez planifier l'exécution de tâches Sensitive Data Protection en créant des déclencheurs de tâche. Un déclencheur de tâche est un événement qui automatise la création de tâches de protection des données sensibles pour analyser les dépôts de stockage Google Cloud, y compris les buckets Cloud Storage, les tables BigQuery et les genres Datastore.
Les déclencheurs de tâche vous permettent de planifier des tâches d'analyse en définissant des intervalles de déclenchement pour chaque déclencheur. Vous pouvez les configurer afin d'effectuer une nouvelle recherche depuis la dernière analyse, de surveiller les modifications ou les ajouts de contenu et de générer des rapports de résultats à jour. Les déclencheurs programmés s'exécutent par intervalles que vous définissez, de 1 à 60 jours.
Étapes suivantes
Les rubriques suivantes expliquent comment créer, modifier et exécuter des tâches, ainsi que des déclencheurs de tâches :
- Créer des tâches d'inspection et des déclencheurs de tâches pour la protection des données sensibles
- Mesurer le risque de restauration de l'identification et de divulgation (couvre les tâches d’analyse des risques.)
Le guide de démarrage rapide ci-dessous est également disponible :
L'objet JobTrigger
Un déclencheur de tâche est représenté dans l'API DLP par l'objet JobTrigger
.
Champs de configuration d'un déclencheur de tâche
Chaque objet JobTrigger
contient plusieurs champs de configuration, tels que :
- le nom du déclencheur, le nom à afficher pour le déclencheur, ainsi qu'une description ;
- une collection d'objets
Trigger
, chacun contenant un objetSchedule
, qui définit la récurrence de l'analyse exprimée en secondes ; - un objet
InspectJobConfig
contenant les informations de configuration de la tâche déclenchée ; - une énumération
Status
, qui indique si le déclencheur est actuellement actif ; - des champs d'horodatage pour les dates/heures de création, de mise à jour et de dernière exécution ;
- une collection d'objets
Error
, si des erreurs se sont produites lorsque le déclencheur a été activé.
Méthodes de déclenchement de tâches
Chaque objet JobTrigger
comporte également plusieurs méthodes intégrées. Avec ces méthodes, vous pouvez effectuer les opérations suivantes :
- Créer un déclencheur de job :
projects.jobTriggers.create
- Mettre à jour un déclencheur de job existant :
projects.jobTriggers.patch
- Supprimer un déclencheur de tâche existant :
projects.jobTriggers.delete
- Récupérez un déclencheur de tâche existant, y compris sa configuration et son état :
projects.jobTriggers.get
- Répertorier tous les déclencheurs de tâches existants :
projects.jobTriggers.list
Latence des jobs
Aucun objectif de niveau de service (SLO) n'est garanti pour les jobs et les déclencheurs de jobs. La latence dépend de plusieurs facteurs, y compris la quantité de données à analyser, le dépôt de stockage analysé, le type et le nombre d'infoTypes que vous recherchez, la région où la tâche est traitée et les ressources informatiques disponibles dans cette région. Par conséquent, la latence des tâches d'inspection ne peut pas être déterminée à l'avance.
Pour réduire la latence des tâches, essayez les solutions suivantes :
- Si l'échantillonnage est disponible pour votre tâche ou votre déclencheur de tâche, activez-le.
Évitez d'activer les infoTypes dont vous n'avez pas besoin. Bien que les éléments suivants soient utiles dans certains scénarios, ces infoTypes peuvent ralentir considérablement les requêtes par rapport à celles qui ne les incluent pas:
PERSON_NAME
FEMALE_NAME
MALE_NAME
FIRST_NAME
LAST_NAME
DATE_OF_BIRTH
LOCATION
STREET_ADDRESS
ORGANIZATION_NAME
Spécifiez toujours les infoTypes explicitement. N'utilisez pas de liste d'infoTypes vide.
Si possible, utilisez une autre région de traitement.
Si les problèmes de latence avec les tâches persistent après avoir essayé ces techniques, envisagez d'utiliser des requêtes content.inspect
ou content.deidentify
à la place des tâches. Ces méthodes sont couvertes par le contrat de niveau de service. Pour en savoir plus, consultez le Contrat de niveau de service de Sensitive Data Protection.
Limiter les analyses au nouveau contenu
Vous pouvez configurer votre déclencheur de tâche pour définir automatiquement la période pour l'analyse des fichiers stockés dans Cloud Storage ou BigQuery. Lorsque vous définissez l'objet TimespanConfig
pour qu'il soit inséré automatiquement, Sensitive Data Protection n'analyse que les données qui ont été ajoutées ou modifiées depuis l'exécution du dernier déclencheur:
...
timespan_config {
enable_auto_population_of_timespan_config: true
}
...
Pour l'inspection BigQuery, seules les lignes datant d'au moins trois heures sont incluses dans l'analyse. Consultez le problème connu associé à cette opération.
Déclencher des tâches en cas d'importation de fichiers
En complément de la prise en charge des déclencheurs de tâche, qui est intégrée à la protection des données sensibles, Google Cloud fournit divers autres composants que vous pouvez utiliser pour intégrer ou déclencher des tâches de protection des données sensibles. Par exemple, vous pouvez utiliser des fonctions Cloud Run pour déclencher une analyse de protection des données sensibles chaque fois qu'un fichier est importé dans Cloud Storage.
Pour découvrir comment configurer cette opération, consultez la section Automatiser la classification des données importées sur Cloud Storage.