Les tâches hybrides et les déclencheurs de tâches englobent un ensemble de méthodes d'API asynchrones qui permettent d'analyser à la recherche d'informations sensibles les charges utiles de données envoyées par pratiquement tout type de source, et de stocker les résultats dans Google Cloud. Les tâches hybrides vous permettent d'écrire vos propres robots d'exploration de données. Ceux-ci se comporteront et diffuseront les données de la même manière que les méthodes d'inspection de stockage de la protection des données sensibles.
Les tâches hybrides permettent de diffuser des données en flux continu depuis n'importe quelle source vers la protection des données sensibles. La protection des données sensibles inspecte les données à la recherche d'informations sensibles ou d'informations personnelles, puis enregistre les résultats de l'analyse d'inspection dans une ressource de tâche de protection des données sensibles. Vous pouvez examiner les résultats de l'analyse dans l'interface utilisateur de la console de protection des données sensibles ou via l'API, ou encore spécifier des actions à exécuter après l'analyse, telles que l'enregistrement des données de résultats d'inspection dans une table BigQuery ou l'émission d'une notification Pub/Sub.
Le diagramme suivant représente le workflow des tâches hybrides :
Cette rubrique présente les concepts relatifs aux tâches hybrides et aux déclencheurs de tâches, ainsi que leur fonctionnement. Pour découvrir comment mettre en œuvre des tâches hybrides et des déclencheurs de tâches, consultez la page Inspecter des données externes à l'aide de tâches hybrides.
À propos des environnements hybrides
Les environnements "hybrides" sont fréquents dans les organisations. De nombreuses organisations stockent et traitent des données sensibles à l'aide d'une combinaison des éléments suivants :
- Autres fournisseurs cloud
- Serveurs sur site ou autres dépôts de données
- Systèmes de stockage non natifs, tels que les systèmes exécutés dans une machine virtuelle
- Applications Web et mobiles
- Solutions basées sur Google Cloud
À l'aide de tâches hybrides, la protection des données sensibles peut inspecter les données qui lui sont envoyées depuis l'une de ces sources. Voici quelques exemples de scénarios :
- Inspectez les données stockées dans Amazon Relational Database Service (RDS), MySQL s'exécutant dans une machine virtuelle ou une base de données sur site.
- Inspectez et tokenisez les données lors de la migration sur site vers le cloud, ou entre production, développement et analyse.
- Inspectez et masquez les transactions d'une application Web ou mobile avant de stocker les données au repos.
Options d'inspection
Lorsque vous souhaitez inspecter du contenu à la recherche de données sensibles, vous avez le choix entre les trois options suivantes proposées par défaut par la protection des données sensibles :
- Inspection à l'aide des méthodes de contenu: vous diffusez vers la protection des données sensibles de petites charges utiles de données en flux continu, accompagnées des instructions sur les éléments à inspecter. La protection des données sensibles inspecte ensuite les données à la recherche de contenu sensible et d'informations personnelles, puis vous renvoie les résultats de son analyse.
- Inspection à l'aide des méthodes de stockage: la protection des données sensibles inspecte un dépôt de stockage basé sur Google Cloud, tel qu'une base de données BigQuery, un bucket Cloud Storage ou un genre Datastore. Vous spécifiez les éléments à inspecter et les éléments à rechercher, puis Sensitive Data Protection exécute la tâche d'analyse du dépôt. Une fois l'analyse terminée, Sensitive Data Protection enregistre dans la tâche un résumé des résultats de l'analyse. De plus, vous avez la possibilité de spécifier que les résultats sont à envoyer pour analyse à un autre produit Google Cloud, tel qu'une table BigQuery distincte.
- Inspection à l'aide de tâches hybrides : les tâches hybrides combinent les avantages des deux méthodes précédentes. Elles vous permettent de diffuser des données en flux continu comme vous le feriez à l'aide des méthodes de contenu, tout en bénéficiant du stockage, de la visualisation et des actions propres aux tâches d'inspection de stockage. Toutes les configurations d'inspection sont gérées dans Sensitive Data Protection, sans autre configuration requise côté client. Les tâches hybrides peuvent être utiles pour analyser des systèmes de stockage non natifs, tels que des bases de données s'exécutant sur des machines virtuelles (VM), sur site ou sur un autre cloud. Les méthodes hybrides peuvent également être utiles pour inspecter des systèmes de traitement tels que des charges de travail de migration, ou même pour servir de proxy de communication entre plusieurs services. Les méthodes hybrides, tout comme les méthodes de contenu, vous fournissent un backend de stockage des résultats capable d'agréger vos données sur plusieurs appels d'API, ce qui vous évite d'avoir à faire ce travail vous-même.
À propos des tâches hybrides et des déclencheurs de tâches
Une tâche hybride est un mixte composé de méthodes de contenu et de méthodes de stockage. Le flux de travail de base exploitant les tâches hybrides et les déclencheurs de tâches peut être décrit comme suit :
- Vous écrivez un script ou créez un workflow qui envoie vos données à la protection des données sensibles pour inspection, accompagnées de quelques métadonnées.
- Vous configurez et créez une ressource de tâche hybride ou un déclencheur que vous paramétrez afin que la tâche s'active dès que des données sont reçues.
- Votre script ou workflow s'exécute côté client et envoie les données à la protection des données sensibles sous la forme d'une requête
hybridInspect
. Les données incluent un message d'activation et l'identifiant de la tâche ou du déclencheur de tâche, qui déclenche l'inspection. - Sensitive Data Protection inspecte les données conformément aux critères définis dans la tâche hybride ou dans le déclencheur.
- La protection des données sensibles enregistre dans la ressource de tâche hybride les résultats de l'analyse, ainsi que les métadonnées que vous fournissez. Vous pouvez examiner les résultats à l'aide de l'interface utilisateur Sensitive Data Protection dans la console Google Cloud.
- Après l'analyse, la protection des données sensibles peut éventuellement exécuter des actions. Par exemple, il peut enregistrer les données des résultats d'inspection dans une table BigQuery ou vous envoyer un e-mail ou une notification Pub/Sub.
Un déclencheur de tâche hybride vous permet de créer, d'activer et d'arrêter des tâches afin de pouvoir déclencher des actions quand vous en avez besoin. Si votre script ou code inclut dans les données qu'il envoie l'identifiant du déclencheur de la tâche hybride, il n'est pas nécessaire de le mettre à jour chaque fois qu'une nouvelle tâche est démarrée.
Scénarios de tâches hybrides classiques
Les tâches hybrides sont adaptées aux objectifs suivants:
- Exécutez une analyse ponctuelle d'une base de données en dehors de Google Cloud dans le cadre d'une vérification trimestrielle de vos bases de données.
- Surveillez tous les nouveaux contenus ajoutés quotidiennement dans une base de données qui n'est pas compatible en mode natif avec la protection des données sensibles.
- Analysez les données entrantes dans une base de données, tout en contrôlant la manière dont elles sont partitionnées.
- Surveillez le trafic dans un réseau à l'aide du filtre de protection des données sensibles pour Envoy (un filtre HTTP WebAssembly pour les proxys side-car Envoy) afin d'identifier les transferts de données sensibles problématiques.
Pour savoir comment aborder ces scénarios, consultez la section Scénarios d'inspection hybride typiques.
Types de métadonnées que vous pouvez fournir
Cette section décrit les types de métadonnées que vous pouvez joindre aux données externes que vous souhaitez inspecter ou aux résultats.
Vous pouvez définir des métadonnées aux niveaux suivants:
Métadonnées dans une tâche hybride ou un déclencheur de tâche hybride
Cette section décrit les types de métadonnées que vous pouvez associer à une tâche hybride ou à un déclencheur de tâche hybride.
Étiquettes requises
Dans la tâche hybride ou le déclencheur de tâche hybride, vous pouvez spécifier une liste de libellés obligatoires qui doivent être inclus dans toutes les requêtes d'inspection hybride que vous envoyez.
Toutes les requêtes pour cette tâche hybride ou ce déclencheur de tâche hybride qui n'incluent pas ces libellés obligatoires sont rejetées. Pour en savoir plus, consultez la section Exiger des libellés à partir des requêtes hybridInspect
.
Étiquettes facultatives
Vous pouvez spécifier des paires clé-valeur à joindre à toutes les conclusions d'une tâche hybride ou d'un déclencheur de tâche hybride. Par exemple, si vous souhaitez que tous les résultats d'une tâche hybride portent le libellé "env"="prod"
, vous devez spécifier cette paire clé-valeur lors de la création de la tâche hybride.
Options des données tabulaires
Vous pouvez spécifier toutes les colonnes qui sont des identifiants de ligne (clés primaires) pour les objets de table dans vos données. Si les colonnes spécifiées existent dans la table, les valeurs des colonnes données sont incluses à côté de chaque résultat pour pouvoir remonter jusqu'à la ligne dont il provient. Ces options tabulaires ne s'appliquent qu'aux requêtes qui envoient des données tabulaires, par exemple sous forme d'un item.table
ou dans des formats byteItem
comme le format CSV.
Si vous connaissez les clés primaires à l'avance, vous pouvez les définir comme champs d'identification lorsque vous créez la tâche hybride ou le déclencheur de tâche hybride. Vous pouvez lister jusqu'à trois noms de colonnes dans le champ hybridOptions.tableOptions.identifyingFields
.
Métadonnées dans une requête hybridInspect
Cette section décrit les types de métadonnées que vous pouvez joindre à une requête hybridInspect
. Les métadonnées que vous envoyez dans une requête hybridInspect
ne s'appliquent qu'à cette requête.
Détails du conteneur
Chaque requête que vous envoyez à une tâche hybride ou à un déclencheur de tâche hybride peut spécifier des détails sur la source de données, y compris des éléments tels que fullPath
, rootPath
, relativePath
, type
, version
, etc. Par exemple, si vous analysez des tables dans une base de données, vous pouvez définir les champs comme suit:
{
"hybridItem": {
"item": {...},
"findingDetails": {
"containerDetails": {
"fullPath": "10.0.0.20/database1/table1",
"relativePath": "table1",
"rootPath": "10.0.0.20/database1",
"type": "postgres",
"version": "9.6"
},
"labels": {...}
}
}
}
Vous ne pouvez pas définir les détails du conteneur au niveau de la tâche hybride ou du déclencheur de tâche hybride.
Étiquettes requises
Si vous définissez des libellés obligatoires lorsque vous créez une tâche hybride ou un déclencheur de tâche hybride, toute requête hybridInspect
que vous envoyez à cette tâche hybride ou à ce déclencheur de tâche hybride doit inclure ces libellés obligatoires. Pour en savoir plus, consultez la section Exiger des libellés à partir des requêtes hybridInspect
.
Étiquettes facultatives
Dans chaque requête hybridInspect
, vous pouvez spécifier des paires clé-valeur à associer aux résultats de la requête. Cette méthode vous permet d'associer différents libellés à chaque requête hybridInspect
.
Options des données tabulaires
Vous pouvez spécifier toutes les colonnes qui sont des identifiants de ligne (clés primaires) pour les objets de table dans vos données. Si les colonnes spécifiées existent dans la table, les valeurs des colonnes données sont incluses à côté de chaque résultat pour pouvoir remonter jusqu'à la ligne dont il provient. Ces options tabulaires ne s'appliquent qu'aux requêtes qui envoient des données tabulaires, par exemple sous forme d'un item.table
ou dans des formats byteItem
comme le format CSV.
Si vous ne connaissez pas les clés primaires à l'avance, vous n'avez pas besoin de les définir au niveau de la tâche hybride ou du déclencheur de tâche hybride. Vous pouvez les définir dans votre requête hybridInspect
, ainsi que les données tabulaires à inspecter. Tous les champs que vous indiquez au niveau de la tâche hybride ou du déclencheur de tâche hybride sont combinés à ceux que vous indiquez dans la requête hybridInspect
.
Actions autorisées
Tout comme les autres tâches de protection des données sensibles, les tâches hybrides sont compatibles avec les actions. Cependant, certaines actions ne sont pas applicables aux tâches hybrides. Vous trouverez ci-dessous la liste des actions actuellement prises en charge, ainsi que des informations sur leur fonctionnement. Sachez qu'avec les actions Pub/Sub, les e-mails et les actions Cloud Monitoring, les résultats ne sont rendus disponibles qu'à la fin de la tâche.
- Enregistrer les résultats dans la protection des données sensibles et Enregistrer les résultats dans BigQuery: les résultats sont enregistrés dans une ressource de protection des données sensibles ou dans une table BigQuery. Ces actions fonctionnent avec les tâches hybrides de la même manière qu'avec les autres types de tâches, avec toutefois une différence importante : avec les tâches hybrides, les résultats sont rendus disponibles pendant l'exécution de la tâche, alors qu'avec les autres types de tâches, les résultats ne sont rendus disponibles qu'à la fin de la tâche.
Publier dans Pub/Sub : lorsque la tâche est terminée, un message Pub/Sub est émis.
Notifier par e-mail : lorsque la tâche est terminée, un e-mail est envoyé.
Publier sur Cloud Monitoring : lorsque la tâche est terminée, ses résultats sont publiés dans Monitoring.
Résumé
Voici quelques fonctionnalités et avantages clés associés à l'utilisation des tâches hybrides et des déclencheurs de tâches :
- Les tâches hybrides vous permettent de diffuser des données vers la protection des données sensibles à partir de pratiquement n'importe quelle source, qu'elle soit sur le cloud ou pas.
- Un déclencheur de tâches hybrides s'active lorsque Sensitive Data Protection reçoit un flux de données incluant un message d'activation et l'identifiant du déclencheur.
- On peut attendre la fin d'une analyse d'inspection ou arrêter la tâche en cours manuellement. Que la tâche parvienne à son terme ou qu'elle soit interrompue prématurément, les résultats d'inspection sont enregistrés dans Sensitive Data Protection ou dans BigQuery.
- Les résultats de l'analyse d'inspection Sensitive Data Protection générés à partir d'un déclencheur de tâche hybride sont enregistrés dans une ressource de tâche hybride au sein de Sensitive Data Protection.
- Les résultats de l'analyse d'inspection peuvent être consultés dans la ressource du déclencheur de tâches dans Sensitive Data Protection.
- Il est également possible d'indiquer à la protection des données sensibles d'effectuer une action, d'envoyer les résultats d'une tâche hybride à une base de données BigQuery, et de vous tenir informé par e-mail ou via une notification Pub/Sub.
Étape suivante
- Pour apprendre à utiliser les tâches hybrides et les déclencheurs de tâches en vue de recevoir des données pour inspection, consultez la section Envoyer des données externes à la protection des données sensibles à l'aide de tâches hybrides.