Présentation de la gouvernance des données dans BigQuery
BigQuery dispose de fonctionnalités de gouvernance intégrées qui simplifient la découverte, la gestion, la surveillance, la gouvernance et l'utilisation de vos données et de vos composants d'IA.
Les administrateurs, les responsables des données, les responsables de la gouvernance des données et les dépositaires des données peuvent utiliser les fonctionnalités de gouvernance de BigQuery pour effectuer les opérations suivantes :
- Découvrez les données.
- Organisez les données.
- Recueillez et enrichissez les métadonnées.
- Gérez la qualité des données.
- Assurez-vous que les données sont utilisées de manière cohérente et conformément aux règles de l'organisation.
- Partagez des données à grande échelle et de manière sécurisée.
Les fonctionnalités de gouvernance BigQuery sont optimisées par Dataplex Universal Catalog, un inventaire centralisé de tous les assets de données de votre organisation. Dataplex Universal Catalog contient les métadonnées métier, techniques et opérationnelles de toutes vos données. Il vous aide à découvrir les relations et la sémantique dans les métadonnées en appliquant l'intelligence artificielle et le machine learning.
Le metastore BigLake vous permet d'utiliser plusieurs moteurs de traitement de données pour interroger une seule copie de données avec un seul schéma, sans duplication des données. Les moteurs de traitement de données que vous pouvez utiliser incluent BigQuery, Apache Spark, Apache Flink et Apache Hive. Vos données peuvent être stockées dans des emplacements tels que des tables de stockage BigQuery, des tables BigLake pour Apache Iceberg dans BigQuery ou des tables externes BigLake.
BigQuery prend en charge le cycle de vie des données de bout en bout, de la découverte à l'utilisation des données. Des fonctionnalités de gouvernance sont également disponibles dans Dataplex Universal Catalog.
Découverte de données
BigQuery détecte les données de l'ensemble de l'organisation dans Google Cloud, qu'elles se trouvent dans BigQuery, Spanner, Cloud SQL, Pub/Sub ou Cloud Storage. Les métadonnées sont automatiquement extraites et stockées dans Dataplex Universal Catalog. Par exemple, vous pouvez extraire des métadonnées pour les données structurées et non structurées de Cloud Storage, et créer automatiquement des tables BigLake prêtes à être interrogées à grande échelle. Cela vous permet d'effectuer des analyses avec un moteur Open Source sans duplication des données.
Vous pouvez également extraire et cataloguer les métadonnées de sources de données tierces à l'aide de connecteurs personnalisés.
BigQuery offre les fonctionnalités de découverte de données suivantes :
- Rechercher : Recherchez des ressources de données et d'IA dans les projets et l'organisation. Dans BigQuery de la console Google Cloud , utilisez la recherche sémantique (aperçu) pour rechercher des ressources en utilisant le langage courant. Vous pouvez également trouver des ressources en utilisant la recherche par mots clés dans Dataplex Universal Catalog.
- Découverte automatique des données Cloud Storage : Analysez les données stockées dans des buckets Cloud Storage pour extraire et cataloguer les métadonnées. La découverte automatique crée des tables pour les données structurées et non structurées.
- Importation de métadonnées. Importez des métadonnées à grande échelle depuis des systèmes tiers vers Dataplex Universal Catalog. Vous pouvez créer des connecteurs personnalisés pour extraire les données de vos sources de données, puis exécuter des pipelines de connectivité gérée qui orchestrent le workflow d'importation des métadonnées.
- Exportation des métadonnées Exportez des métadonnées à effectuer un scaling horizontal Dataplex Universal Catalog. Vous pouvez analyser les métadonnées exportées avec BigQuery ou les intégrer à des applications personnalisées ou à des workflows de traitement programmatique.
Curation et gestion des données
Pour améliorer la détectabilité et l'usabilité des données, les responsables et les administrateurs des données peuvent utiliser BigQuery pour examiner, mettre à jour et analyser les métadonnées. Les fonctionnalités de curation et de gestion des données BigQuery vous aident à vous assurer que vos données sont précises, cohérentes et conformes aux règles de votre organisation.
BigQuery propose les fonctionnalités de curation et de gestion des données suivantes :
- Glossaire commercial Améliorez le contexte, la collaboration et la recherche en définissant la terminologie de votre organisation dans un glossaire. Identifiez les intendances des données pour les termes et associez les termes aux champs des éléments de données.
- Insights sur les données. Gemini utilise les métadonnées pour générer des questions en langage naturel sur votre tableau et les requêtes SQL permettant d'y répondre. Ces insights sur les données vous aident à identifier des modèles, à évaluer la qualité des données et à effectuer des analyses statistiques.
- Profilage des données. Identifiez les caractéristiques statistiques courantes des colonnes des tables BigQuery pour comprendre et analyser plus efficacement vos données.
- Qualité des données Définissez et exécutez des contrôles de qualité des données dans les tables BigQuery et Cloud Storage, et appliquez des contrôles réguliers et continus des données dans les environnements BigQuery.
- Traçabilité des données. Suivez la façon dont les données transitent par vos systèmes : leur origine, la cible de transmission, et les transformations qui leur sont appliquées. BigQuery est compatible avec la traçabilité des données au niveau des tables et des colonnes.
Étapes suivantes pour la curation et l'intendance des données
Le tableau suivant décrit les prochaines étapes que vous pouvez suivre pour en savoir plus sur les fonctionnalités de curation et d'intendance des données :
Niveau d'expérience | Parcours de formation |
---|---|
Nouveaux utilisateurs cloud |
|
Utilisateurs cloud expérimentés |
|
Sécurité et contrôle d'accès
La gestion de l'accès aux données consiste à définir, appliquer et surveiller les règles et les stratégies régissant l'accès aux données. La gestion des accès garantit que les données ne sont accessibles qu'aux personnes autorisées à y accéder.
BigQuery propose les fonctionnalités de sécurité et de contrôle des accès suivantes :
- Identity and Access Management (IAM). Cloud IAM vous permet de contrôler qui a accès à vos ressources BigQuery, telles que des projets, des ensembles de données, des tables et des vues. Vous pouvez attribuer des rôles IAM aux utilisateurs, aux groupes et aux comptes de service. Ces rôles définissent ce qu'ils peuvent faire avec vos ressources.
- Contrôles des accès au niveau des colonnes et Contrôles des accès au niveau des lignes. Les contrôles d'accès au niveau des colonnes et des lignes vous permettent de limiter l'accès à des colonnes et des lignes spécifiques d'une table, en fonction des attributs utilisateur ou des valeurs des données. Ce contrôle vous permet de mettre en œuvre un accès précis afin de protéger les données sensibles contre tout accès non autorisé.
- Gestion des transferts de données. VPC Service Controls vous permet de créer des périmètres autour des ressources Google Cloudet de contrôler l'accès à ces ressources en fonction des règles de votre organisation.
- Journaux d'audit. Les journaux d'audit fournissent un enregistrement détaillé de l'activité des utilisateurs et des événements système dans votre organisation. Ces journaux vous aident à appliquer des règles de gouvernance des données et à identifier les risques de sécurité potentiels.
- Masquage des données. Le masquage des données vous permet de masquer les données sensibles d'une table tout en autorisant les utilisateurs autorisés à accéder aux données environnantes. Le masquage de données peut également masquer les données correspondant à des modèles de données sensibles afin d'éviter toute divulgation accidentelle de données.
- Chiffrement. BigQuery chiffre automatiquement toutes les données au repos et en transit, tout en vous permettant de personnaliser vos paramètres de chiffrement afin de répondre à vos besoins spécifiques.
Étapes suivantes pour la sécurité et le contrôle des accès
Le tableau suivant décrit les prochaines étapes que vous pouvez suivre pour en savoir plus sur les fonctionnalités de contrôle des accès :
Niveau d'expérience | Parcours de formation |
---|---|
Nouveaux utilisateurs cloud |
|
Utilisateurs cloud expérimentés |
|
Données et insights partagés
BigQuery vous permet de partager des données et des insights à grande échelle, au sein de votre organisation et au-delà. Elle dispose d'un framework de sécurité et de confidentialité robuste grâce à une plate-forme d'échange de données intégrée. Grâce au partage BigQuery, vous pouvez découvrir, accéder à et utiliser une bibliothèque de données sélectionnées par un large éventail de fournisseurs de données.
BigQuery propose les fonctionnalités de partage suivantes :
- Partagez plus que des données. Vous pouvez partager un large éventail de ressources de données et d'IA, comme des ensembles de données, des tables et des vues BigQuery, des flux en temps réel avec des thèmes Pub/Sub, des procédures stockées SQL et des modèles BigQuery ML.
- Accéder aux ensembles de données Google Enrichissez vos initiatives d'analyse et de ML avec des ensembles de données Google issus des tendances de recherche, des modèles DeepMind WeatherNext, de Google Maps Platform, de Google Earth Engine et plus encore.
- Intégrer les principes de gouvernance des données Les propriétaires de données conservent le contrôle sur leurs données et peuvent définir et configurer des règles ou des stratégies pour restreindre l'accès et l'utilisation.
- Partage de données en direct sans copie : Les données sont partagées sur place, sans qu'aucune intégration, aucun déplacement ni aucune réplication de données ne soient nécessaires. L'analyse est ainsi basée sur les informations les plus récentes. Les ensembles de données associés créés sont des pointeurs actifs vers le composant partagé.
- Améliorez votre stratégie de sécurité. Vous pouvez utiliser les contrôles d'accès pour réduire l'accès au surprovisionnement, y compris la prise en charge intégrée de VPC Service Controls.
- Améliorez la visibilité grâce aux métriques d'utilisation des fournisseurs. Les éditeurs de données peuvent afficher et surveiller l'utilisation des composants partagés, comme le nombre de jobs exécutés, le nombre total d'octets analysés et les abonnés pour chaque organisation.
- Collaborer sur des données sensibles avec des data clean rooms Les data clean room offrent un environnement sécurisé dans lequel plusieurs parties peuvent partager, joindre et analyser leurs éléments de données sans déplacer ni révéler les données sous-jacentes.
- Basé sur BigQuery Vous pouvez vous appuyer sur l'évolutivité et les capacités de traitement massif de BigQuery, ce qui permet des collaborations à grande échelle.
Étapes suivantes pour le partage
Le tableau suivant décrit les prochaines étapes que vous pouvez suivre pour en savoir plus sur les fonctionnalités de partage :
Niveau d'expérience | Parcours de formation |
---|---|
Nouveaux utilisateurs cloud | |
Utilisateurs cloud expérimentés |
|
Étapes suivantes
- En savoir plus sur l'authentification chez Google.
- En savoir plus sur la suppression de données sur Google Cloud
- Explorez les bonnes pratiques IAM.
- Découvrez la hiérarchie des ressources sur Google Cloud.
- En savoir plus sur IAM sur Google Cloud