Le profilage de données Dataplex Universal Catalog vous permet d'identifier des caractéristiques statistiques courantes des colonnes de vos tables BigQuery. Ces informations vous aident à comprendre et à analyser plus efficacement vos données.
Des informations telles que les valeurs de données typiques, la distribution des données et le nombre de valeurs nulles peuvent accélérer l'analyse. Combiné à la classification des données, le profilage des données peut détecter des classes de données ou des informations sensibles qui peuvent, à leur tour, activer des règles de contrôle des accès.
Dataplex Universal Catalog utilise également ces informations pour recommander des règles pour les contrôles de qualité des données.
Modèle conceptuel
Dataplex Universal Catalog vous permet de mieux comprendre le profil de vos données en créant une analyse de profil de données.
Le schéma suivant montre comment Dataplex Universal Catalog analyse les données pour générer des rapports sur les caractéristiques statistiques.
Une analyse de profil de données est associée à une table BigQuery et l'analyse pour générer les résultats du profil de données. Une analyse du profil de données est compatible avec plusieurs options de configuration.
Options de configuration
Cette section décrit les options de configuration disponibles pour exécuter des analyses de profilage des données.
Options de programmation
Vous pouvez planifier une analyse du profil de données avec une fréquence définie ou à la demande via l'API ou la console Google Cloud .
Champ d'application
Lorsque vous spécifiez une analyse de profilage des données, vous pouvez définir le champ d'application d'un job comme l'une des options suivantes :
Table complète : l'intégralité de la table est analysée lors de l'analyse du profil de données. L'échantillonnage, les filtres de lignes et les filtres de colonnes sont appliqués à l'ensemble du tableau avant le calcul des statistiques de profilage.
Incrémentiel : les données incrémentielles que vous spécifiez sont analysées dans l'analyse du profil de données. Spécifiez une colonne
Date
ouTimestamp
dans le tableau à utiliser comme incrément. Il s'agit généralement de la colonne par rapport à laquelle la table est partitionnée. L'échantillonnage, les filtres de lignes et les filtres de colonnes sont appliqués aux données incrémentielles avant le calcul des statistiques de profilage.
Filtrer les données
Vous pouvez filtrer les données à analyser pour le profilage à l'aide de filtres de lignes et de colonnes. Les filtres vous aident à réduire le temps d'exécution et les coûts, et à exclure les données sensibles et inutiles.
Filtres de ligne : ils vous permettent de vous concentrer sur les données d'une période spécifique ou d'un segment spécifique, comme une région. Par exemple, vous pouvez filtrer les données dont le code temporel est antérieur à une certaine date.
Filtres de colonnes : ils vous permettent d'inclure et d'exclure des colonnes spécifiques de votre tableau pour exécuter l'analyse du profilage des données.
Exemples de données
Dataplex Universal Catalog vous permet de spécifier un pourcentage d'enregistrements de vos données à échantillonner pour exécuter une analyse de profilage des données. La création d'analyses de profilage de données sur un échantillon de données plus petit peut réduire le temps d'exécution et le coût de l'interrogation de l'ensemble de données.
Plusieurs analyses de profilage des données
Dataplex Universal Catalog vous permet de créer plusieurs analyses de profil de données à la fois à l'aide de la console Google Cloud . Vous pouvez sélectionner jusqu'à 100 tables à partir d'un ensemble de données et créer une analyse de profilage des données pour chaque ensemble de données. En savoir plus
Exporter les résultats d'analyse dans une table BigQuery
Vous pouvez exporter les résultats de l'analyse du profil de données vers une table BigQuery pour une analyse plus approfondie. Pour personnaliser les rapports, vous pouvez associer les données des table BigQuery à un tableau de bord Looker. Vous pouvez créer un rapport agrégé en utilisant la même table de résultats pour plusieurs analyses.
Résultats du profilage des données
Les résultats du profilage des données incluent les valeurs suivantes :
Type de colonne | Résultats du profilage des données |
---|---|
Colonne numérique |
|
Colonne de chaîne |
|
Autres colonnes non imbriquées (date, heure, code temporel, binaire, etc.) |
|
Toutes les autres colonnes de types de données imbriqués ou complexes (telles que "Record", "Array" ou "JSON") ou toute colonne avec le mode repeated. |
|
Les résultats incluent le nombre d'enregistrements analysés lors de chaque exécution.
Création de rapports et surveillance
Vous pouvez surveiller et analyser les résultats du profilage des données à l'aide des rapports et méthodes suivants :
Rapports publiés avec la table source sur les pages BigQuery et Dataplex Universal Catalog
Si vous avez configuré une analyse de profilage des données pour publier les résultats sur les pages BigQuery et Dataplex Universal Catalog de la consoleGoogle Cloud , vous pouvez afficher les derniers résultats de l'analyse de profilage des données sur ces pages, dans l'onglet Profil de données, depuis n'importe quel projet.
Rapport historique par job dans Dataplex Universal Catalog
Sur la page Profil de Dataplex Universal Catalog, vous pouvez afficher les rapports détaillés des tâches les plus récentes et historiques. Cela inclut les informations sur le profil au niveau des colonnes et la configuration utilisée.
Onglet "Analyse"
Sur la page Profil du catalogue universel Dataplex, vous pouvez utiliser l'onglet Analyse pour afficher les tendances d'une statistique donnée d'une colonne sur plusieurs jobs de profil. Par exemple, si vous effectuez une analyse incrémentielle, vous pouvez voir comment la moyenne d'une valeur a évolué au fil du temps.
Créer votre propre tableau de bord ou vos propres données analytiques
Si vous avez configuré une analyse du profil de données pour exporter ou enregistrer les résultats dans une table BigQuery, vous pouvez créer vos propres tableaux de bord à l'aide d'outils tels que Looker Studio.
Limites
- Le profilage des données est compatible avec les tables BigQuery comportant tous les types de colonnes, à l'exception de
BIGNUMERIC
. Une analyse créée pour une table avec une colonneBIGNUMERIC
génère une erreur de validation et n'est pas créée.
Tarifs
Dataplex Universal Catalog utilise le SKU de traitement Premium pour facturer le profilage des données. Pour en savoir plus, reportez-vous à la page Tarifs.
Le traitement Premium de Dataplex Universal Catalog pour le profilage des données est facturé à la seconde, avec un minimum d'une minute.
Les analyses de profilage ayant échoué ne vous sont pas facturées.
Les frais dépendent du nombre de lignes et de colonnes, de la quantité de données analysées, des paramètres de partitionnement et de clustering de la table, ainsi que de la fréquence de l'analyse.
Plusieurs options permettent de réduire le coût des analyses de profil de données :
- Échantillonnage
- Analyses incrémentales
- Filtrage de colonne
- Filtrage des lignes
Pour séparer les frais de profilage des données des autres frais dans le SKU de traitement premium Dataplex Universal Catalog, utilisez le libellé
goog-dataplex-workload-type
avec la valeurDATA_PROFILE
dans le rapport Cloud Billing.Pour filtrer les frais agrégés, utilisez les libellés suivants :
goog-dataplex-datascan-data-source-dataplex-entity
goog-dataplex-datascan-data-source-dataplex-lake
goog-dataplex-datascan-data-source-dataplex-zone
goog-dataplex-datascan-data-source-project
goog-dataplex-datascan-data-source-region
goog-dataplex-datascan-id
goog-dataplex-datascan-job-id
Étape suivante
- Découvrez comment utiliser le profilage de données.
- En savoir plus sur la qualité automatique des données
- Découvrez comment utiliser la qualité automatique des données.
- Apprenez à explorer vos données et générer des insights.