Ce document explique comment utiliser la recherche dans Dataplex Universal Catalog pour rechercher des ressources telles que des ensembles de données BigQuery, des instances Cloud SQL, etc.
Dataplex Universal Catalog propose deux modes de recherche : la recherche par mots clés et la recherche en langage naturel (preview).
La recherche par mots clés vous permet de trouver des ressources à l'aide de mots clés spécifiques, de filtres et d'une syntaxe définie.
La recherche en langage naturel étend la recherche par mots clés pour prendre en charge les requêtes en langage naturel. Elle vous permet de trouver des ressources en utilisant le langage courant, sans avoir à utiliser une syntaxe complexe.
Pour en savoir plus sur les éléments Google Cloud compatibles avec Dataplex Universal Catalog, consultez Sources Google Cloud compatibles.
Portée de la recherche
Les résultats de recherche dans Dataplex Universal Catalog respectent les autorisations dont vous disposez sur les ressources correspondantes dans les systèmes sources.
Par exemple, si vous disposez d'un accès en lecture aux métadonnées BigQuery pour un objet, cet objet s'affiche dans vos résultats de recherche Dataplex Universal Catalog. Si vous avez accès à une table BigQuery, mais pas à l'ensemble de données contenant cette table, celle-ci apparaîtra quand même bien dans la recherche Dataplex Universal Catalog.
Par défaut, la recherche est limitée à votre organisation. Les résultats n'incluent que les ressources de la même organisation que le projet dans lequel vous effectuez la recherche.
Les résultats de recherche n'incluent que les ressources appartenant au même périmètre VPC-SC que le projet dans lequel la recherche est effectuée. Lorsque vous utilisez la consoleGoogle Cloud , il s'agit du projet qui est sélectionné dans la console.
Pour élargir la portée des résultats de recherche au-delà des ressources du périmètre VPC Service Controls de votre projet, utilisez des règles d'entrée et de sortie VPC Service Controls. Ces règles favorisent un échange privé et efficace des données dans votre organisation. Vous pouvez configurer des règles d'entrée et de sortie au moyen de la consoleGoogle Cloud ou de fichiers JSON ou YAML. Reportez-vous à l'exemple YAML suivant et consultez la documentation sur VPC Service Controls pour adapter la règle à vos besoins particuliers.
egressPolicies:
- egressFrom:
identityType: ANY_USER_ACCOUNT
egressTo:
# Specify which resources should be present in the search results. In this example,
# BigQuery.
operations:
- methodSelectors:
- method: '*'
serviceName: bigquery.googleapis.com
# Specify project ids under which the search is performed.
resources:
- projects/SEARCH_PROJECT_ID
ingressPolicies:
- ingressFrom:
identityType: ANY_USER_ACCOUNT
sources:
- accessLevel: '*'
ingressTo:
# Specify which resources should be present in the search results. In this example,
# BigQuery.
operations:
- methodSelectors:
- method: '*'
serviceName: bigquery.googleapis.com
# Specify project ids to expose in search results.
resources:
- projects/INGRESS_PROJECT_ID
Pour en savoir plus sur les rôles Identity and Access Management (IAM) dont vous avez besoin pour utiliser la recherche Dataplex Universal Catalog, consultez Rôles IAM de Dataplex Universal Catalog.
Isoler les résultats de recherche par environnement à l'aide de VPC Service Controls
Pour isoler les résultats de recherche Dataplex Universal Catalog entre les différents environnements (développement, test et production, par exemple), configurez des périmètres VPC Service Controls distincts pour chaque environnement. Attribuez les projets contenant les éléments de données ainsi que les projets utilisés pour effectuer les recherches au périmètre de l'environnement correspondant. Les recherches effectuées à partir d'un projet inclus dans un périmètre spécifique ne renvoient que des résultats pour les éléments qui se trouvent également dans ce même périmètre.
Limites de rappel dans la recherche
Les requêtes de recherche Dataplex Universal Catalog ne garantissent pas un rappel complet. Des résultats correspondant à votre requête peuvent ne pas être affichés. En outre, les résultats affichés (et non affichés) peuvent varier si vous répétez des requêtes de recherche.
Pour interroger toutes les métadonnées Dataplex Universal Catalog, vous pouvez les exporter vers Cloud Storage, puis les interroger dans BigQuery. Pour en savoir plus, consultez Exporter les métadonnées.
Filtres
Les filtres vous permettent d'affiner les résultats de recherche. Les filtres sont disponibles dans les recherches par mots clés et en langage naturel, mais les options disponibles peuvent varier légèrement selon le mode.
Lorsque vous fournissez des filtres dans plusieurs sections, ils sont pris en compte selon l'opérateur logique AND
. Les résultats de recherche contiennent des ressources qui correspondent à au moins une condition de chaque section sélectionnée. Par exemple, si vous sélectionnez le système BigQuery et le type de ressource "Ensemble de données", les résultats de la recherche incluent les ensembles de données BigQuery, mais pas les ensembles de données Vertex AI.
Si vous sélectionnez plusieurs filtres dans une même section, ils sont pris en compte selon l'opérateur logique OR
. Par exemple, si vous sélectionnez le type de ressource "Ensemble de données" et le type de ressource "Table", les résultats de recherche incluent à la fois les ensembles de données et les tables.
Filtres de recherche par mots clés
Pour la recherche de mots clés, les filtres sont regroupés dans les sections suivantes :
- Les systèmes tels que BigQuery, Cloud SQL et d'autres. Le système Dataplex Universal Catalog contient des entrées personnalisées.
- La section Aspects (tags) liste tous les aspects à votre disposition.
- La section Projet liste tous les projets à votre disposition.
- Les alias de type décrivent les types de ressources, comme les bases de données, les ensembles de données, les modèles, les tables, les vues, les services et les types personnalisés.
- Les ensembles de données proviennent de BigQuery.
Filtrer par valeur d'aspect
Les filtres Aspects vous permettent de rechercher des éléments tagués à l'aide d'un modèle spécifique. Vous pouvez utiliser le menu Personnaliser pour affiner davantage les résultats et les filtrer par valeurs d'aspect spécifiques. Les conditions de filtre d'une valeur d'aspect dépendent du type de données de ce champ d'aspect. Par exemple, pour les champs datetime
et number
, vous pouvez spécifier une date ou une plage précises.
Affichage des filtres
Les filtres Systèmes, Alias de type, Projet et Ensembles de données s'affichent en fonction de la requête qui se trouve dans le champ Rechercher.
Filtres de recherche en langage naturel
Pour la recherche en langage naturel, les filtres suivants sont disponibles :
- Champ d'application : effectuez une recherche dans l'ensemble de l'organisation (par défaut), dans le projet actuel ou uniquement pour les ressources suivies. Pour en savoir plus, consultez la section Portée de la recherche de ce document.
- Systèmes : service Google Cloud auquel appartient la ressource, comme BigQuery. Le système Dataplex Universal Catalog contient des groupes d'entrées.
- Projets : projets dans lesquels effectuer la recherche.
- Type : type de ressource, comme une connexion BigQuery, un bucket Cloud Storage ou une base de données. Selon le type de ressource, vous pouvez également filtrer par sous-type, comme le type de connexion ou le dialecte SQL.
- Sélectionner des zones géographiques : les zones géographiques dans lesquelles effectuer la recherche.
- Sélectionner des ensembles de données : les résultats de recherche sont limités aux ressources BigQuery appartenant aux ensembles de données BigQuery sélectionnés. Dans le champ Saisissez le nom pour filtrer, saisissez le nom de l'ensemble de données.
- Types d'aspects : types d'aspects Dataplex Universal Catalog associés à la ressource que vous recherchez. Pour filtrer par valeurs d'aspect, cliquez sur Filtrer sur les valeurs d'annotation, puis sélectionnez les valeurs.
Avant de commencer
Avant d'effectuer une recherche, assurez-vous de disposer des rôles requis et d'avoir activé l'API nécessaire.
Rôles requis
Cette section décrit les rôles et les autorisations nécessaires pour rechercher des ressources et accéder aux résultats de recherche.
Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès.
Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.
Rôles requis pour rechercher des entrées
Pour rechercher des entrées, vous devez disposer d'au moins l'un des rôles IAM suivants au niveau du projet utilisé pour la recherche : administrateur de catalogue Dataplex, éditeur de catalogue Dataplex ou lecteur de catalogue Dataplex. Les autorisations applicables aux résultats de recherche sont vérifiées indépendamment du projet sélectionné.
Rôles requis pour accéder aux résultats de recherche
Les résultats de recherche dans Dataplex Universal Catalog dépendent de votre rôle. Pour rechercher un élément dans Dataplex Universal Catalog, vous devez disposer des autorisations nécessaires pour accéder à la ressource correspondante dans le système source. Pour en savoir plus, consultez la section Portée de la recherche de ce document.
Par exemple, pour rechercher des ensembles de données, des tables, des vues et des modèles BigQuery, vous devez disposer des autorisations correspondantes pour ces entrées. Pour en savoir plus, consultez Autorisations BigQuery.
La liste suivante reprend les autorisations minimales requises :
- Pour rechercher une table, vous devez disposer de l'autorisation
bigquery.tables.get
pour cette table. - Pour rechercher un ensemble de données, vous devez disposer de l'autorisation
bigquery.datasets.get
pour cet ensemble de données. - Pour rechercher les métadonnées d'un ensemble de données ou d'une table, vous devez disposer du rôle de lecteur de métadonnées BigQuery (
roles/bigquery.metadataViewer
).
De la même manière, pour rechercher des instances, des bases de données, des schémas, des tables et des vues Cloud SQL, vous devez disposer des autorisations correspondantes pour ces entrées. Pour en savoir plus, consultez Rôles et autorisations Cloud SQL.
Pour rechercher des entrées personnalisées, vous devez disposer du rôle de lecteur de catalogue Dataplex (roles/dataplex.catalogViewer
).
Activer l'API
Enable the Dataplex API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM
role (roles/serviceusage.serviceUsageAdmin
), which
contains the serviceusage.services.enable
permission. Learn how to grant
roles.
Rechercher des ressources
Console
Pour rechercher des ressources, procédez comme suit :
Dans la console Google Cloud , accédez à la page Rechercher de Dataplex Universal Catalog.
Pour Choisir une plate-forme de recherche, sélectionnez Dataplex Universal Catalog.
Sélectionner Dataplex Universal Catalog vous permet d'effectuer des recherches dans le stockage de métadonnées Dataplex Universal Catalog. Si vous êtes déjà un utilisateur de Data Catalog, vous pouvez sélectionner Data Catalog pour effectuer des recherches dans votre dépôt Data Catalog.
Pour utiliser la recherche par mot clé :
Dans le champ Rechercher des ressources dans plusieurs projets, saisissez votre requête.
Pour affiner votre recherche, utilisez le panneau Filtres. Pour obtenir la liste des filtres disponibles, consultez Filtres de recherche par mots clés.
Vous pouvez ajouter manuellement les filtres suivants :
- Ajouter un filtre de projet : dans Projet, cliquez sur Ajouter un projet. Recherchez un projet précis, sélectionnez-le, puis cliquez sur Ouvrir.
- Ajouter un filtre de type d'aspect : dans Aspects, cliquez sur le menu Ajouter d'autres types d'aspects. Recherchez un modèle précis, sélectionnez-le, puis cliquez sur OK.
Facultatif : En plus des éléments auxquels vous avez accès, vous pouvez rechercher des ressources accessibles publiquement dans Google Cloud en sélectionnant Inclure des ensembles de données publics.
Suivez les conseils ci-dessous pour créer une requête de recherche :
- Placez votre expression de recherche entre guillemets si elle contient des espaces (par exemple,
"search terms"
) - Ajoutez
NOT
devant un mot clé pour appliquer la négation logique du filtrekeyword:term
. Vous pouvez également utiliser les opérateurs booléensAND
etOR
pour combiner des expressions de recherche. Les opérateursAND
,OR
etNOT
ne sont pas sensibles à la casse.
Par exemple,
NOT column:term
liste toutes les colonnes, sauf celles qui correspondent au terme spécifié. Pour obtenir la liste des mots clés et autres termes que vous pouvez utiliser dans une expression de recherche Dataplex Universal Catalog, consultez la page Syntaxe de recherche.- Placez votre expression de recherche entre guillemets si elle contient des espaces (par exemple,
Pour utiliser la recherche en langage naturel, procédez comme suit :
Cliquez sur Essayer la recherche en langage naturel.
Dans le champ Rechercher des ressources dans plusieurs projets en langage naturel, saisissez votre requête en langage naturel, puis appuyez sur Entrée.
Voici quelques exemples de requêtes :
Show me the datasets that contain taxi information
Find data on vaccine distribution across different countries
Get tables with historical temperature data for major world cities
Search for hurricane tracking and storm activity datasets
Population data by country
Pour affiner votre recherche, cliquez sur Filtres. Pour obtenir la liste des filtres disponibles, consultez Filtres de recherche en langage naturel.
Pour afficher plus d'informations sur la ressource recherchée, cliquez sur son nom dans les résultats de recherche. La page des détails de l'entrée s'ouvre.
gcloud
Pour rechercher des ressources, utilisez la commande gcloud dataplex entries search
.
REST
Pour rechercher des ressources, utilisez la méthode searchEntries
.
Afficher les détails d'une entrée
Console
Utilisez la recherche Dataplex Universal Catalog pour afficher les détails d'une entrée.
Recherchez une entrée dans Dataplex Universal Catalog.
Dans les résultats de recherche, cliquez sur l'entrée dont vous souhaitez afficher les détails.
La page des détails de l'entrée s'ouvre. Elle comprend les sections suivantes :
- Détails de l'entrée : informations telles que le type d'entrée, le système, la plate-forme, le nom complet, la date et l'heure de création, la date et l'heure de la dernière modification, la description et les responsables.
- Aperçu : aperçu de l'entrée, si disponible.
- Aspects : aspects obligatoires et facultatifs définis pour l'entrée. Pour en savoir plus, consultez Catégories d'aspects.
gcloud
Pour afficher les détails d'une entrée, utilisez la commande gcloud dataplex entries lookup
.
REST
Pour afficher les détails d'une entrée, utilisez la méthode lookupEntry
.
Limites
Voici les limites de la recherche en langage naturel :
La recherche en langage naturel est optimisée pour la découverte et l'exploration. Elle renvoie un ensemble limité des résultats les plus pertinents. Il est possible qu'il ne fournisse pas une liste exhaustive de tous les éléments correspondants et qu'il ne soit donc pas adapté aux charges de travail qui en dépendent, comme les pipelines de curation.
La recherche en langage naturel ne prend en compte que les métadonnées des ressources, y compris les schémas, les descriptions et les aspects. Il ne répond pas aux questions sur les données contenues dans les tables (par exemple, "Quelles ont été les ventes du mois dernier ?") ni n'exécute de requêtes analytiques sur les métadonnées (par exemple, "Combien de tables contient l'ensemble de données X ?").
Les ressources publiques ne sont pas incluses dans le champ d'application de la recherche en langage naturel.
Étapes suivantes
- Approfondissez la syntaxe de recherche pour Dataplex Universal Catalog.
- Renseignez-vous sur la gestion des métadonnées dans Dataplex Universal Catalog.
- Découvrez comment enrichir des entrées avec des métadonnées à l'aide des aspects.
- Apprenez à gérer les entrées et ingérer des sources personnalisées.