Cette page a été traduite par l'API Cloud Translation.

Importer des métadonnées à l'aide d'un pipeline personnalisé

Ce document explique comment importer des métadonnées depuis un système tiers dans le catalogue universel Dataplex à l'aide des méthodes de l'API d'importation de métadonnées et de votre propre pipeline. Les métadonnées de Dataplex Universal Catalog se composent d'entrées et de leurs aspects.

Si vous souhaitez plutôt utiliser un pipeline d'orchestration géré par Google Cloudpour extraire et importer des métadonnées, nous vous suggérons d'utiliser un pipeline de connectivité géré. Avec un pipeline de connectivité géré, vous apportez votre propre connecteur qui extrait les métadonnées et génère une sortie dans un format pouvant être utilisé comme entrée par les méthodes d'API d'importation de métadonnées (le fichier d'importation de métadonnées). Vous utilisez ensuite Workflows pour orchestrer les tâches du pipeline.

Vous pouvez exécuter les types de tâches d'importation de métadonnées suivants :

Synchronisation complète des entrées avec importation incrémentielle de leurs aspects. Prise en charge des entrées personnalisées.
Importation incrémentielle des aspects uniquement. Prise en charge pour les aspects appartenant aux entrées personnalisées et aux entrées système. Pour les entrées personnalisées, vous pouvez modifier les aspects facultatifs et obligatoires. Pour les entrées système, vous pouvez modifier les aspects facultatifs.

Étapes majeures

Pour importer des métadonnées à l'aide de l'API d'importation de métadonnées, procédez comme suit :

Déterminez le champ d'application du job.

Découvrez également comment Dataplex Universal Catalog applique la logique de comparaison et le mode de synchronisation pour les entrées et les aspects.
Créez un ou plusieurs fichiers d'importation de métadonnées qui définissent les données à importer.
Enregistrez les fichiers d'importation de métadonnées dans un bucket Cloud Storage.
Exécutez un job d'importation de métadonnées.

Les étapes décrites sur cette page supposent que vous êtes familiarisé avec les concepts de métadonnées de Dataplex Universal Catalog, y compris les groupes d'entrées, les types d'entrées et les types d'aspects. Pour en savoir plus, consultez À propos de la gestion du catalogue de données dans Dataplex Universal Catalog.

Avant de commencer

Avant d'importer des métadonnées, effectuez les tâches décrites dans cette section.

Rôles requis

Pour vous assurer que le compte de service Dataplex Universal Catalog dispose des autorisations nécessaires pour accéder au bucket Cloud Storage, demandez à votre administrateur d'accorder au compte de service Dataplex Universal Catalog le rôle IAM Lecteur des objets Storage (roles/storage.objectViewer) et l'autorisation storage.buckets.get sur le bucket.

Pour obtenir les autorisations nécessaires pour gérer les jobs d'importation de métadonnées, demandez à votre administrateur de vous accorder les rôles IAM suivants :

Modifiez les entrées et leurs aspects dans un job de métadonnées de synchronisation complète des entrées :
- Utilisateur du type d'entrée Dataplex (roles/dataplex.entryTypeUser) sur le type d'entrée ou le projet dans lequel le type d'entrée est défini
- Utilisateur du type d'aspect Dataplex (roles/dataplex.aspectTypeUser) sur le type d'aspect ou le projet dans lequel le type d'aspect est défini
Modifiez les aspects requis dans un job de métadonnées "aspects uniquement" :
- Utilisateur du type d'entrée Dataplex (roles/dataplex.entryTypeUser) sur le type d'entrée ou le projet dans lequel le type d'entrée est défini
- Utilisateur du type d'aspect Dataplex (roles/dataplex.aspectTypeUser) sur le type d'aspect ou le projet dans lequel le type d'aspect est défini
Modifiez les aspects facultatifs dans un job de métadonnées d'aspect uniquement : Utilisateur du type d'aspect Dataplex (roles/dataplex.aspectTypeUser) sur le type d'aspect ou le projet dans lequel le type d'aspect est défini. Notez que lorsque vous modifiez des aspects facultatifs dans un job de métadonnées d'aspect uniquement, vous n'avez pas besoin d'autorisations pour le type d'entrée associé.
Créez des tâches d'importation de métadonnées :
- Importateur de groupe d'entrées Dataplex (roles/dataplex.entryGroupImporter) sur le projet ou la ressource
- Propriétaire d'entrées Dataplex (roles/dataplex.entryOwner) au niveau du projet ou de la ressource
Afficher les jobs de métadonnées : Lecteur de jobs de métadonnées Dataplex (roles/dataplex.metadataJobViewer) sur le projet
Créer, afficher et annuler des jobs de métadonnées : Propriétaire de jobs de métadonnées Dataplex (roles/dataplex.metadataJobOwner) sur le projet

Pour en savoir plus sur l'attribution de rôles, consultez Gérer l'accès aux projets, aux dossiers et aux organisations.

Vous pouvez également obtenir les autorisations requises avec des rôles personnalisés ou d'autres rôles prédéfinis.

Créer des ressources Google Cloud

Préparez les ressources suivantes : Google Cloud

Créez un groupe d'entrées pour les entrées que vous souhaitez importer.
Créez des types d'aspects pour les aspects que vous souhaitez importer.
Créez des types d'entrée pour les entrées que vous souhaitez importer.
Si vous exécutez un job de métadonnées d'aspect uniquement, créez des entrées pour les aspects que vous souhaitez importer.
Créez un bucket Cloud Storage pour stocker vos fichiers d'importation de métadonnées.

Composants d'un job d'importation de métadonnées

Lorsque vous importez des métadonnées, tenez compte des composants suivants d'un job de métadonnées :

Champ d'application du job : groupe d'entrées, types d'entrées et types d'aspects à inclure dans le job.
Mode de synchronisation : façon dont les entrées et les aspects du job sont mis à jour.
Fichier d'importation des métadonnées : fichier qui définit les valeurs à définir pour les entrées et les aspects du job. Vous pouvez fournir plusieurs fichiers d'importation de métadonnées dans le même job de métadonnées. Vous enregistrez les fichiers dans Cloud Storage.
Logique de comparaison : comment Dataplex Universal Catalog détermine les entrées et les aspects à modifier.

Champ d'application du job

Le champ d'application du job définit le groupe d'entrées, les types d'entrées et les types d'aspects que vous souhaitez inclure dans un job d'importation de métadonnées. Lorsque vous importez des métadonnées, vous modifiez les entrées et les aspects qui appartiennent aux ressources dans le champ d'application du job.

Pour définir le champ d'application du job, suivez ces consignes :

Groupe d'entrées : spécifiez un seul groupe d'entrées à inclure dans le job. Le job ne modifie que les entrées et les aspects qui appartiennent à ce groupe d'entrées. Le groupe d'entrées et le job doivent se trouver dans la même région.
Types d'entrées : spécifiez un ou plusieurs types d'entrées à inclure dans le job. Le job ne modifie que les entrées et les aspects appartenant à ces types d'entrées. L'emplacement d'un type d'entrée doit correspondre à celui du job ou le type d'entrée doit être global.
Types d'aspect : spécifiez un ou plusieurs types d'aspect à inclure dans le job. Le job ne modifie que les aspects appartenant à ces types d'aspects. L'emplacement d'un type d'aspect doit correspondre à celui du poste ou le type d'aspect doit être global.

Le champ d'application du job doit inclure tous les types d'entrées et d'aspects que vous spécifiez dans le fichier d'importation des métadonnées.

Vous spécifiez le champ d'application du job lorsque vous créez un job de métadonnées.

Mode de synchronisation

Le mode de synchronisation spécifie la manière dont les entrées et les aspects d'une tâche d'importation de métadonnées sont mis à jour. Vous fournissez un mode de synchronisation pour les entrées et les aspects. Les combinaisons de modes de synchronisation suivantes sont acceptées, selon les ressources que vous souhaitez importer.

Objectif Mode de synchronisation des entrées Mode de synchronisation des proportions Résultats

Importer des entrées et leurs aspects

Objectif	Mode de synchronisation des entrées	Mode de synchronisation des proportions	Résultats
Importer des entrées et leurs aspects	`FULL`	`INCREMENTAL`	Toutes les entrées du champ d'application du job sont modifiées. Si une entrée existe dans Dataplex Universal Catalog, mais n'est pas incluse dans le fichier d'importation des métadonnées, elle est supprimée lorsque vous exécutez le job de métadonnées. Un aspect n'est modifié que si le fichier d'importation des métadonnées inclut une référence à l'aspect dans le champ `updateMask` et le champ `aspectKeys`. Consultez Structure d'un élément d'importation.
Importer uniquement les aspects	`NONE`	`INCREMENTAL`	Les aspects sont modifiés s'ils font partie du champ d'application du job et si le fichier d'importation des métadonnées inclut une référence aux aspects dans le champ `aspectKeys`. Consultez Structure d'un élément d'importation. Les autres métadonnées appartenant aux entrées du champ d'application du job ne sont pas modifiées.

FULL

INCREMENTAL

Toutes les entrées du champ d'application du job sont modifiées.

Si une entrée existe dans Dataplex Universal Catalog, mais n'est pas incluse dans le fichier d'importation des métadonnées, elle est supprimée lorsque vous exécutez le job de métadonnées.

Un aspect n'est modifié que si le fichier d'importation des métadonnées inclut une référence à l'aspect dans le champ updateMask et le champ aspectKeys. Consultez Structure d'un élément d'importation.

Importer uniquement les aspects

NONE

INCREMENTAL

Les aspects sont modifiés s'ils font partie du champ d'application du job et si le fichier d'importation des métadonnées inclut une référence aux aspects dans le champ aspectKeys. Consultez Structure d'un élément d'importation.

Les autres métadonnées appartenant aux entrées du champ d'application du job ne sont pas modifiées.

Vous spécifiez le mode de synchronisation lorsque vous créez un job de métadonnées.

Fichier d'importation des métadonnées

Le fichier d'importation des métadonnées est un ensemble d'entrées et d'aspects que vous souhaitez modifier. Il définit les valeurs à définir pour tous les champs appartenant à ces entrées et aspects. Vous devez préparer le fichier avant d'exécuter un job d'importation de métadonnées.

Voici les consignes générales à respecter :

Vous pouvez fournir plusieurs fichiers d'importation de métadonnées dans le même job de métadonnées.
Lorsque vous exécutez un job de synchronisation complète des métadonnées des entrées, les entrées que vous fournissez dans le fichier remplacent complètement toutes les entrées existantes pour toutes les ressources qui se trouvent dans le champ d'application du job. Cela signifie que vous devez inclure des valeurs pour toutes les entrées d'un job, et pas seulement celles que vous souhaitez ajouter ou mettre à jour. Pour obtenir la liste des entrées actuelles de votre projet et l'utiliser comme point de départ, utilisez la méthode d'API entries.list.

Attention : Si une entrée existe dans Dataplex Universal Catalog, mais n'est pas incluse dans le fichier d'importation des métadonnées, elle est supprimée lorsque vous exécutez le job de métadonnées. Si le fichier d'importation des métadonnées ne contient aucune donnée, toutes les entrées et tous les aspects appartenant au champ d'application du job sont supprimés.
Vous devez fournir un fichier d'importation de métadonnées dans le cadre d'un job de métadonnées. Si vous souhaitez supprimer toutes les données existantes pour les entrées qui se trouvent dans le champ d'application du job, fournissez un fichier d'importation de métadonnées vide.
Toutes les entrées et tous les aspects que vous incluez dans le fichier doivent appartenir aux groupes d'entrées, aux types d'entrées et aux types d'aspects que vous définissez dans le champ d'application du job.

Utilisez les consignes détaillées des sections suivantes pour créer un fichier d'importation de métadonnées.

Structure du fichier

Chaque ligne du fichier d'importation des métadonnées contient un objet JSON qui correspond à un élément d'importation. Un élément d'importation est un objet qui décrit les valeurs à modifier pour une entrée et ses aspects associés.

Vous pouvez fournir plusieurs éléments d'importation dans un même fichier d'importation de métadonnées. Toutefois, ne fournissez pas le même élément d'importation plusieurs fois dans une tâche de métadonnées. Utilisez un caractère de retour à la ligne (0x0a) pour séparer chaque élément à importer.

Un fichier d'importation de métadonnées avec un caractère de nouvelle ligne entre chaque élément d'importation ressemble à l'exemple suivant :

{ "entry": { "name": "entry 1", #Information about entry 1 }
{ "entry": { "name": "entry 2", #Information about entry 2 }

Structure d'un élément d'importation

Chaque élément d'importation du fichier d'importation de métadonnées peut inclure les champs suivants (voir ImportItem). L'exemple suivant est mis en forme avec des sauts de ligne pour des raisons de lisibilité, mais lorsque vous enregistrez le fichier, n'incluez un caractère de nouvelle ligne qu'après chaque élément d'importation. N'insérez pas de saut de ligne entre les champs d'un même élément d'importation.

{
  "entry": {
    "name": "ENTRY_NAME",
    "entryType": "ENTRY_TYPE",
    "entrySource": {
      "resource": "RESOURCE",
      "system": "SYSTEM",
      "platform": "PLATFORM",
      "displayName": "DISPLAY_NAME",
      "description": "DESCRIPTION",
      "createTime": "ENTRY_CREATE_TIMESTAMP",
      "updateTime": "ENTRY_UPDATE_TIMESTAMP"
    },
    "aspects": {
      "ASPECT": {
        "data": {
          "KEY": "VALUE"
        },
        "aspectSource": {
          "createTime": "ASPECT_CREATE_TIMESTAMP",
          "updateTime": "ASPECT_UPDATE_TIMESTAMP"
        }
      },
      # Additional aspect maps
    },
    "parentEntry": "PARENT_ENTRY",
    "fullyQualifiedName": "FULLY_QUALIFIED_NAME"
  },
  "updateMask": "UPDATE_MASK_FIELDS",
  "aspectKeys": [
    "ASPECT_KEY",
    # Additional aspect keys
  ],
}

Remplacez les éléments suivants :

entry : informations sur une entrée et ses aspects associés. Dans un job d'importation de métadonnées d'aspect uniquement, Dataplex Universal Catalog ignore tous les champs facultatifs d'une entrée, à l'exception des mappages d'aspect.
- ENTRY_NAME : nom de ressource relatif de l'entrée, au format projects/PROJECT_ID_OR_NUMBER/locations/LOCATION_ID/entryGroups/ENTRY_GROUP_ID/entries/ENTRY_ID.
- ENTRY_TYPE : nom de ressource relatif du type d'entrée utilisé pour créer cette entrée, au format projects/PROJECT_ID_OR_NUMBER/locations/LOCATION_ID/entryTypes/ENTRY_TYPE_ID.
- entrySource : informations du système source sur la ressource de données représentée par l'entrée :
  - RESOURCE : nom de la ressource dans le système source.
  - SYSTEM : nom du système source.
  - PLATFORM : plate-forme contenant le système source.
  - DISPLAY_NAME : nom à afficher facile à utiliser.
  - DESCRIPTION : description de l'entrée.
  - ENTRY_CREATE_TIMESTAMP : heure à laquelle l'entrée a été créée dans le système source.
  - ENTRY_UPDATE_TIMESTAMP : heure à laquelle l'entrée a été mise à jour dans le système source.
- aspects : aspects associés à l'entrée. L'objet aspect et ses données sont appelés "carte d'aspect".
  - ASPECT : aspect associé à l'entrée. Selon la façon dont l'aspect est associé à l'entrée, utilisez l'un des formats suivants :
    - Si l'aspect est directement associé à l'entrée, indiquez le nom de ressource relatif de son type d'aspect, au format PROJECT_ID_OR_NUMBER.LOCATION_ID.ASPECT_TYPE_ID.
    - Si l'aspect est associé au chemin d'accès de l'entrée, indiquez le chemin d'accès du type d'aspect, au format PROJECT_ID_OR_NUMBER.LOCATION_ID.ASPECT_TYPE_ID@PATH.
  - KEY et VALUE : contenu de l'aspect, selon son modèle de métadonnées de type d'aspect. Le contenu doit être encodé au format UTF-8. La taille maximale du champ est de 120 Ko. Le dictionnaire data est obligatoire, même s'il est vide.
  - ASPECT_CREATE_TIMESTAMP : heure à laquelle l'aspect a été créé dans le système source.
  - ASPECT_UPDATE_TIMESTAMP : heure à laquelle l'aspect a été mis à jour dans le système source.
- PARENT_ENTRY : nom de ressource de l'entrée parente.
- FULLY_QUALIFIED_NAME : nom de l'entrée pouvant être référencé par un système externe. Consultez Noms complets.
UPDATE_MASK_FIELDS : champs à mettre à jour, dans des chemins d'accès relatifs à la ressource Entry. Séparez chaque champ par une virgule.

Dans un job de synchronisation complète des entrées, Dataplex Universal Catalog inclut les chemins d'accès de tous les champs d'une entrée qui peuvent être modifiés, y compris les aspects. Le champ updateMask est ignoré lorsqu'une entrée est créée ou recréée.

Dans un job de métadonnées d'aspect uniquement, définissez cette valeur sur aspects.
ASPECT_KEY : aspects à modifier. Accepte les syntaxes suivantes :
- ASPECT_TYPE_REFERENCE : correspond au type d'aspect pour les aspects directement associés à l'entrée.
- ASPECT_TYPE_REFERENCE@PATH : correspond au type d'aspect et au chemin spécifié.
- ASPECT_TYPE_REFERENCE@* : correspond au type d'aspect pour tous les chemins d'accès.
- *@PATH : correspond à tous les types d'aspects sur le chemin spécifié.
Remplacez ASPECT_TYPE_REFERENCE par une référence au type d'aspect, au format PROJECT_ID_OR_NUMBER.LOCATION_ID.ASPECT_TYPE_ID.

Dans une tâche de synchronisation d'entrée complète, si vous laissez ce champ vide, il est considéré comme spécifiant exactement les aspects présents dans l'entrée spécifiée. Dataplex Universal Catalog ajoute implicitement les clés de tous les aspects requis d'une entrée.

Exigences pour les fichiers

Le fichier d'importation des métadonnées doit répondre aux exigences suivantes :

Le fichier doit être au format JSON Lines, qui est un fichier JSON délimité par des retours à la ligne. Utilisez un caractère de retour à la ligne (0x0a) pour séparer chaque élément d'importation.
Le fichier doit utiliser l'encodage de caractères UTF-8.
Les extensions de fichier acceptées sont .jsonl et .json.
La taille de chaque fichier d'importation de métadonnées doit être inférieure à 1 Gio. La taille totale maximale de toutes les données du job de métadonnées est de 3 Go. Cela inclut tous les fichiers et métadonnées associés au job.
Les types d'entrées et d'aspects que vous spécifiez dans le fichier doivent faire partie du champ d'application du job de métadonnées.
Il doit être importé dans un bucket Cloud Storage. N'enregistrez pas le fichier dans un dossier nommé CLOUD_STORAGE_URI/deletions/.

Logique de comparaison

Dataplex Universal Catalog détermine les entrées et les aspects à modifier en comparant les valeurs et les codes temporels que vous fournissez dans le fichier d'importation de métadonnées avec les valeurs et les codes temporels qui existent dans votre projet.

En résumé, Dataplex Universal Catalog met à jour les valeurs de votre projet lorsqu'au moins une modification proposée dans le fichier d'importation de métadonnées changera l'état de votre projet lors de l'exécution du job, sans introduire de données obsolètes. La modification proposée doit être référencée dans le champ "Masque de mise à jour" ou dans le champ "Clés d'aspect" du fichier d'importation des métadonnées.

La logique de comparaison varie en fonction du type de job d'importation de métadonnées que vous exécutez.

Tâche de synchronisation complète des entrées

Dans un job de synchronisation complète des métadonnées d'entrée, pour chaque entrée faisant partie du champ d'application du job, Dataplex Universal Catalog effectue l'une des opérations suivantes :

Crée une entrée et les aspects associés. Si le fichier d'importation de métadonnées inclut une entrée qui n'existe pas dans votre projet, Dataplex Universal Catalog crée l'entrée et les aspects associés.
Supprime une entrée et les aspects associés. Si une entrée existe dans votre projet, mais que le fichier d'importation de métadonnées ne l'inclut pas, Dataplex Universal Catalog supprime l'entrée et les aspects qui y sont associés de votre projet.
Met à jour une entrée et les aspects associés. Si une entrée existe à la fois dans le fichier d'importation de métadonnées et dans votre projet, Dataplex Universal Catalog évalue les codes temporels de la source de l'entrée et les codes temporels de la source de l'aspect associés à l'entrée pour déterminer les valeurs à modifier. Ensuite, Dataplex Universal Catalog effectue une ou plusieurs des actions suivantes :
- Recrée l'entrée. Si le code temporel de création de la source d'entrée dans le fichier d'importation de métadonnées est plus récent que le code temporel correspondant dans votre projet, Dataplex Universal Catalog recrée l'entrée dans votre projet.
- Met à jour l'entrée. Si le code temporel de mise à jour de la source de l'entrée dans le fichier d'importation de métadonnées est plus récent que le code temporel correspondant dans votre projet, Dataplex Universal Catalog met à jour l'entrée dans votre projet.
- Crée un aspect. Si un aspect n'existe pas dans votre projet et qu'il est inclus dans un champ de masque de mise à jour, un champ de clés d'aspect et un fichier d'importation de métadonnées, Dataplex Universal Catalog crée l'aspect.
- Supprime un aspect. Si un aspect existe dans votre projet et est inclus dans le champ du masque de mise à jour et dans le champ des clés d'aspect du fichier d'importation de métadonnées, mais qu'il n'est pas inclus dans une carte d'aspect, Dataplex Universal Catalog le supprime.
- Met à jour un aspect. Si un aspect existe dans votre projet et est inclus dans un fichier de mappage des aspects, dans le champ du masque de mise à jour et dans le champ des clés d'aspect du fichier d'importation de métadonnées, et que l'horodatage de mise à jour de la source de l'aspect dans le fichier d'importation de métadonnées est plus récent que l'horodatage correspondant dans votre projet, le catalogue universel Dataplex met à jour l'aspect.
  
  Si un code temporel de mise à jour de la source d'aspect n'est pas fourni dans le fichier d'importation des métadonnées, mais que l'entrée correspondante est marquée pour une mise à jour, Dataplex Universal Catalog met également à jour l'aspect.
  
  Toutefois, si au moins un aspect du fichier d'importation de métadonnées présente un code temporel plus ancien que le code temporel correspondant dans votre projet, Dataplex Universal Catalog n'apporte aucune modification à l'entrée associée.

Tâche d'aspect uniquement

Dans un job de métadonnées "aspect uniquement", pour chaque aspect inclus dans le champ d'application du job, Dataplex Universal Catalog effectue l'une des opérations suivantes :

Crée un aspect. Si un aspect n'existe pas dans votre projet et qu'il est inclus dans un champ de masque de mise à jour, un champ de clés d'aspect et un fichier d'importation de métadonnées, Dataplex Universal Catalog crée l'aspect.
Supprime un aspect. Pour les aspects facultatifs, si l'aspect existe dans votre projet et est inclus dans le champ "Masque de mise à jour" et le champ "Clés d'aspect" du fichier d'importation de métadonnées, mais n'est pas inclus dans une carte d'aspect, Dataplex Universal Catalog le supprime.

Vous ne pouvez pas supprimer les aspects requis.
Met à jour un aspect. Si un aspect existe dans votre projet et est inclus dans un fichier de mappage des aspects, dans le champ du masque de mise à jour et dans le champ des clés d'aspect du fichier d'importation de métadonnées, et que l'horodatage de mise à jour de la source de l'aspect dans le fichier d'importation de métadonnées est plus récent que l'horodatage correspondant dans votre projet, le catalogue universel Dataplex met à jour l'aspect.

Si un code temporel de mise à jour de la source d'aspect n'est pas fourni dans le fichier d'importation des métadonnées, Dataplex Universal Catalog met également à jour l'aspect.

Dataplex Universal Catalog met à jour les aspects en fonction du code temporel de mise à jour de la source de l'aspect, quel que soit le code temporel de mise à jour de la source de l'entrée correspondante.

Créer un fichier d'importation de métadonnées

Avant d'importer des métadonnées, créez un fichier d'importation de métadonnées pour votre job. Procédez comme indiqué ci-dessous.

Préparez un fichier d'importation de métadonnées en suivant les consignes décrites précédemment dans ce document.
Importez le fichier dans un bucket Cloud Storage.

Vous pouvez fournir plusieurs fichiers d'importation de métadonnées dans le même job de métadonnées. Pour fournir plusieurs fichiers, enregistrez-les dans le même bucket Cloud Storage. Lorsque vous exécutez le job, vous spécifiez un bucket, et non un fichier spécifique. Dataplex Universal Catalog importe les métadonnées de tous les fichiers enregistrés dans le bucket, y compris ceux qui se trouvent dans des sous-dossiers.

Exécuter un job d'importation de métadonnées

Une fois que vous avez créé un fichier d'importation de métadonnées, exécutez un job d'importation de métadonnées à l'aide de l'API.

REST

Pour importer des métadonnées, utilisez la méthode metadataJobs.create.

Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :

PROJECT_NUMBER : numéro ou ID de votre projet Google Cloud .
LOCATION_ID : emplacement Google Cloud , par exemple us-central1.
METADATA_JOB_ID : Facultatif. ID du job de métadonnées.
CLOUD_STORAGE_URI : URI du bucket ou du dossier Cloud Storage contenant les fichiers d'importation de métadonnées. Pour en savoir plus sur les exigences concernant les fichiers, consultez Fichier d'importation des métadonnées.
ENTRY_GROUP : nom de ressource relatif du groupe d'entrées concerné par le job, au format projects/PROJECT_ID_OR_NUMBER/locations/LOCATION_ID/entryGroups/ENTRY_GROUP_ID. Ne fournissez qu'un seul groupe d'entrées. Pour en savoir plus, consultez Champ d'application des jobs.
ENTRY_TYPE : nom de ressource relatif d'un type d'entrée inclus dans le champ d'application du job, au format projects/PROJECT_ID_OR_NUMBER/locations/LOCATION_ID/entryTypes/ENTRY_TYPE_ID. Pour en savoir plus, consultez Champ d'application des jobs.
ASPECT_TYPE : nom de ressource relatif d'un type d'aspect qui est dans le champ d'application du job, au format projects/PROJECT_ID_OR_NUMBER/locations/LOCATION_ID/aspectTypes/ASPECT_TYPE_ID. Facultatif lors de la création d'un job de synchronisation d'entrée complète, obligatoire lors de la création d'un job d'aspect uniquement. Pour en savoir plus, consultez Champ d'application des jobs.
ENTRY_SYNC_MODE : mode de synchronisation des entrées, tel que FULL ou NONE. Pour en savoir plus, consultez Mode synchronisation.
LOG_LEVEL : niveau des journaux à capturer, tel que INFO ou DEBUG. Pour en savoir plus, consultez Afficher les journaux des jobs et résoudre les problèmes.

Méthode HTTP et URL :

POST https://dataplex.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION_ID/metadataJobs?metadataJobId=METADATA_JOB_ID

Corps JSON de la requête :

{
  "type": IMPORT,
  "import_spec": {
    "source_storage_uri": "gs://CLOUD_STORAGE_URI/",
    "scope": {
      "entryGroups": [
        "ENTRY_GROUP"
      ],
      "entry_types": [
        "ENTRY_TYPE"
      ],
      "aspect_types": [
        "ASPECT_TYPE"
      ]
    },
    "entry_sync_mode": ENTRY_SYNC_MODE,
    "aspect_sync_mode": INCREMENTAL,
    "log_level": LOG_LEVEL
  }
}

Pour envoyer votre requête, développez l'une des options suivantes :

curl (Linux, macOS ou Cloud Shell)

Remarque : La commande suivante suppose que vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login, ou en utilisant Cloud Shell, qui vous connecte automatiquement à la CLI gcloud. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://dataplex.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION_ID/metadataJobs?metadataJobId=METADATA_JOB_ID"

PowerShell (Windows)

Remarque : La commande suivante suppose que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://dataplex.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION_ID/metadataJobs?metadataJobId=METADATA_JOB_ID" | Select-Object -Expand Content

La réponse identifie une opération de longue durée.

Obtenir des informations sur un job de métadonnées

Pour obtenir des informations sur un job de métadonnées, comme son état et le nombre d'entrées modifiées, procédez comme suit. Pour savoir comment résoudre les problèmes liés à un job ayant échoué, consultez la section Afficher les journaux de job et résoudre les problèmes de ce document.

REST

Pour obtenir des informations sur un job de métadonnées, utilisez la méthode metadataJobs.get.

Obtenir la liste des jobs de métadonnées

Vous pouvez obtenir la liste des tâches de métadonnées les plus récentes. Les anciens jobs qui ont atteint un état final sont régulièrement supprimés du système.

REST

Pour obtenir la liste des tâches de métadonnées les plus récentes, utilisez la méthode metadataJobs.list.

Annuler un job de métadonnées

Vous pouvez annuler une tâche de métadonnées que vous ne souhaitez pas exécuter.

REST

Pour annuler un job de métadonnées, utilisez la méthode metadataJobs.cancel.

Afficher les journaux de jobs et résoudre les problèmes

Utilisez Cloud Logging pour afficher les journaux d'un job de métadonnées. Pour en savoir plus, consultez Surveiller les journaux Dataplex Universal Catalog.

Vous configurez le niveau de journalisation lorsque vous créez un job de métadonnées. Les niveaux de journaux suivants sont disponibles :

INFO : fournit des journaux au niveau global du job. Inclut les journaux agrégés sur les éléments importés, mais ne précise pas quel élément importé comporte une erreur.
DEBUG : fournit des journaux détaillés pour chaque élément importé. Utilisez la journalisation au niveau du débogage pour résoudre les problèmes liés à des éléments d'importation spécifiques. Par exemple, utilisez la journalisation au niveau du débogage pour identifier les ressources manquantes dans le champ d'application du job, les entrées ou les aspects qui ne sont pas conformes au type d'entrée ou au type d'aspect associés, ou d'autres erreurs de configuration avec le fichier d'importation des métadonnées.

Remarque : Selon la taille de votre job de métadonnées et le nombre de journaux générés, la journalisation au niveau du débogage peut entraîner des coûts supplémentaires. Pour en savoir plus, consultez les tarifs de Google Cloud Observability.

Erreurs de validation

Dataplex Universal Catalog valide les fichiers d'importation de métadonnées par rapport aux métadonnées actuelles de votre projet. En cas de problème de validation, l'état du job peut renvoyer l'un des états suivants :

FAILED : se produit lorsque le fichier d'importation des métadonnées comporte une erreur. Dataplex Universal Catalog n'importe aucune métadonnée et le job échoue. Voici quelques exemples d'erreurs dans le fichier d'importation des métadonnées :
- Impossible d'analyser un élément du fichier en tant qu'élément d'importation valide
- Une entrée ou un aspect du fichier appartient à un groupe d'entrées, à un type d'entrée ou à un type d'aspect qui ne fait pas partie du champ d'application du job.
- Le même nom d'entrée est spécifié plusieurs fois dans le job.
- Un type d'aspect spécifié dans une carte d'aspect ou les clés d'aspect n'utilise pas le format PROJECT_ID_OR_NUMBER.LOCATION_ID.ASPECT_TYPE_ID@OPTIONAL_PATH.
- Un aspect obligatoire est marqué pour suppression
SUCCEEDED_WITH_ERRORS : se produit lorsque le fichier d'importation de métadonnées peut être analysé avec succès, mais que l'importation d'un élément du fichier entraînerait un état incohérent pour une entrée de votre projet. Dataplex Universal Catalog ignore ces entrées, mais importe le reste des métadonnées du fichier.

Utilisez les journaux de tâches pour résoudre l'erreur.

Importer des métadonnées à l'aide d'un pipeline personnalisé Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Étapes majeures

Avant de commencer

Rôles requis

Créer des ressources Google Cloud

Composants d'un job d'importation de métadonnées

Champ d'application du job

Mode de synchronisation

Fichier d'importation des métadonnées

Structure du fichier

Structure d'un élément d'importation

Exigences pour les fichiers

Logique de comparaison

Tâche de synchronisation complète des entrées

Tâche d'aspect uniquement

Créer un fichier d'importation de métadonnées

Exécuter un job d'importation de métadonnées

REST

curl (Linux, macOS ou Cloud Shell)

PowerShell (Windows)

Obtenir des informations sur un job de métadonnées

REST

Obtenir la liste des jobs de métadonnées

REST

Annuler un job de métadonnées

REST

Afficher les journaux de jobs et résoudre les problèmes

Erreurs de validation

Étapes suivantes

Importer des métadonnées à l'aide d'un pipeline personnalisé