Suivre la traçabilité des artefacts de pipelines

Chaque exécution de pipeline créée à l'aide de Vertex AI Pipelines est associée à plusieurs artefacts et paramètres, tels que des modèles, des ensembles de données, des modèles de pipeline et des composants. La traçabilité d'un artefact de pipeline inclut les facteurs qui ont contribué à sa création, ainsi que les artefacts et les métadonnées dérivés de cet artefact. Par exemple, la traçabilité d'un modèle peut inclure les éléments suivants :

  • Données d'entraînement, de test et d'évaluation utilisées pour créer le modèle

  • Hyperparamètres utilisés lors de l'entraînement du modèle

  • Métadonnées enregistrées à partir du processus d'entraînement et d'évaluation, telles que la justesse du modèle

  • Artefacts descendant de ce modèle, tels que les résultats des prédictions par lot

Ces métadonnées peuvent vous aider à répondre aux questions suivantes :

  • pourquoi une certaine exécution de pipeline a-t-elle généré un modèle particulièrement précis ?

  • quelle exécution de pipeline a produit le modèle le plus précis et quels hyperparamètres ont été utilisés pour entraîner le modèle ?

  • En fonction des étapes de votre pipeline, vous pourrez peut-être répondre aux questions de gouvernance du système. Par exemple, vous pouvez utiliser les métadonnées pour déterminer quelle version de votre modèle a été en production à un moment donné.

Pour afficher et analyser la traçabilité des artefacts de pipelines, vous pouvez utiliser Vertex ML Metadata ou Dataplex.

Le tableau suivant décrit les différences entre Vertex ML Metadata et Dataplex :

Fonctionnalité Vertex ML Metadata Dataplex
Types de métadonnées de pipeline recueillis Tous les artefacts d'entrée et de sortie générés par une exécution de pipeline Artefacts d'entrée et de sortie pouvant être mappés à des noms complets acceptés par Dataplex, généralement à l'aide des composants du pipeline Google Cloud.
Zone géographique Lectures dans une seule région Lectures globales, c'est-à-dire dans plusieurs régions
Projets Lectures dans un seul projet Lectures à l'échelle de l'organisation dans plusieurs projets
Services intégrés Intégration à Vertex AI Pipelines, Vertex AI Experiments, Vertex AI Model Registry et aux ensembles de données. Intégration à plusieurs produits Google Cloud, tels que Vertex AI, BigQuery, Cloud Composer et Dataproc.
Activation ? Non, toujours activé Activez l'API Data Lineage pour activer l'option par projet.

Mapper les artefacts Vertex ML Metadata dans Dataplex

Pour mapper des artefacts Vertex ML Metadata avec des noms complets dans Dataplex, procédez comme suit :

  • Utilisez les composants du pipeline Google Cloud lors de la création de modèles Vertex AI et d'ensembles de données gérés.

  • Utilisez des titres de schéma personnalisés (google.VertexDataset ou google.VertexModel) tout en spécifiant le nom de ressource du modèle ou de l'ensemble de données géré dans le champ metadata, comme illustré dans l'exemple suivant :

{
  "name": "projects/example-project/locations/us-central1/metadataStores/default/artifacts/example-artifact",
  "displayName": "My dataset",
  "uri": "https://us-central1-aiplatform.googleapis.com/v1/projects/example-project/locations/us-central1/datasets/example-dataset",
   ...
  "schemaTitle": "google.VertexDataset",
  "schemaVersion": "0.0.1",
  "metadata": {
    "resourceName": "projects/example-project/locations/us-central1/datasets/example-dataset"
  }
}

Analyser la traçabilité des artefacts de pipelines à l'aide de Vertex ML Metadata

Lorsque vous exécutez un pipeline à l'aide de Vertex AI Pipelines, les artefacts et les paramètres de votre exécution de pipeline sont stockés à l'aide de Vertex ML Metadata. Vertex ML Metadata facilite l'analyse de la traçabilité des artefacts de votre pipeline en vous épargnant la difficulté de suivre ses métadonnées.

Si vous débutez avec Vertex ML Metadata, consultez la page Présentation de Vertex ML Metadata.

Suivez les instructions ci-dessous pour afficher le graphique de traçabilité d'un artefact de pipeline à l'aide de Vertex ML Metadata :

  1. Dans la section Vertex AI de la console Google Cloud, accédez à la page Métadonnées.

    Accéder à la page "Métadonnées"

    La page "Métadonnées" répertorie les artefacts créés dans le magasin de métadonnées par défaut.

  2. Dans la liste déroulante Région, sélectionnez la région dans laquelle votre exécution a été créée.

  3. Cliquez sur le nom à afficher d'un artefact pour afficher son graphique de traçabilité.

    Un graphique statique montrant les artefacts et les exécutions faisant partie de ce graphe de traçabilité s'affiche.

  4. Cliquez sur un artefact ou une exécution pour en savoir plus à son sujet.

Analyser la traçabilité des artefacts de pipelines à l'aide de Dataplex

Dataplex Data Catalog détecte les métadonnées des ressources Google Cloud, qui incluent des artefacts Vertex AI Pipelines tels que des modèles Vertex AI, des ensembles de données gérés et d'autres ressources Google Cloud visibles dans Data Catalog. Vous pouvez découvrir ces artefacts à l'aide de la fonctionnalité de recherche de métadonnées de Data Catalog et afficher leurs graphiques de traçabilité.

Pour en savoir plus sur la fonctionnalité de recherche de métadonnées de Data Catalog, consultez la page Rechercher et afficher des éléments de données avec Data Catalog.

Notez que Data Catalog peut ne pas être disponible dans toutes les régions où Vertex AI Pipelines est disponible. Si Data Catalog n'est pas disponible dans votre région, utilisez Vertex ML Metadata. Consultez la liste des régions compatibles avec Data Catalog.

Suivez les instructions ci-dessous pour afficher le graphique de traçabilité d'un artefact de pipeline dans Dataplex :

  1. Pour lancer une requête de recherche Dataplex dans la console Google Cloud, accédez à la page Recherche de Dataplex.

    Accéder à page de "Recherche" de Dataplex

  2. Utilisez les filtres pour rechercher les artefacts. Par exemple, vous pouvez utiliser le filtre Types de données pour spécifier le type d'artefact (modèle, ensemble de données ou table BigQuery, par exemple). Pour en savoir plus sur la recherche dans Data Catalog, consultez Rechercher des éléments de données.

    Vous pouvez également définir votre requête dans le champ de recherche.

  3. Pour afficher la traçabilité d'un artefact, cliquez sur son nom, puis sur l'onglet Traçabilité.

    Sur le graphique de traçabilité, les processus Vertex AI sont précédés de Icône de traçabilité Vertex AI. Cela inclut les artefacts, les composants et les modèles de pipeline.

    • Pour afficher les détails d'un processus, cliquez dessus dans le graphique de traçabilité.

    • Pour les processus basés sur des tâches de pipeline issues des exécutions de pipeline, vous pouvez effectuer les opérations suivantes :

      • Pour afficher l'exécution d'un pipeline dans Vertex AI, cliquez sur Ouvrir dans Vertex AI dans l'onglet Détails. Pour afficher les détails de l'environnement d'exécution d'une exécution de pipeline, tels que les états, les codes temporels et les attributs, cliquez sur Plus. Pour afficher l'exécution d'un pipeline dans Vertex AI, cliquez sur Ouvrir dans Vertex AI.
    • Pour les processus basés sur un modèle de pipeline, vous pouvez effectuer les opérations suivantes :

      • Pour afficher les détails d'un modèle dans Vertex AI, cliquez sur Ouvrir dans Vertex AI dans l'onglet Détails.

      • Vous pouvez afficher la liste des tâches de pipeline créées dans les exécutions de pipeline dans l'onglet Exécutions. Pour afficher les détails du modèle de pipeline dans Vertex AI, cliquez sur Plus, puis sur Ouvrir dans Vertex AI.

Étapes suivantes