Monitorizar el linaje de los artefactos de flujos de procesamiento

Cada ejecución de un flujo de trabajo creado con Vertex AI Pipelines tiene varios artefactos y parámetros asociados, como modelos, conjuntos de datos, plantillas de flujo de trabajo y componentes. El linaje de un artefacto de una canalización incluye los factores que han contribuido a su creación, así como los artefactos y los metadatos derivados del artefacto. Por ejemplo, el linaje de un modelo puede incluir lo siguiente:

  • Los datos de entrenamiento, prueba y evaluación que se han usado para crear el modelo.

  • Los hiperparámetros utilizados durante el entrenamiento del modelo.

  • Metadatos registrados durante el proceso de entrenamiento y evaluación, como la precisión del modelo.

  • Artefactos que proceden de este modelo, como los resultados de las predicciones por lotes.

Puede usar estos metadatos para responder a preguntas como las siguientes:

  • ¿Por qué se ha generado un modelo especialmente preciso en una determinada ejecución de una canalización?

  • ¿Qué ejecución de la canalización ha generado el modelo más preciso y qué hiperparámetros se han usado para entrenarlo?

  • En función de los pasos de tu canalización, es posible que puedas responder a preguntas sobre la gobernanza del sistema. Por ejemplo, puedes usar metadatos para determinar qué versión de tu modelo estaba en producción en un momento dado.

Para ver y analizar el linaje de los artefactos de la canalización, puedes usar Vertex ML Metadata o Dataplex Universal Catalog.

En la siguiente tabla se muestran las diferencias entre Vertex ML Metadata y Dataplex Universal Catalog:

Función Vertex ML Metadata Dataplex Universal Catalog
Tipos de metadatos de canalización capturados Todos los artefactos de entrada y salida producidos por una ejecución de una canalización. Artefactos de entrada y salida que se pueden asignar a nombres completos (FQNs) compatibles con Dataplex Universal Catalog, normalmente mediante Google Cloud componentes de la canalización.
Geografía Lecturas de una sola región. Lecturas globales, es decir, en varias regiones.
Proyectos Lecturas de un solo proyecto. Lecturas en toda la organización en varios proyectos.
Servicios integrados Integrado con Vertex AI Pipelines, Vertex AI Experiments, Vertex AI Model Registry y conjuntos de datos. Se integra con varios productos, como Vertex AI, BigQuery, Cloud Composer y Dataproc. Google Cloud
¿Quieres participar? No, siempre activado. Habilita la API Data Lineage en cada proyecto.

Asignar artefactos de metadatos de Vertex ML a Dataplex Universal Catalog

Para asignar artefactos de metadatos de Vertex ML a nombres de dominio completos en Dataplex Universal Catalog, debe hacer lo siguiente:

  • Usa Google Cloud componentes de canalización al crear modelos de Vertex AI y conjuntos de datos gestionados.

  • Usa títulos de esquema personalizados (google.VertexDataset o google.VertexModel) al especificar el nombre del recurso de modelo o de conjunto de datos gestionado en el campo metadata, tal como se muestra en el siguiente ejemplo:

{
  "name": "projects/example-project/locations/us-central1/metadataStores/default/artifacts/example-artifact",
  "displayName": "My dataset",
  "uri": "https://us-central1-aiplatform.googleapis.com/v1/projects/example-project/locations/us-central1/datasets/example-dataset",
   ...
  "schemaTitle": "google.VertexDataset",
  "schemaVersion": "0.0.1",
  "metadata": {
    "resourceName": "projects/example-project/locations/us-central1/datasets/example-dataset"
  }
}

Analizar el linaje de artefactos de flujo de procesamiento con Vertex ML Metadata

Cuando ejecutas una canalización con Vertex AI Pipelines, los artefactos y los parámetros de la ejecución de la canalización se almacenan con Vertex ML Metadata. Vertex ML Metadata facilita el análisis del linaje de los artefactos de tu canalización, ya que te ahorra la dificultad de hacer un seguimiento de los metadatos de tu canalización.

Si no has usado nunca Vertex ML Metadata, consulta la introducción a Vertex ML Metadata.

Sigue estas instrucciones para ver el gráfico de linaje de un artefacto de una canalización con metadatos de Vertex ML:

  1. En la Google Cloud consola, en la sección Vertex AI, ve a la página Metadatos.

    Ir a Metadatos

    En la página Metadatos se muestran los artefactos que se han creado en el almacén de metadatos predeterminado.

  2. En la lista desplegable Región, selecciona la región en la que se creó la carrera.

  3. Haga clic en el Nombre visible de un artefacto para ver su gráfico de linaje.

    Se muestra un gráfico estático con los artefactos y las ejecuciones que forman parte de este gráfico de linaje.

  4. Haz clic en un artefacto o una ejecución para obtener más información.

Analizar el linaje de los artefactos de flujos de procesamiento con Dataplex Universal Catalog

Dataplex Universal Catalog descubre metadatos de Google Cloud recursos, incluidos artefactos de Vertex AI Pipelines como modelos de Vertex AI, conjuntos de datos gestionados y otros Google Cloud recursos que se pueden descubrir en Dataplex Universal Catalog. Puedes descubrir estos artefactos mediante la función de búsqueda de metadatos de Dataplex Universal Catalog y ver sus gráficos de linaje.

Para obtener más información sobre la función de búsqueda de metadatos de Dataplex Universal Catalog, consulta el artículo Buscar recursos en Dataplex Universal Catalog.

Ten en cuenta que es posible que el catálogo universal de Dataplex no esté disponible en todas las regiones en las que se admite Vertex AI Pipelines. Si Dataplex Universal Catalog no se admite en tu región, usa Vertex ML Metadata. Consulta la lista de regiones admitidas de Dataplex Universal Catalog.

Sigue estas instrucciones para ver el gráfico de linaje de un artefacto de una canalización en Dataplex Universal Catalog:

  1. Para lanzar una consulta de búsqueda de Dataplex Universal Catalog en la Google Cloud consola, ve a la página Búsqueda de Dataplex Universal Catalog.

    Ir a la búsqueda

  2. Selecciona Dataplex Universal Catalog como modo de búsqueda.

  3. Usa los filtros para buscar los artefactos. Por ejemplo, puedes usar el filtro Tipos de datos para especificar el tipo de artefacto, como modelo, conjunto de datos o tabla de BigQuery. Para obtener más información, consulta Buscar recursos en Dataplex Universal Catalog.

    También puedes definir tu consulta en el campo de búsqueda.

  4. Para ver el linaje de un artefacto, haga clic en su nombre y, a continuación, en la pestaña Linaje.

    En el gráfico de linaje, los procesos de Vertex AI van precedidos de Icono de linaje de Vertex AI. Entre ellos, se incluyen los artefactos, los componentes y las plantillas de la canalización.

    • Para ver los detalles de un proceso, haz clic en él en el gráfico de linaje.

    • En los procesos basados en tareas de flujo de procesamiento de ejecuciones de flujos de procesamiento, puedes hacer lo siguiente:

      • Para ver la ejecución del flujo de procesamiento en Vertex AI, haga clic en Abrir en Vertex AI en la pestaña Detalles. Para ver los detalles del tiempo de ejecución de una ejecución de una canalización, como los estados, las marcas de tiempo y los atributos, haga clic en Más. Para ver la ejecución del flujo de procesamiento en Vertex AI, haz clic en Abrir en Vertex AI.
    • En los procesos basados en una plantilla de canalización, puedes hacer lo siguiente:

      • Para ver los detalles de la plantilla en Vertex AI, haga clic en Abrir en Vertex AI en la pestaña Detalles.

      • Consulta la lista de tareas de flujo de procesamiento creadas en las ejecuciones de flujo de procesamiento en la pestaña Ejecuciones. Para ver los detalles de la plantilla de flujo de trabajo en Vertex AI, haz clic en Más y, a continuación, en Abrir en Vertex AI.

Siguientes pasos