Transición de Data Catalog al catálogo universal de Dataplex

Si usas Data Catalog, puedes migrar tu contenido y uso de Data Catalog a Dataplex Universal Catalog siguiendo los pasos que se describen en este documento.

Si es la primera vez que usas el catálogo, comienza con Dataplex Universal Catalog configurándolo como tu experiencia de catálogo predeterminada.

Este documento está dirigido a administradores y responsables de datos.

Dataplex Universal Catalog tiene una API y una interfaz web unificadas. La transición a Dataplex Universal Catalog permite que tus cargas de trabajo y usuarios existentes y futuros se beneficien de sus funciones y capacidades mejoradas. Para obtener más información, consulta Acerca de la administración de metadatos en Dataplex Universal Catalog.

Para comparar Dataplex Universal Catalog y Data Catalog, consulta Comparación entre Dataplex Universal Catalog y Data Catalog.

Antes de comenzar la transición, revisa las funciones de administración de metadatos que no son compatibles con Dataplex Universal Catalog.

Descripción general de la transición

La página Administra la transición a Dataplex Universal Catalog en la consola de Google Cloud proporciona un único punto de acceso para administrar la transición.

En esta sección, se describen las distintas situaciones de transición y se explica el proceso de transición para cada una de ellas.

Si no tienes metadatos personalizados en Data Catalog o si nunca usaste Data Catalog

Si usas Data Catalog y no tienes metadatos personalizados, como etiquetas, plantillas de etiquetas, entradas personalizadas o grupos de entradas, o si nunca usaste Data Catalog, completa la transición configurando tu experiencia de IU de catálogo predeterminada en Dataplex Universal Catalog.

Si tienes metadatos personalizados de Data Catalog o cargas de trabajo programáticas

Si usas Data Catalog con metadatos personalizados (como etiquetas, plantillas de etiquetas, entradas personalizadas o grupos de entradas), Dataplex Universal Catalog puede importar automáticamente estos metadatos personalizados como read-only. Para habilitar esta capacidad, se requieren cambios en la configuración, como se describe en la fase preparatoria.

La segunda fase es la fase de actualización, en la que el estado activo (read-write) de tus metadatos personalizados se transfiere a Dataplex Universal Catalog. Durante esta fase, también debes actualizar cualquier carga de trabajo programática (como la API, las bibliotecas cliente, los módulos de Terraform y los comandos de Google Cloud CLI) para que interactúen con el catálogo universal de Dataplex.

A continuación, se proporcionan más detalles sobre cada fase del proceso de transición:

  1. Fase preparatoria: Realiza las tareas de configuración necesarias para que el contenido de Data Catalog esté disponible de forma simultánea en Dataplex Universal Catalog como read-only. Durante esta fase, Data Catalog sigue siendo la fuente autorizada del contenido de tus metadatos.

    La fase preparatoria incluye las siguientes tareas:

    1. Actualiza las plantillas de etiquetas privadas de Data Catalog a públicas.
    2. Si tu proyecto está en Assured Workloads, habilita las plantillas de etiquetas y las etiquetas para que los metadatos estén disponibles de forma simultánea en Dataplex Universal Catalog.
    3. Configura los permisos de IAM de Dataplex Universal Catalog para tus metadatos personalizados.

    Para obtener más información, consulta Fase preparatoria.

  2. Fase de actualización: Transfiere el uso del catálogo y el estado activo (read-write) de tus metadatos personalizados a Dataplex Universal Catalog.

    La fase de actualización incluye las siguientes tareas:

    1. Establece la experiencia de IU de catálogo predeterminada en Dataplex Universal Catalog.
    2. Actualiza los metadatos personalizados de Data Catalog a Dataplex Universal Catalog.

      Debes esperar al menos 48 horas después de habilitar las plantillas de etiquetas y las etiquetas, y después de hacer públicas las plantillas de etiquetas, para poder actualizar los metadatos personalizados. Este tiempo es necesario para el procesamiento interno.

    3. Actualiza las cargas de trabajo programáticas.

    Cuando completes la fase de actualización, Dataplex Universal Catalog se convertirá en la fuente autorizada de todos tus metadatos y no necesitarás usar Data Catalog.

    Para obtener más información, consulta Fase de actualización.

Roles requeridos

Para obtener los permisos que necesitas para realizar la transición de Data Catalog a Dataplex Universal Catalog, otorga los siguientes roles de IAM en el recurso:

  • Actualiza las plantillas de etiquetas privadas a públicas: Propietario de TagTemplate de Data Catalog (roles/datacatalog.tagTemplateOwner)

    Este rol predefinido contiene el permiso datacatalog.tagTemplates.update, que se requiere para actualizar las plantillas de etiquetas privadas a públicas.

  • Habilita las etiquetas y plantillas de etiquetas públicas para que los metadatos estén disponibles de forma simultánea en Dataplex Universal Catalog: Administrador de la configuración de migración de DataCatalog (roles/datacatalog.migrationConfigAdmin)

    Este rol predefinido contiene el permiso datacatalog.migrationConfig.set, que es necesario para habilitar plantillas de etiquetas y etiquetas.

  • Establece la experiencia de IU de catálogo predeterminada en Dataplex Universal Catalog: Administrador de la configuración de migración de DataCatalog (roles/datacatalog.migrationConfigAdmin)

    Este rol predefinido contiene el permiso datacatalog.migrationConfig.set, que se requiere para establecer la experiencia predeterminada de la IU del catálogo.

  • Actualiza las plantillas de etiquetas públicas de Data Catalog a Dataplex Universal Catalog: Propietario de TagTemplate de Data Catalog (roles/datacatalog.tagTemplateOwner)

    Este rol predefinido contiene el permiso datacatalog.tagTemplates.update, que se requiere para actualizar las plantillas de etiquetas públicas.

  • Actualiza los grupos de entradas de Data Catalog a Dataplex Universal Catalog: Propietario de EntryGroup de DataCatalog (roles/datacatalog.entryGroupOwner)

    Este rol predefinido contiene el permiso datacatalog.entryGroups.update, que se requiere para actualizar grupos de entradas.

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

También puedes obtener los permisos necesarios con roles personalizados o cualquier otro rol predefinido.

Fase preparatoria

En esta fase, se incluyen tareas para que el contenido de los metadatos de Data Catalog esté disponible de forma simultánea en Dataplex Universal Catalog, en el modo read-only.

Estos son los puntos clave que debes recordar durante la fase preparatoria:

  • Data Catalog sigue siendo la fuente autorizada de tus metadatos personalizados.
  • La página Búsqueda de Dataplex Universal Catalog apunta a la búsqueda de Data Catalog de forma predeterminada, que incluye solo los metadatos de Data Catalog y no los de Dataplex Universal Catalog.
  • Es posible que la búsqueda de Dataplex Universal Catalog no incluya todas las plantillas de etiquetas y etiquetas públicas de Data Catalog hasta que completes la fase preparatoria.

Los grupos de entradas personalizados de Data Catalog y sus entradas ya están disponibles de forma simultánea en Dataplex Universal Catalog como read-only. Cuando habilita las etiquetas y plantillas de etiquetas públicas en la fase preparatoria, su contenido estará disponible de forma simultánea en Dataplex Universal Catalog como read-only.

En la siguiente tabla, se muestra la asignación entre los recursos de Data Catalog y Dataplex Universal Catalog cuando los recursos de Data Catalog están disponibles de forma simultánea en Dataplex Universal Catalog:

Asignación entre Data Catalog y Dataplex Universal Catalog
Recurso de Data Catalog Recurso correspondiente de Dataplex Universal Catalog Descripción
Plantilla de etiqueta Tipo de aspecto (global)

Las plantillas de etiquetas en Data Catalog son recursos regionales. Cuando habilitas las plantillas de etiquetas, su contenido está disponible de forma simultánea como tipos de aspectos globales en Dataplex Universal Catalog. Esto es para conservar las referencias entre regiones entre las etiquetas y las plantillas de etiquetas. Las definiciones de los tipos de aspectos globales se replican en todas las regiones de Google Cloud .

Los conceptos estándar, como Schema, se representan con tipos de aspectos del sistema, que proporciona Dataplex Universal Catalog. Para obtener más información, consulta Categorías de tipos de aspectos.

Etiqueta Aspecto opcional Cuando habilitas las plantillas de etiquetas, sus etiquetas están disponibles de forma simultánea como aspectos opcionales en Dataplex Universal Catalog. Para obtener más información, consulta Categorías de aspectos.
Grupo de entradas Grupo de entradas Los grupos de entradas para las entradas del sistema se establecen por proyecto y por región en Dataplex Universal Catalog. Los grupos de entradas creados en Data Catalog están disponibles de forma simultánea en Dataplex Universal Catalog.
Entrada personalizada Entrada personalizada Todas las entradas personalizadas de Data Catalog están disponibles de forma simultánea como entradas de GenericEntryType en Dataplex Universal Catalog. Para obtener más información, consulta Categorías de tipos de entrada.
Entrada del sistema (Google Cloud) Aspecto obligatorio de la entrada del sistema Los metadatos que describen las entradas del sistema, como Schema para las tablas de BigQuery, se capturan en los aspectos obligatorios de los tipos de aspectos definidos por el sistema.

Actualiza las plantillas de etiquetas privadas de Data Catalog a públicas

Dataplex Universal Catalog no admite el concepto de aspectos privados (equivalentes a las etiquetas privadas). Por lo tanto, las etiquetas y plantillas de etiquetas privadas no están disponibles de forma simultánea en Dataplex Universal Catalog. Para propagar plantillas de etiquetas y etiquetas privadas en Dataplex Universal Catalog, debes actualizarlas a públicas.

Antes de continuar, revisa la estructura de las plantillas de etiquetas privadas para verificar que su estructura y metadatos sean coherentes con la visibilidad de las etiquetas públicas.

Para actualizar las plantillas de etiquetas privadas y las etiquetas a públicas, sigue estos pasos:

Console

  1. En la consola de Google Cloud , ve a la página Catálogo de Dataplex Universal Catalog.

    Ir al catálogo

  2. Haz clic en Administrar la transición a Dataplex Universal Catalog.

  3. Haz clic en la pestaña Plantillas de etiquetas privadas.

  4. Haz clic en Administrar plantillas de etiquetas.

  5. En la página Plantillas de etiquetas, haz clic en la plantilla de etiqueta privada que deseas actualizar.

  6. En la página Detalles de la plantilla, haz clic en Editar.

  7. En la sección Visibilidad, selecciona Público.

  8. Haz clic en Actualizar.

REST

Para actualizar las plantillas de etiquetas privadas a públicas, usa el método tagTemplates.patch.

Habilita las etiquetas y plantillas de etiquetas públicas para que los metadatos estén disponibles de forma simultánea en Dataplex Universal Catalog

Cuando proporciones la habilitación, el contenido de las etiquetas y plantillas de etiquetas públicas de Data Catalog se propagará de forma automática y continua a Dataplex Universal Catalog en toda tu organización o proyecto de Google Cloud . Las etiquetas y plantillas de etiquetas públicas de Data Catalog se propagan a Dataplex Universal Catalog como tipos de aspectos y aspectos públicos, respectivamente. Las definiciones de los tipos de aspectos globales se replican en todas las regiones de Google Cloud .

Para habilitar las etiquetas y plantillas de etiquetas públicas, sigue estos pasos:

Console

  1. En la consola de Google Cloud , ve a la página Catálogo de Dataplex Universal Catalog.

    Ir al catálogo

  2. Haz clic en Administrar la transición a Dataplex Universal Catalog.

  3. Haz clic en la pestaña Habilitar.

  4. Haz clic en Proporcionar la habilitación.

  5. En el cuadro de diálogo de confirmación, ingresa el texto que se muestra y haz clic en Confirmar.

REST

Para habilitar plantillas de etiquetas y etiquetas, usa el método setConfig.

Tanto para las organizaciones como para los proyectos, puedes revocar la aceptación proporcionada originalmente haciendo clic en Revocar la aceptación. Google Cloud Cuando revocas la habilitación, se detiene el proceso de propagación de las etiquetas y plantillas de etiquetas de Data Catalog a Dataplex Universal Catalog. Se borran los tipos de aspectos y aspectos de Dataplex Universal Catalog que se crean a través del proceso de habilitación, pero que no se actualizan a Dataplex Universal Catalog. El proceso de eliminación puede tardar hasta 12 horas.

Configura los permisos de IAM de Dataplex Universal Catalog para tus metadatos personalizados

Los tipos de aspectos y los grupos de entradas personalizados de Dataplex Universal Catalog que representan plantillas de etiquetas y grupos de entradas de Data Catalog no heredan los permisos de IAM originales de Data Catalog. Los permisos de IAM específicos que se requieren también difieren entre Dataplex Universal Catalog y Data Catalog.

Por ejemplo, si deseas crear aspectos con un tipo de aspecto propagado (que representa una plantilla de etiquetas de Data Catalog), debes configurar los permisos de IAM necesarios para ese tipo de aspecto. Del mismo modo, cuando ingieres metadatos personalizados, para crear entradas personalizadas dentro de un grupo de entradas personalizadas propagado, debes configurar los permisos de IAM necesarios para ese grupo de entradas.

Si usas roles de IAM de Data Catalog para administrar el acceso en Data Catalog a nivel de proyecto o superior, se incluirán automáticamente los permisos necesarios de Dataplex Universal Catalog. Sin embargo, si usas roles personalizados o asignas roles de IAM directamente a recursos específicos, debes configurar manualmente los permisos de Dataplex Universal Catalog para esos aspectos específicos y grupos de entradas personalizados.

Para obtener más información sobre cómo los permisos de IAM en Data Catalog se corresponden con los de Dataplex Universal Catalog, consulta Asignación de permisos de IAM entre Data Catalog y Dataplex Universal Catalog.

Para configurar los permisos de IAM necesarios de Dataplex Universal Catalog para los tipos de aspectos y los grupos de entradas personalizados, sigue estos pasos:

Console

  1. En la consola de Google Cloud , ve a la página Catálogo de Dataplex Universal Catalog.

    Ir al catálogo

  2. Haz clic en Administrar la transición a Dataplex Universal Catalog.

  3. Haz clic en la pestaña Permisos de IAM de Dataplex.

  4. Para configurar los permisos de IAM de Dataplex Universal Catalog para los tipos de aspectos, haz clic en Tipos de aspectos y plantillas de etiquetas.

    1. En la plantilla de etiqueta propagada desde Data Catalog, haz clic en > Permisos.

    2. Haz clic en Agregar principales.

    3. Agrega una principal nueva y asígnale los roles requeridos.

    4. Haz clic en Guardar.

  5. Para configurar los permisos de IAM de Dataplex Universal Catalog para los grupos de entradas, haz clic en Entry groups.

    1. En el grupo de entradas propagado desde Data Catalog, haz clic en > Permisos.

    2. Haz clic en Agregar principales.

    3. Agrega una principal nueva y asígnale los roles requeridos.

    4. Haz clic en Guardar.

REST

Para configurar los permisos de IAM de Dataplex Universal Catalog para los tipos de aspectos, usa el método aspectTypes.setIamPolicy.

Para configurar los permisos de IAM de Dataplex Universal Catalog para los grupos de entradas, usa el método entryGroups.setIamPolicy.

Fase de actualización

En esta fase, se incluyen tareas para mover el estado activo (read-write) de tus metadatos personalizados de Data Catalog a Dataplex Universal Catalog.

Estos son los puntos clave que debes recordar durante la fase de actualización:

  • De forma predeterminada, la página Búsqueda de Dataplex Universal Catalog apunta a la búsqueda de Dataplex Universal Catalog.
  • Puedes descubrir y leer los metadatos de Data Catalog y Dataplex Universal Catalog en Dataplex Universal Catalog.
  • Para actualizar los metadatos en la Google Cloud consola, se te redireccionará a su fuente. Por ejemplo, si actualizas las plantillas de etiquetas de Data Catalog, se te redireccionará a la página de plantillas de etiquetas en Data Catalog.

Establecer la experiencia de IU de catálogo predeterminada en Dataplex Universal Catalog

Si estableces la experiencia de IU de catálogo predeterminada en Dataplex Universal Catalog, ocurrirá lo siguiente:

  • Cuando vas a la página Búsqueda de Dataplex Universal Catalog en la consola deGoogle Cloud , se muestra la búsqueda de Dataplex Universal Catalog (Dataplex Catalog) de forma predeterminada. La búsqueda de Dataplex Universal Catalog opera sobre Dataplex Universal Catalog y encuentra todo tu contenido de metadatos, incluido el contenido creado en Dataplex Universal Catalog y el contenido importado de Data Catalog.

    La búsqueda de Data Catalog solo encuentra contenido de Data Catalog, no de Dataplex Universal Catalog. Por lo tanto, te recomendamos que uses la búsqueda de Dataplex Universal Catalog.

  • La interfaz web te recomienda crear recursos nuevos en Dataplex Universal Catalog. Por ejemplo, se establece de forma predeterminada en Crear tipos de aspectos en lugar de Crear plantillas de etiquetas, y en Crear grupo de entradas (Dataplex Universal Catalog) en lugar de Crear grupo de entradas (Data Catalog).

  • Por lo general, establecer la experiencia de IU de catálogo predeterminada en Dataplex Universal Catalog es una operación unidireccional. Sin embargo, Dataplex Universal Catalog te permite revertir cambios en casos excepcionales, por ejemplo, cuando quieres volver a cambiar la experiencia de IU del catálogo predeterminado a Data Catalog. Si reviertes los cambios, no podrás acceder al contenido creado en Dataplex Universal Catalog en la interfaz web de Data Catalog.

Para establecer la experiencia de IU de catálogo predeterminada en Dataplex Universal Catalog, sigue estos pasos:

Console

  1. En la consola de Google Cloud , ve a la página Catálogo de Dataplex Universal Catalog.

    Ir al catálogo

  2. Haz clic en Administrar la transición a Dataplex Universal Catalog.

  3. Haz clic en la pestaña Experiencia de IU de catálogo predeterminada.

  4. Haz clic en Establecer la experiencia de IU de catálogo predeterminada en Dataplex Universal Catalog.

REST

Para establecer la experiencia de IU de catálogo predeterminada en Dataplex Universal Catalog, usa el método setConfig.

Actualiza los metadatos personalizados de Data Catalog a Dataplex Universal Catalog

Puedes actualizar las plantillas de etiquetas públicas de Data Catalog (para las que habilitaste la opción) y los grupos de entradas personalizados a Dataplex Universal Catalog. Asegúrate de actualizar cada plantilla de etiquetas y cada grupo de entradas personalizado por separado.

A continuación, se resume el proceso de actualización:

  • Efecto

    • Transfiere el estado activo de los recursos de Data Catalog a Dataplex Universal Catalog. Después de la actualización, debes usar Dataplex Universal Catalog para modificar el recurso o acceder a su estado actual.
  • Cambios en el contenido y el flujo de datos

    • Marca el recurso como read-only en Data Catalog.
    • Marca el recurso como read-write en Dataplex Universal Catalog.
    • Detiene la disponibilidad simultánea de este recurso.
  • Dependencias

    • Si actualizas una plantilla de etiquetas, también se actualizarán todas las etiquetas que la usen.
    • Cuando se actualizan grupos de entradas, también se actualizan todas las entradas que contienen.
    • La actualización de entradas no afecta el estado de actualización de sus etiquetas y plantillas de etiquetas respectivas.

Antes de la actualización, para modificar el contexto comercial de una entrada (por ejemplo, overview, contacts), puedes usar la API de Data Catalog y la API de Dataplex. Después de la actualización, solo debes usar la API de Dataplex.

A continuación, se describen las operaciones permitidas para una entrada personalizada de Data Catalog que está etiquetada, según el estado de actualización del grupo de entradas personalizado y la plantilla de etiquetas relacionados:

  • Cuando una plantilla de etiqueta está activa en Data Catalog, puedes usarla para crear etiquetas. Después de actualizar la plantilla de etiquetas a Dataplex Universal Catalog, no podrás usarla para crear etiquetas en Data Catalog.
  • Puedes crear aspectos con tipos de aspectos que se propagan desde las plantillas de etiquetas de Data Catalog solo después de actualizar las plantillas de etiquetas.

Para actualizar las plantillas de etiquetas y los grupos de entradas personalizados de Data Catalog a Dataplex Universal Catalog, sigue estos pasos:

Console

  1. Asegúrate de que hayan transcurrido al menos 48 horas después de habilitar la opción y de que las plantillas de etiquetas se hayan hecho públicas antes de actualizar las plantillas de etiquetas de Data Catalog a Dataplex Universal Catalog. Este tiempo es necesario para el procesamiento interno.

  2. En la consola de Google Cloud , ve a la página Catálogo de Dataplex Universal Catalog.

    Ir al catálogo

  3. Haz clic en Administrar la transición a Dataplex Universal Catalog.

  4. Haz clic en la pestaña Actualizar a Dataplex.

  5. Para actualizar las plantillas de etiquetas de Data Catalog a Dataplex Universal Catalog, haz clic en Ver tipos de aspectos y plantillas de etiquetas.

    1. Selecciona las plantillas de etiquetas que deseas actualizar.

    2. Haz clic en Actualizar.

    3. En el cuadro de diálogo Confirmación, haz clic en Confirmar.

  6. Para actualizar los grupos de entradas personalizados de Data Catalog a Dataplex Universal Catalog, haz clic en Ver grupos de entradas.

    1. Selecciona los grupos de entradas que deseas actualizar.

    2. Haz clic en Actualizar.

    3. En el cuadro de diálogo Confirmación, haz clic en Confirmar.

REST

Asegúrate de que hayan transcurrido al menos 48 horas después de habilitar la opción y de hacer públicas las plantillas de etiquetas antes de actualizar las plantillas de etiquetas de Data Catalog a Dataplex Universal Catalog. Este tiempo es necesario para el procesamiento interno.

Luego, para actualizar las plantillas de etiquetas y los grupos de entradas personalizados de Data Catalog a Dataplex Universal Catalog, usa el método tagTemplates.patch.

Cuando completes la fase de actualización, Dataplex Universal Catalog se convertirá en la fuente autorizada de todos tus metadatos, y no necesitarás usar Data Catalog.

Actualiza las cargas de trabajo programáticas

Dataplex Universal Catalog incluye una nueva API, bibliotecas cliente, módulos de Terraform y comandos de Google Cloud CLI. Por lo tanto, debes actualizar cualquier carga de trabajo existente con uso programático de Data Catalog a Dataplex Universal Catalog. Consulta las muestras de código de Dataplex Universal Catalog.

Asegúrate de alinear la actualización de las cargas de trabajo programáticas con la actualización de los recursos dependientes, como las plantillas de etiquetas y los grupos de entradas personalizadas. Esto es necesario porque la actualización transfiere el estado activo (read-write) de un recurso de Data Catalog a Dataplex Universal Catalog.

A continuación, se muestra un ejemplo de secuencia para actualizar las cargas de trabajo programáticas para que interactúen con Dataplex Universal Catalog, coordinado con la actualización de los recursos dependientes:

  1. Si tus cargas de trabajo pueden tolerar la coherencia eventual, mueve las operaciones de read de las cargas de trabajo a Dataplex Universal Catalog.

  2. Transfiere las cargas de trabajo que realizan operaciones de etiquetado write a Dataplex Universal Catalog en coordinación con la actualización de sus plantillas de etiquetas correspondientes.

  3. Transfiere las cargas de trabajo que realizan operaciones de transferencia write personalizadas a Dataplex Universal Catalog en coordinación con la actualización de los grupos de entradas personalizados respectivos.

Si necesitas desacoplar la actualización de las cargas de trabajo y la actualización de los recursos correspondientes, considera implementar lógica dentro de las cargas de trabajo para enrutar read-write a Data Catalog o Dataplex Universal Catalog según el estado de actualización del recurso. Por lo tanto, las cargas de trabajo operarán independientemente del estado de actualización del recurso relacionado.

¿Qué sigue?