Buscar recursos en Dataplex Universal Catalog

En este documento se describe cómo usar la búsqueda en Dataplex Universal Catalog para buscar recursos como conjuntos de datos de BigQuery, instancias de Cloud SQL y otros.

Dataplex Universal Catalog ofrece dos modos de búsqueda: búsqueda por palabras clave y búsqueda en lenguaje natural (vista previa).

La búsqueda por palabras clave te permite encontrar recursos mediante palabras clave, filtros y una sintaxis definida.

La búsqueda en lenguaje natural amplía la búsqueda por palabras clave para admitir consultas en lenguaje natural. Te permite encontrar recursos usando un lenguaje cotidiano, lo que elimina la necesidad de usar una sintaxis compleja.

Para obtener más información sobre los Google Cloud recursos que se admiten en el catálogo universal de Dataplex, consulta las fuentes Google Cloud admitidas.

Ámbito de búsqueda

Los resultados de búsqueda de Dataplex Universal Catalog respetan los permisos que tienes sobre los recursos correspondientes en los sistemas de origen.

Por ejemplo, si tienes acceso de lectura a los metadatos de BigQuery de un objeto, ese objeto aparecerá en los resultados de búsqueda del catálogo universal de Dataplex. Si tienes acceso a una tabla de BigQuery, pero no al conjunto de datos que la contiene, la tabla se mostrará como es habitual en la búsqueda del catálogo universal de Dataplex.

De forma predeterminada, la búsqueda se limita a tu organización. Los resultados solo incluyen recursos de la misma organización que el proyecto en el que estás buscando.

Los resultados de búsqueda solo incluyen los recursos que pertenecen al mismo perímetro de los controles de servicio de VPC que el proyecto en el que se realiza la búsqueda. Cuando se usa la consolaGoogle Cloud , este es el proyecto seleccionado en la consola.

Para ampliar el ámbito de los resultados de búsqueda más allá de los recursos que se encuentran dentro del perímetro de Controles de Servicio de VPC de tu proyecto, usa las reglas de entrada y salida de Controles de Servicio de VPC. Estas reglas facilitan el intercambio de datos privado y eficiente en toda su organización. Puedes configurar reglas de entrada y salida mediante laGoogle Cloud consola o a través de archivos JSON o YAML. Consulta el siguiente ejemplo de YAML y la documentación de Controles de Servicio de VPC para adaptar la regla a tus requisitos específicos.

egressPolicies:
  - egressFrom:
      identityType: ANY_USER_ACCOUNT
    egressTo:
      # Specify which resources should be present in the search results. In this example,
      # BigQuery.
      operations:
      - methodSelectors:
        - method: '*'
        serviceName: bigquery.googleapis.com
      # Specify project ids under which the search is performed.
      resources:
      - projects/SEARCH_PROJECT_ID
ingressPolicies:
  - ingressFrom:
      identityType: ANY_USER_ACCOUNT
      sources:
      - accessLevel: '*'
    ingressTo:
      # Specify which resources should be present in the search results. In this example,
      # BigQuery.
      operations:
      - methodSelectors:
        - method: '*'
        serviceName: bigquery.googleapis.com
      # Specify project ids to expose in search results.
      resources:
      - projects/INGRESS_PROJECT_ID

Para obtener más información sobre los roles de Gestión de Identidades y Accesos que necesitas para usar la búsqueda de Dataplex Universal Catalog, consulta Roles de Gestión de Identidades y Accesos de Dataplex Universal Catalog.

Aislar los resultados de búsqueda por entorno con Controles de Servicio de VPC

Para aislar los resultados de búsqueda de Universal Catalog de Dataplex entre entornos, como los de desarrollo, prueba y producción, configura perímetros de Controles de Servicio de VPC independientes para cada entorno. Asigna al perímetro del entorno correspondiente los proyectos que contengan los recursos de datos y los proyectos que se utilicen para realizar búsquedas. Las búsquedas que se realicen desde un proyecto dentro de un perímetro específico solo devolverán resultados de recursos que también se encuentren en ese mismo perímetro.

Limitaciones de la función de recordar en la búsqueda

Las consultas de búsqueda de Dataplex Universal Catalog no garantizan la recuperación completa. Es posible que no se devuelvan resultados que coincidan con tu consulta. Además, los resultados devueltos (y no devueltos) pueden variar si repites las consultas de búsqueda.

Para consultar todos los metadatos de Universal Catalog de Dataplex, puede exportarlos a Cloud Storage y, a continuación, consultarlos desde BigQuery. Para obtener más información, consulta Exportar metadatos.

Filtros

Los filtros te permiten acotar los resultados de búsqueda. Los filtros están disponibles tanto en la búsqueda por palabras clave como en la búsqueda por lenguaje natural, pero las opciones disponibles pueden variar ligeramente en función del modo.

Cuando proporciona filtros en varias secciones, se evalúan mediante el operador lógico AND. Los resultados de búsqueda contienen recursos que cumplen al menos una condición de cada sección seleccionada. Por ejemplo, si seleccionas el sistema BigQuery y el tipo de recurso de conjunto de datos, los resultados de búsqueda incluirán conjuntos de datos de BigQuery, pero no conjuntos de datos de Vertex AI.

Si selecciona varios filtros en una misma sección, se evaluarán con el operador lógico OR. Por ejemplo, si selecciona el tipo de recurso de conjunto de datos y el tipo de recurso de tabla, los resultados de búsqueda incluirán tanto conjuntos de datos como tablas.

Filtros de búsqueda por palabras clave

En la búsqueda por palabras clave, los filtros se agrupan en las siguientes secciones:

  • Sistemas como BigQuery, Cloud SQL y otros. El sistema Dataplex Universal Catalog contiene entradas personalizadas.
  • En la lista Aspectos (etiquetas) se muestran todos los aspectos disponibles.
  • Proyecto muestra todos los proyectos disponibles.
  • Los alias de tipo describen tipos de recursos, como bases de datos, conjuntos de datos, modelos, tablas, vistas, servicios y tipos personalizados.
  • Los conjuntos de datos proceden de BigQuery.

Filtrar por valor de aspecto

Los filtros de Aspectos te permiten buscar recursos etiquetados con una plantilla específica. Puede usar el menú Personalizar para acotar aún más los resultados y filtrar por valores de aspectos específicos. Las condiciones de filtro de valor de aspecto dependen del tipo de datos de ese campo de aspecto. Por ejemplo, en los campos datetime y number, puedes especificar una fecha concreta o un intervalo.

Visibilidad del filtro

Los filtros Sistemas, Alias de tipo, Proyecto y Conjuntos de datos se muestran en función de la consulta actual en el campo Buscar.

Filtros de búsqueda en lenguaje natural

En la búsqueda con lenguaje natural, están disponibles los siguientes filtros:

  • Ámbito: busca en toda la organización (opción predeterminada), en el proyecto actual o solo en los recursos destacados. Para obtener más información, consulta la sección Ámbito de búsqueda de este documento.
  • Sistemas: el Google Cloud servicio al que pertenece el recurso, como BigQuery. El sistema Dataplex Universal Catalog contiene grupos de entradas.
  • Proyectos: los proyectos en los que se va a buscar.
  • Tipo: el tipo de recurso, como conexión de BigQuery, contenedor de Cloud Storage o base de datos. En función del tipo de recurso, también puedes filtrar por subtipo, como el tipo de conexión o el dialecto de SQL.
  • Seleccionar ubicaciones: las ubicaciones en las que se realizará la búsqueda.
  • Seleccionar conjuntos de datos: los resultados de búsqueda se limitan a los recursos de BigQuery que pertenecen a los conjuntos de datos de BigQuery seleccionados. En el campo Escribe para filtrar, introduce el nombre del conjunto de datos.
  • Tipos de aspectos: los tipos de aspectos de Dataplex Universal Catalog que están asociados al recurso que buscas. Para filtrar por valores de aspecto, haga clic en Filtrar por valores de anotación y, a continuación, seleccione los valores.

Antes de empezar

Antes de realizar una búsqueda, asegúrate de que tienes los roles necesarios y de que has habilitado la API correspondiente.

Roles obligatorios

En esta sección se describen los roles y permisos necesarios para buscar recursos y acceder a los resultados de búsqueda.

Para obtener más información sobre cómo conceder roles, consulta el artículo sobre cómo gestionar el acceso.

También puedes conseguir los permisos necesarios a través de roles personalizados u otros roles predefinidos.

Roles necesarios para buscar entradas

Para buscar entradas, debes tener al menos uno de los siguientes roles de gestión de identidades y accesos en el proyecto que se utiliza para la búsqueda: Administrador de Dataplex Catalog, Editor de Dataplex Catalog o Lector de Dataplex Catalog. Los permisos de los resultados de búsqueda se comprueban independientemente del proyecto seleccionado.

Roles necesarios para acceder a los resultados de búsqueda

Los resultados de búsqueda de Dataplex Universal Catalog se acotan en función de tu rol. Para buscar un recurso en Dataplex Universal Catalog, debe tener permisos para acceder al recurso correspondiente en el sistema de origen. Para obtener más información, consulta la sección Ámbito de búsqueda de este documento.

Por ejemplo, para buscar conjuntos de datos, tablas, vistas y modelos de BigQuery, necesitas los permisos correspondientes para esas entradas. Para obtener más información, consulta los permisos de BigQuery.

En la siguiente lista se describen los permisos mínimos necesarios:

  • Para buscar una tabla, necesitas el permiso bigquery.tables.get para esa tabla.
  • Para buscar un conjunto de datos, necesitas el permiso bigquery.datasets.get para ese conjunto de datos.
  • Para buscar metadatos de un conjunto de datos o una tabla, necesitas el rol Lector de metadatos de BigQuery (roles/bigquery.metadataViewer).

Por ejemplo, para buscar instancias, bases de datos, esquemas, tablas y vistas de Cloud SQL, necesitas los permisos correspondientes en esas entradas. Para obtener más información, consulta Roles y permisos de Cloud SQL.

Para buscar entradas personalizadas, necesitas el rol de lector de catálogo de Dataplex (roles/dataplex.catalogViewer).

Activar la API

Enable the Dataplex API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Buscar recursos

Consola

Para buscar recursos, sigue estos pasos:

  1. En la Google Cloud consola, ve a la página Búsqueda de Dataplex Universal Catalog.

    Ir a la búsqueda

  2. En Choose search platform (Elegir plataforma de búsqueda), selecciona Dataplex Universal Catalog.

    Si seleccionas Dataplex Universal Catalog, podrás buscar en el almacenamiento de metadatos de Dataplex Universal Catalog. Si seleccionas Data Catalog, podrás buscar en tu repositorio de Data Catalog si ya eres usuario de este servicio.

  3. Para usar la búsqueda por palabras clave, sigue estos pasos:

    1. En el campo Buscar recursos en todos los proyectos, introduce tu consulta.

    2. Para acotar la búsqueda, usa el panel Filtros. Para ver la lista de filtros disponibles, consulta Filtros de búsqueda por palabra clave.

      Puedes añadir manualmente los siguientes filtros:

      • Añadir un filtro de proyecto: en Proyecto, haga clic en Añadir proyecto. Busca un proyecto concreto, selecciónalo y haz clic en Abrir.
      • Añadir un filtro de tipo de aspecto: en Aspectos, haz clic en el menú Añadir más tipos de aspectos. Busca una plantilla específica, selecciónala y haz clic en Aceptar.
    3. Opcional: Además de los recursos que tienes disponibles, puedes buscar recursos que estén disponibles públicamente en Google Cloud seleccionando Incluir conjuntos de datos públicos.

      Sigue estos consejos para crear una consulta de búsqueda:

      • Incluye la expresión de búsqueda entre comillas si contiene espacios. Por ejemplo, "search terms".
      • Antepón NOT a una palabra clave para que coincida con la negación lógica del filtro keyword:term. También puedes usar los operadores booleanos AND y OR para combinar expresiones de búsqueda. Los operadores AND, OR y NOT no distinguen entre mayúsculas y minúsculas.

      Por ejemplo, NOT column:term muestra todas las columnas excepto las que coinciden con el término especificado. Para ver una lista de palabras clave y otros términos que puedes usar en una expresión de búsqueda de Dataplex Universal Catalog, consulta Sintaxis de búsqueda.

  4. Para usar la búsqueda en lenguaje natural, sigue estos pasos:

    1. Haz clic en Probar la búsqueda en lenguaje natural.

    2. En el campo Buscar recursos en todos los proyectos con lenguaje natural, introduce tu consulta en lenguaje natural y, a continuación, pulsa Intro.

      A continuación, se incluyen algunas consultas de ejemplo:

      • Show me the datasets that contain taxi information
      • Find data on vaccine distribution across different countries
      • Get tables with historical temperature data for major world cities
      • Search for hurricane tracking and storm activity datasets
      • Population data by country
    3. Para acotar la búsqueda, haz clic en Filtros. Para ver la lista de filtros disponibles, consulte Filtros de búsqueda en lenguaje natural.

  5. Para ver más información sobre el recurso buscado, en los resultados de búsqueda, haz clic en el nombre del recurso. Se abrirá la página de detalles de la entrada.

gcloud

Para buscar recursos, usa el comando gcloud dataplex entries search.

REST

Para buscar recursos, usa el método searchEntries.

Ver los detalles de una entrada

Consola

Usa la búsqueda de Dataplex Universal Catalog para ver los detalles de una entrada.

  1. Busca una entrada en Dataplex Universal Catalog.

  2. En los resultados de búsqueda, haz clic en la entrada de la que quieras ver los detalles.

    Se abrirá la página de detalles de la entrada. La página incluye las siguientes secciones:

    • Detalles de la entrada: incluye información como el tipo de entrada, el sistema, la plataforma, el nombre completo, la hora de creación, la hora de la última modificación, la descripción y los administradores.
    • Resumen: una descripción general de la entrada, si está disponible.
    • Aspectos: los aspectos obligatorios y opcionales definidos para la entrada. Para obtener más información, consulta Categorías de aspectos.

gcloud

Para ver los detalles de una entrada, usa el comando gcloud dataplex entries lookup.

REST

Para ver los detalles de una entrada, utiliza el método lookupEntry.

Limitaciones

Estas son las limitaciones de la búsqueda en lenguaje natural:

  • La búsqueda en lenguaje natural está optimizada para el descubrimiento y la exploración, ya que devuelve un conjunto limitado de los resultados más relevantes. Es posible que no proporcione una lista exhaustiva de todos los elementos coincidentes y, por lo tanto, que no sea adecuada para cargas de trabajo que dependan de ella, como las de los flujos de trabajo de curación.

  • La búsqueda en lenguaje natural solo tiene en cuenta los metadatos de los recursos, incluidos los esquemas, las descripciones y los aspectos. No responde a preguntas sobre los datos de las tablas (por ejemplo, "¿Cuáles fueron las ventas del mes pasado?") ni realiza consultas analíticas sobre los metadatos (por ejemplo, "¿Cuántas tablas hay en el conjunto de datos X?").

  • Los recursos públicos no se incluyen en el ámbito de la búsqueda en lenguaje natural.

Siguientes pasos