Busca recursos en el catálogo universal de Dataplex

En este documento, se describe cómo usar la búsqueda en Dataplex Universal Catalog para buscar recursos, como conjuntos de datos de BigQuery, instancias de Cloud SQL y otros.

Dataplex Universal Catalog ofrece dos modos de búsqueda: búsqueda por palabras clave y búsqueda en lenguaje natural (versión preliminar).

La búsqueda por palabras clave te permite encontrar recursos con palabras clave, filtros y una sintaxis definida específicos.

La búsqueda en lenguaje natural extiende la búsqueda por palabras clave para admitir consultas en lenguaje natural. Te permite encontrar recursos con lenguaje cotidiano, lo que elimina la necesidad de usar sintaxis complejas.

Para obtener más información sobre los activos de Google Cloud que se admiten en Dataplex Universal Catalog, consulta Fuentes Google Cloud admitidas.

Alcance de la búsqueda

Los resultados de la búsqueda en Dataplex Universal Catalog respetan los permisos que tienes sobre los recursos correspondientes en los sistemas fuente.

Por ejemplo, si tienes acceso de lectura de metadatos de BigQuery a un objeto, ese objeto aparecerá en los resultados de la búsqueda del catálogo universal de Dataplex. Si tienes acceso a una tabla de BigQuery, pero no al conjunto de datos que contiene esa tabla, la tabla seguirá apareciendo como se espera en la búsqueda de Dataplex Universal Catalog.

De forma predeterminada, la búsqueda se limita a tu organización. Los resultados incluyen solo los recursos de la misma organización que el proyecto en el que realizas la búsqueda.

Los resultados de la búsqueda solo incluyen los recursos que pertenecen al mismo perímetro de VPC-SC que el proyecto en el que se realiza la búsqueda. Cuando usas la consola deGoogle Cloud , este es el proyecto que se selecciona en la consola.

Para ampliar el alcance de los resultados de la búsqueda más allá de los recursos dentro del perímetro de los Controles del servicio de VPC de tu proyecto, usa las reglas de entrada y salida de los Controles del servicio de VPC. Estas reglas facilitan el intercambio de datos privados y eficientes en toda tu organización. Puedes configurar reglas de entrada y salida con la consola deGoogle Cloud o a través de archivos JSON o YAML. Consulta el siguiente ejemplo de YAML y la documentación de los Controles del servicio de VPC para adaptar la regla a tus requisitos específicos.

egressPolicies:
  - egressFrom:
      identityType: ANY_USER_ACCOUNT
    egressTo:
      # Specify which resources should be present in the search results. In this example,
      # BigQuery.
      operations:
      - methodSelectors:
        - method: '*'
        serviceName: bigquery.googleapis.com
      # Specify project ids under which the search is performed.
      resources:
      - projects/SEARCH_PROJECT_ID
ingressPolicies:
  - ingressFrom:
      identityType: ANY_USER_ACCOUNT
      sources:
      - accessLevel: '*'
    ingressTo:
      # Specify which resources should be present in the search results. In this example,
      # BigQuery.
      operations:
      - methodSelectors:
        - method: '*'
        serviceName: bigquery.googleapis.com
      # Specify project ids to expose in search results.
      resources:
      - projects/INGRESS_PROJECT_ID

Para obtener más información sobre los roles de Identity and Access Management que necesitas para usar la búsqueda de Dataplex Universal Catalog, consulta Roles de IAM para Dataplex Universal Catalog.

Aísla los resultados de la búsqueda por entorno con los Controles del servicio de VPC

Para aislar los resultados de la búsqueda de Dataplex Universal Catalog entre entornos, como el de desarrollo, prueba y producción, configura perímetros de Controles del servicio de VPC independientes para cada entorno. Asigna los proyectos que contienen los recursos de datos y los proyectos que se usan para realizar búsquedas al perímetro del entorno correspondiente. Las búsquedas que se realizan desde un proyecto dentro de un perímetro específico solo devolverán resultados para los recursos que también se encuentren dentro de ese mismo perímetro.

Limitaciones de la recuperación en la búsqueda

Las búsquedas en Dataplex Universal Catalog no garantizan una recuperación completa. Es posible que no se muestren los resultados que coincidan con tu búsqueda. Además, los resultados devueltos (y los que no se devuelven) pueden variar si repites las búsquedas.

Para consultar todos los metadatos de Dataplex Universal Catalog, puedes exportarlos a Cloud Storage y, luego, consultarlos desde BigQuery. Para obtener más información, consulta Exporta metadatos.

Filtros

Los filtros te permiten acotar los resultados de la búsqueda. Los filtros están disponibles en la búsqueda por palabras clave y en la búsqueda en lenguaje natural, pero las opciones disponibles pueden diferir ligeramente según el modo.

Cuando proporcionas filtros en varias secciones, se evalúan con el operador lógico AND. Los resultados de la búsqueda contienen recursos que coinciden con al menos una condición de cada sección seleccionada. Por ejemplo, si seleccionas el sistema de BigQuery y el tipo de recurso del conjunto de datos, los resultados de la búsqueda incluirán conjuntos de datos de BigQuery, pero no conjuntos de datos de Vertex AI.

Si seleccionas varios filtros dentro de una misma sección, se evalúan con el operador lógico OR. Por ejemplo, si seleccionas el tipo de recurso del conjunto de datos y el tipo de recurso de la tabla, los resultados de la búsqueda incluirán tanto conjuntos de datos como tablas.

Filtros de búsqueda por palabra clave

En el caso de la búsqueda por palabras clave, los filtros se agrupan en las siguientes secciones:

  • Sistemas como BigQuery, Cloud SQL y otros El sistema de Dataplex Universal Catalog contiene entradas personalizadas.
  • En Aspectos (etiquetas), se enumeran todos los aspectos disponibles para ti.
  • Proyecto muestra todos los proyectos disponibles para ti.
  • Los alias de tipo describen tipos de recursos, como bases de datos, conjuntos de datos, modelos, tablas, vistas, servicios y tipos personalizados.
  • Los conjuntos de datos provienen de BigQuery.

Filtrar por valor de aspecto

Los filtros de Aspectos te permiten consultar los recursos etiquetados con una plantilla específica. Puedes usar el menú Personalizar para definir mejor los resultados y filtrarlos por valores de aspectos específicos. Las condiciones del filtro de valores de aspectos dependen del tipo de datos de ese campo de aspecto. Por ejemplo, para los campos datetime y number, puedes especificar una fecha o un período específicos.

Visibilidad del filtro

Los filtros Sistemas, Alias de tipo, Proyecto y Conjuntos de datos se muestran según la consulta actual en el campo Búsqueda.

Filtros de búsqueda en lenguaje natural

Para la búsqueda en lenguaje natural, están disponibles los siguientes filtros:

  • Alcance: Realiza búsquedas en toda la organización (opción predeterminada), en el proyecto actual o solo en los recursos destacados. Para obtener más información, consulta la sección Alcance de la búsqueda de este documento.
  • Sistemas: El Google Cloud servicio al que pertenece el recurso, como BigQuery. El sistema de Dataplex Universal Catalog contiene grupos de entradas.
  • Projects: Son los proyectos en los que se realizará la búsqueda.
  • Tipo: Es el tipo de recurso, como conexión de BigQuery, bucket de Cloud Storage o base de datos. Según el tipo de recurso, también puedes filtrar por subtipo, como el tipo de conexión o el dialecto de SQL.
  • Selecciona ubicaciones: Son las ubicaciones en las que se realizará la búsqueda.
  • Seleccionar conjuntos de datos: Los resultados de la búsqueda se limitan a los recursos de BigQuery que pertenecen a los conjuntos de datos de BigQuery seleccionados. En el campo Escribe para filtrar, ingresa el nombre del conjunto de datos.
  • Tipos de aspectos: Son los tipos de aspectos de Dataplex Universal Catalog que se asocian con el recurso que buscas. Para filtrar por valores de aspecto, haz clic en Filtrar los valores de anotación y, luego, selecciona los valores.

Antes de comenzar

Antes de realizar la búsqueda, asegúrate de que se te hayan otorgado los roles necesarios y de haber habilitado la API necesaria.

Roles requeridos

En esta sección, se describen los roles y permisos necesarios para buscar recursos y acceder a los resultados de la búsqueda.

Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso.

También puedes obtener los permisos necesarios a través de roles personalizados o cualquier otro rol predefinido.

Roles obligatorios para buscar entradas

Para buscar entradas, necesitas al menos uno de los siguientes roles de IAM en el proyecto que se usa para la búsqueda: Administrador de Dataplex Catalog, Editor de Dataplex Catalog o Visualizador de Dataplex Catalog. Los permisos en los resultados de la búsqueda se verifican de forma independiente del proyecto seleccionado.

Roles requeridos para acceder a los resultados de la búsqueda

El alcance de los resultados de la búsqueda en Dataplex Universal Catalog se define según tu rol. Para buscar un recurso en Dataplex Universal Catalog, debes tener permisos para acceder al recurso correspondiente en el sistema fuente. Para obtener más información, consulta la sección Alcance de la búsqueda de este documento.

Por ejemplo, para buscar conjuntos de datos, tablas, vistas y modelos de BigQuery, necesitas los permisos correspondientes para esas entradas. Para obtener más información, consulta Permisos de BigQuery.

En la siguiente lista, se describen los permisos mínimos requeridos:

  • Para buscar una tabla, necesitas el permiso bigquery.tables.get para esa tabla.
  • Para buscar un conjunto de datos, necesitas el permiso bigquery.datasets.get para ese conjunto de datos.
  • Para buscar metadatos de un conjunto de datos o una tabla, necesitas el rol de visualizador de metadatos de BigQuery (roles/bigquery.metadataViewer).

Como otro ejemplo, para buscar instancias, bases de datos, esquemas, tablas y vistas de Cloud SQL, necesitas los permisos correspondientes en esas entradas. Para obtener más información, consulta Roles y permisos de Cloud SQL.

Para buscar entradas personalizadas, necesitas el rol de Visualizador del catálogo de Dataplex (roles/dataplex.catalogViewer).

Habilita la API

Enable the Dataplex API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Buscar recursos

Console

Para buscar recursos, sigue estos pasos:

  1. En la consola de Google Cloud , ve a la página Búsqueda de Dataplex Universal Catalog.

    Ir a Búsqueda

  2. En Elige una plataforma de búsqueda, selecciona Dataplex Universal Catalog.

    Si seleccionas Dataplex Universal Catalog, podrás buscar en el almacenamiento de metadatos de Dataplex Universal Catalog. Si seleccionas Data Catalog, podrás buscar en tu repositorio de Data Catalog si ya eres usuario de Data Catalog.

  3. Para usar la búsqueda por palabras clave, sigue estos pasos:

    1. En el campo Busca recursos en todos los proyectos, ingresa tu consulta.

    2. Para definir mejor tu búsqueda, usa el panel Filtros. Para obtener la lista de filtros disponibles, consulta Filtros de búsqueda por palabra clave.

      Puedes agregar manualmente los siguientes filtros:

      • Agrega un filtro de proyecto: En Proyecto, haz clic en Agregar proyecto. Busca un proyecto específico, selecciónalo y, luego, haz clic en Abrir.
      • Agrega un filtro de tipo de aspecto: En Aspectos, haz clic en el menú Agregar más tipos de aspectos. Busca una plantilla específica, selecciónala y, luego, haz clic en Aceptar.
    3. Opcional: Además de los recursos disponibles para ti, puedes buscar recursos disponibles de forma pública en Google Cloud . Para ello, selecciona Incluir conjuntos de datos públicos.

      Usa las siguientes sugerencias para crear una búsqueda:

      • Encierra tu expresión de búsqueda entre comillas si contiene espacios. Por ejemplo, "search terms".
      • Antepón NOT a una palabra clave para que coincida con la negación lógica del filtro keyword:term. También puedes usar los operadores booleanos AND y OR para combinar expresiones de búsqueda. Los operadores AND, OR y NOT no distinguen mayúsculas de minúsculas.

      Por ejemplo, NOT column:term enumera todas las columnas, excepto las que coinciden con el término especificado. Para obtener una lista de palabras clave y otros términos que puedes usar en una expresión de búsqueda de Dataplex Universal Catalog, consulta Sintaxis de búsqueda.

  4. Para usar la búsqueda en lenguaje natural, sigue estos pasos:

    1. Haz clic en Probar la búsqueda en lenguaje natural.

    2. En el campo Encuentra recursos en todos los proyectos con el lenguaje natural, ingresa tu consulta en lenguaje natural y, luego, presiona Intro.

      Estas son algunas consultas de ejemplo:

      • Show me the datasets that contain taxi information
      • Find data on vaccine distribution across different countries
      • Get tables with historical temperature data for major world cities
      • Search for hurricane tracking and storm activity datasets
      • Population data by country
    3. Para definir mejor la búsqueda, haz clic en Filtros. Para obtener la lista de filtros disponibles, consulta Filtros de búsqueda en lenguaje natural.

  5. Para ver más información sobre el recurso buscado, haz clic en su nombre en los resultados de la búsqueda. Se abrirá la página de detalles de la entrada.

gcloud

Para buscar recursos, usa el comando gcloud dataplex entries search.

REST

Para buscar recursos, usa el método searchEntries.

Cómo ver los detalles de una entrada

Console

Usa la búsqueda de Dataplex Universal Catalog para ver los detalles de una entrada.

  1. Busca una entrada en Dataplex Universal Catalog.

  2. En los resultados de la búsqueda, haz clic en la entrada cuyos detalles deseas ver.

    Se abrirá la página de detalles de la entrada. La página incluye las siguientes secciones:

    • Detalles de entrada: Incluye información como el tipo de entrada, el sistema, la plataforma, el nombre completo, la hora de creación, la hora de la última modificación, la descripción y los administradores.
    • Descripción general: Es una descripción general de la entrada, si está disponible.
    • Aspectos: Son los aspectos obligatorios y opcionales definidos para la entrada. Para obtener más información, consulta Categorías de aspectos.

gcloud

Para ver los detalles de una entrada, usa el comando gcloud dataplex entries lookup.

REST

Para ver los detalles de una entrada, usa el método lookupEntry.

Limitaciones

Estas son las limitaciones de la búsqueda en lenguaje natural:

  • La búsqueda en lenguaje natural está optimizada para el descubrimiento y la exploración, ya que devuelve un conjunto limitado de los resultados más relevantes. Es posible que no proporcione una lista exhaustiva de todos los elementos coincidentes y, por lo tanto, que no sea adecuado para cargas de trabajo que dependan de esto, como las canalizaciones de curación.

  • La búsqueda en lenguaje natural solo tiene en cuenta los metadatos de los recursos, incluidos los esquemas, las descripciones y los aspectos. No responde preguntas sobre los datos dentro de las tablas (por ejemplo, “¿Cuáles fueron las ventas del mes pasado?”) ni realiza consultas analíticas sobre los metadatos (por ejemplo, “¿Cuántas tablas hay en el conjunto de datos X?”).

  • Los recursos públicos no están dentro del alcance de la búsqueda en lenguaje natural.

¿Qué sigue?