Administra las preparaciones de datos
En este documento, se describe cómo administrar la preparación de datos en BigQuery, lo que incluye otorgar los roles de Identity and Access Management (IAM) necesarios y administrar los metadatos en el catálogo universal de Dataplex.
Las preparaciones de datos son recursos de BigQuery con tecnología de Dataform.
Antes de comenzar
- Asegúrate de haber habilitado la API de Gemini para Google Cloud.
- Para administrar los metadatos de preparación de datos en Dataplex Universal Catalog, asegúrate de que la API de Dataplex esté habilitada en tu proyecto Google Cloud .
Roles obligatorios
Los usuarios que preparan los datos y las cuentas de servicio de Dataform que ejecutan los trabajos requieren los permisos que otorgan los siguientes roles de Identity and Access Management (IAM).
Obtén acceso de usuario para la preparación de datos
Para obtener los permisos que necesitas para preparar datos en BigQuery, pídele a tu administrador que te otorgue los siguientes roles de IAM:
-
Usuario de BigQuery Studio (
roles/bigquery.studioUser
) en el proyecto -
Usuario de Gemini para Google Cloud (
roles/cloudaicompanion.user
) en el proyecto -
Accede a las tablas de origen:
Visualizador de datos de BigQuery (
roles/bigquery.dataViewer
) en la tabla, el conjunto de datos o el proyecto
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
Para obtener más información sobre IAM para conjuntos de datos en BigQuery, consulta Cómo otorgar acceso a un recurso.También puedes obtener estos permisos con roles personalizados o con otros roles predefinidos.
Obtén acceso para administrar metadatos
Para obtener los permisos que necesitas para administrar los metadatos de preparación de datos en Dataplex Universal Catalog, asegúrate de tener los roles de Dataplex Universal Catalog y el permiso dataform.repositories.get
necesarios.
Otorga acceso a la cuenta de servicio de Dataform
Para garantizar que la cuenta de servicio de Dataform tenga los permisos necesarios para ejecutar preparaciones de datos en BigQuery, pídele a tu administrador que le otorgue a la cuenta de servicio de Dataform los siguientes roles de IAM:
-
Accede a las tablas de origen:
Visualizador de datos de BigQuery (
roles/bigquery.dataViewer
) en la tabla, el conjunto de datos o el proyecto -
Accede a las tablas de destino:
Editor de datos de BigQuery (
roles/bigquery.dataEditor
) en la tabla, el conjunto de datos o el proyecto
Es posible que la cuenta de servicio de Dataform requiera permisos adicionales, según tu canalización de preparación de datos. Para obtener más información, consulta Otorga el acceso requerido a Dataform.
Cómo ver las preparaciones de datos existentes
Para ver una lista de las preparaciones de datos existentes, sigue estos pasos:
- En la página de BigQuery, ve al panel Explorador.
- Expande tu proyecto.
- Expande la lista Preparaciones de datos.
Optimiza la preparación de datos procesándolos de forma incremental
Para configurar la forma en que se escriben tus datos preparados en una tabla de destino, sigue estos pasos.
En la consola de Google Cloud , ve a la página BigQuery.
En el panel Explorador, selecciona tu preparación de datos.
En la barra de herramientas de tu preparación de datos, selecciona Más > Modo de escritura.
Selecciona una de las opciones. Para obtener más información, consulta Modo de escritura.
Haz clic en Guardar.
Ayuda a mejorar las sugerencias
Puedes ayudar a mejorar las sugerencias de Gemini si compartes con Google los datos de la instrucción que envías a las funciones en Versión preliminar. Para compartir tus datos de prompts, sigue estos pasos:
- Abre el editor de preparación de datos en BigQuery.
- En la barra de herramientas de preparación de datos, haz clic en settings More.
- Selecciona Compartir datos para mejorar Gemini en BigQuery.
La configuración de uso compartido de datos se aplica a todo el proyecto y solo puede establecerla un administrador de proyecto con los permisos serviceusage.services.enable
y serviceusage.services.list
de IAM. Para obtener más información sobre el uso de datos en el programa de Verificadores de confianza, consulta Gemini para el programa de Verificadores de confianza de Google Cloud .
Versiones de preparación de datos
Puedes crear una preparación de datos dentro o fuera de un repositorio. El control de versiones de la preparación de datos se maneja de manera diferente según dónde se encuentre la preparación de datos.
Control de versiones de la preparación de datos en repositorios
Los repositorios son repositorios de Git que residen en BigQuery o con un proveedor externo. Puedes usar espacios de trabajo en repositorios para realizar el control de versión en las preparaciones de datos. Para obtener más información, consulta Cómo control de versión con un archivo.
Control de versiones de la preparación de datos fuera de los repositorios
Las preparaciones de datos de BigQuery que no se encuentran en repositorios no admiten la visualización, la comparación ni la restauración de versiones de preparación de datos.
Para obtener una lista de las versiones de preparación de datos en orden cronológico, sigue estos pasos:
- En la página de BigQuery, ve al panel Explorador.
- Selecciona la preparación de datos.
- Haz clic en Historial de versiones.
Descarga una preparación de datos
Para descargar una preparación de datos en un archivo YAML, sigue estos pasos:
En la consola de Google Cloud , ve a la página BigQuery.
En el panel Explorador, expande tu proyecto y la carpeta Preparaciones de datos. Haz clic en el nombre de la preparación de datos que deseas descargar.
Haz clic en Descargar. La preparación de datos se guarda en formato de archivo YAML, por ejemplo,
NAME data preparation.dp.yaml
.
Sube una preparación de datos
Para subir una preparación de datos desde un archivo YAML, sigue estos pasos:
En la consola de Google Cloud , ve a la página BigQuery.
En el panel Explorador, expande tu proyecto.
Ve a la carpeta Data preparations y haz clic en more_vert Menú > Upload to Data preparation.
En el cuadro de diálogo Subir preparación de datos, selecciona un archivo para subir o ingresa la URL de la preparación de datos.
Ingresa un nombre para la preparación de datos.
Selecciona una ubicación de preparación de datos en la que se administren y almacenen los recursos.
Haz clic en Subir.
Administra metadatos en Dataplex Universal Catalog
Dataplex Universal Catalog te permite almacenar y administrar metadatos para las preparaciones de datos. Las preparaciones de datos están disponibles en Dataplex Universal Catalog de forma predeterminada, sin configuración adicional.
Puedes usar Dataplex Universal Catalog para administrar las preparaciones de datos en todas las ubicaciones de BigQuery. La administración de las preparaciones de datos en Dataplex Universal Catalog está sujeta a las cuotas y los límites de Dataplex Universal Catalog y a los precios de Dataplex Universal Catalog.
Dataplex Universal Catalog recupera automáticamente los siguientes metadatos de las preparaciones de datos:
- Nombre del recurso de datos
- Recurso de datos principal
- Ubicación del recurso de datos
- Tipo de recurso de datos
- Proyecto Google Cloud correspondiente
Dataplex Universal Catalog registra las preparaciones de datos como entradas con los siguientes valores de entrada:
- Grupo de entrada del sistema
- El grupo de entrada del sistema para las preparaciones de datos es
@dataform
. Para ver los detalles de las entradas de preparación de datos en Dataplex Universal Catalog, debes ver el grupo de entradas del sistemadataform
. Para obtener instrucciones sobre cómo ver una lista de todas las entradas de un grupo de entradas, consulta Cómo ver los detalles de un grupo de entradas en la documentación de Dataplex Universal Catalog. - Tipo de entrada del sistema
- El tipo de entrada del sistema para las preparaciones de datos es
dataform-code-asset
. Para ver los detalles de las preparaciones de datos, debes ver el tipo de entrada del sistemadataform-code-asset
, filtrar los resultados con un filtro basado en aspectos y establecer el campotype
dentro del aspectodataform-code-asset
enDATA_PREPARATION
. Luego, selecciona una entrada de la preparación de datos seleccionada. Para obtener instrucciones sobre cómo ver los detalles de un tipo de entrada seleccionado, consulta Cómo ver los detalles de un tipo de entrada en la documentación de Dataplex Universal Catalog. Para obtener instrucciones sobre cómo ver los detalles de una entrada seleccionada, consulta Cómo ver los detalles de una entrada en la documentación de Dataplex Universal Catalog. - Tipo de aspecto del sistema
- El tipo de aspecto del sistema para las preparaciones de datos es
dataform-code-asset
. Para proporcionar contexto adicional a las preparaciones de datos en Dataplex Universal Catalog anotando las entradas de preparación de datos con aspectos, consulta el tipo de aspectodataform-code-asset
, filtra los resultados con un filtro basado en aspectos y establece el campotype
dentro del aspectodataform-code-asset
enDATA_PREPARATION
. Si deseas obtener instrucciones para anotar entradas con aspectos, consulta Administra aspectos y enriquece metadatos en la documentación de Dataplex Universal Catalog. - Tipo
- El tipo de lienzos de datos es
DATA_PREPARATION
. Este tipo te permite filtrar las preparaciones de datos en el tipo de entrada del sistemadataform-code-asset
y el tipo de aspectodataform-code-asset
con la consultaaspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION
en un filtro basado en aspectos.
Para obtener instrucciones sobre cómo buscar recursos, consulta Cómo buscar recursos de datos en Dataplex Universal Catalog en la documentación de Dataplex Universal Catalog.
¿Qué sigue?
- Obtén más información para preparar datos en BigQuery.
- Obtén más información para ejecutar preparaciones de datos de forma manual o con una programación.
- Obtén información para crear preparaciones de datos.