Administra la preparación de datos
En este documento, se describe cómo administrar las preparaciones de datos en BigQuery, lo que incluye cómo implementar y programar las preparaciones de datos. Las preparaciones de datos son recursos de BigQuery con tecnología de Dataform.
En este documento, también se describe cómo ver y administrar los metadatos de preparación de datos en Dataplex.
Antes de comenzar
- Asegúrate de haber habilitado la API de Gemini para Google Cloud.
- Para administrar los metadatos de preparación de datos en Dataplex, asegúrate de que la API de Dataplex esté habilitada en tu proyecto de Google Cloud .
Roles obligatorios
Para garantizar que la cuenta de servicio de Dataform tenga los permisos necesarios para preparar datos en BigQuery, consulta los roles obligatorios para las cuentas de servicio de Dataform.
Para obtener los permisos que necesitas para preparar datos en BigQuery, pídele a tu administrador que te otorgue los siguientes roles de IAM en el proyecto:
-
Editor de datos de BigQuery (
roles/bigquery.dataEditor
) -
Consumidor de Service Usage (
roles/serviceusage.serviceUsageConsumer
)
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
También puedes obtener los permisos necesarios mediante roles personalizados o cualquier otro rol predefinido.
Para administrar los metadatos de preparación de datos en Dataplex,
asegúrate de tener los roles de Dataplex necesarios y el permiso
dataform.repository.get
.
Consulta las preparaciones de datos existentes
Para ver una lista de las preparaciones de datos existentes, sigue estos pasos:
- En la página BigQuery Studio, ve al panel Explorador.
- Expande tu proyecto.
- Expande la lista Preparación de datos.
Programa preparaciones de datos
Puedes crear programas en el editor de preparación de datos y administrarlos en la página Orchestration de BigQuery.
Crear una programación
Para crear una programación que ejecute los pasos de preparación de datos y cargue los datos preparados en la tabla de destino, programa una ejecución de preparación de datos única o recurrente:
- En la barra de herramientas de preparación de datos, haz clic en Programar.
- Ingresa un nombre para la programación.
- Ingresa el nombre de la cuenta de servicio asociada con la ejecución.
- Programa una frecuencia.
- Haz clic en Crear programación.
Ver agendas
Para ver todos los programas de preparación de datos de tu proyecto, sigue estos pasos:
En la consola de Google Cloud , ve a la página Orchestration.
Opcional: Para ver los detalles de una programación seleccionada y sus ejecuciones anteriores, haz clic en el nombre de la programación.
Borra un programa
Para borrar de forma permanente una programación de una preparación de datos seleccionada, sigue estos pasos:
En la consola de Google Cloud , ve a la página Orchestration.
En la fila que contiene el programa, haz clic en > Borrar.
Acciones
Optimiza la preparación de datos procesándolos de forma incremental
Para configurar la forma en que tus datos preparados se escriben en una tabla de destino, sigue estos pasos:
En la consola de Google Cloud , ve a la página BigQuery Studio.
En el panel Actividad, selecciona la preparación de datos.
En la barra de herramientas de la preparación de datos, selecciona Más > Modo de escritura.
Selecciona una de las opciones. Para obtener más información, consulta Modo de escritura.
Haz clic en Guardar.
Ayuda a mejorar las sugerencias
Puedes ayudar a mejorar las sugerencias de Gemini si compartes con Google los datos de la instrucción que envías a las funciones en Versión preliminar. Para compartir tus datos de prompts, sigue estos pasos:
- Abre el editor de preparación de datos en BigQuery.
- En la barra de herramientas de preparación de datos, haz clic en Configuración Más.
- Selecciona Compartir datos para mejorar Gemini en BigQuery.
La configuración de uso compartido de datos se aplica a todo el proyecto y solo puede establecerla un administrador de proyecto con los permisos serviceusage.services.enable
y serviceusage.services.list
de IAM. Para obtener más información sobre el uso de datos en el programa de Verificador de confianza, consulta Gemini en el programa de Verificador de confianza de Google Cloud .
Versiones de preparación de datos
Las preparaciones de datos de BigQuery no admiten ver, comparar ni restablecer versiones de preparación de datos.
Para obtener una lista de las versiones de preparación de datos en orden cronológico, sigue estos pasos:
- En la página BigQuery Studio, ve al panel Explorador.
- Selecciona la preparación de datos. Las versiones se enumeran en la pestaña Actividad del panel Explorador.
Descarga una preparación de datos
Para descargar una preparación de datos en un archivo YAML, sigue estos pasos:
En la consola de Google Cloud , ve a la página BigQuery Studio.
En el panel Explorador, expande tu proyecto y la carpeta Preparación de datos. Haz clic en el nombre de la preparación de datos que deseas descargar.
Haz clic en Descargar. La preparación de datos se guarda en el formato de archivo YAML, por ejemplo,
NAME data preparation.dp.yaml
.
Sube una preparación de datos
Para subir una preparación de datos desde un archivo YAML, sigue estos pasos:
En la consola de Google Cloud , ve a la página BigQuery Studio.
En el panel Explorador, expande tu proyecto.
Ve a la carpeta Preparación de datos y haz clic en more_vert Menú > Subir a Preparación de datos.
En el diálogo Subir preparación de datos, selecciona un archivo para subir o ingresa la URL de la preparación de datos.
Ingresa un nombre para la preparación de los datos.
Selecciona una ubicación de preparación de datos en la que se administren y almacenen los recursos.
Haz clic en Subir.
Administra metadatos en Dataplex
Dataplex te permite almacenar y administrar metadatos para la preparación de datos. Las preparaciones de datos están disponibles en Dataplex de forma predeterminada, sin configuración adicional.
Puedes usar Dataplex para administrar la preparación de datos en todas las ubicaciones de BigQuery. La administración de las preparaciones de datos en Dataplex está sujeta a las cuotas y los límites de Dataplex y a los precios de Dataplex.
Dataplex recupera automáticamente los siguientes metadatos de las preparaciones de datos:
- Nombre del recurso de datos
- Elemento superior del recurso de datos
- Ubicación del recurso de datos
- Tipo de recurso de datos
- Proyecto Google Cloud correspondiente
Dataplex registra las preparaciones de datos como entradas con los siguientes valores de entrada:
- Grupo de entrada del sistema
- El grupo de entrada del sistema para la preparación de datos es
@dataform
. Para ver los detalles de las entradas de preparación de datos en Dataplex, debes ver el grupo de entradas del sistemadataform
. Si deseas obtener instrucciones para ver una lista de todas las entradas de un grupo de entradas, consulta Cómo ver los detalles de un grupo de entradas en la documentación de Dataplex. - Tipo de entrada del sistema
- El tipo de entrada del sistema para la preparación de datos es
dataform-code-asset
. Para ver los detalles de la preparación de datos, debes ver el tipo de entrada del sistemadataform-code-asset
, filtrar los resultados con un filtro basado en aspectos y establecer el campotype
dentro del aspectodataform-code-asset
enDATA_PREPARATION
. Luego, selecciona una entrada de la preparación de datos seleccionada. Para obtener instrucciones sobre cómo ver los detalles de un tipo de entrada seleccionado, consulta Cómo ver los detalles de un tipo de entrada en la documentación de Dataplex. Si deseas obtener instrucciones para ver los detalles de una entrada seleccionada, consulta Cómo ver los detalles de una entrada en la documentación de Dataplex. - Tipo de aspecto del sistema
- El tipo de aspecto del sistema para la preparación de datos es
dataform-code-asset
. Para proporcionar contexto adicional a las preparaciones de datos en Dataplex a través de la anotación de entradas de preparación de datos con aspectos, consulta el tipo de aspectodataform-code-asset
, filtra los resultados con un filtro basado en aspectos y establece el campotype
dentro del aspectodataform-code-asset
enDATA_PREPARATION
. Para obtener instrucciones sobre cómo anotar entradas con aspectos, consulta Administra los aspectos y enriquece los metadatos en la documentación de Dataplex. - Tipo
- El tipo de lienzos de datos es
DATA_PREPARATION
. Este tipo te permite filtrar las preparaciones de datos en el tipo de entrada del sistemadataform-code-asset
y el tipo de aspectodataform-code-asset
con la consultaaspect:dataplex-types.global.dataform-code-asset.type=DATA_PREPARATION
en un filtro basado en aspectos.
Para obtener instrucciones sobre cómo buscar recursos en Dataplex, consulta Cómo buscar recursos de datos en Dataplex en la documentación de Dataplex.
¿Qué sigue?
- Obtén más información para preparar datos en BigQuery.
- Obtén información para crear preparaciones de datos.