Evaluación de la migración
La evaluación de la migración de BigQuery te permite planificar y revisar la migración de tu almacén de datos existente en BigQuery. Puedes ejecutar la evaluación de migración de BigQuery a fin de generar un informe para evaluar el costo de almacenamiento de tus datos en BigQuery, ver cómo BigQuery puede optimizar tu carga de trabajo existente en función del ahorro de costos y preparar un plan de migración en el que se describa el tiempo y el esfuerzo necesarios para completar la migración de tu almacén de datos a BigQuery.
En este documento, se describe cómo usar la evaluación de migración de BigQuery y las diferentes formas en que puedes revisar los resultados de la evaluación. Este documento está dirigiendo a usuarios que estén familiarizados con la consola deGoogle Cloud y el traductor de SQL por lotes.
Antes de comenzar
Para preparar y ejecutar una evaluación de migración de BigQuery, sigue estos pasos:
Extrae metadatos y registros de consultas de tu almacén de datos con la herramienta
dwh-migration-dumper
.Sube tus metadatos y registros de consulta a tu bucket de Cloud Storage.
Opcional: Consulta los resultados de la evaluación para encontrar información detallada o específica de la evaluación.
Extrae metadatos y registros de consultas de tu almacén de datos
Tanto los metadatos como los registros de consultas son necesarios para preparar la evaluación con recomendaciones.
A fin de extraer los metadatos y los registros de consultas necesarios para ejecutar la evaluación, selecciona tu almacén de datos:
Teradata
Requisitos
- Una máquina conectada a tu almacén de datos de Teradata de origen (se admiten Teradata 15 y versiones posteriores)
- Una cuenta de Google Cloud con un bucket de Cloud Storage para almacenar los datos
- Un conjunto de datos de BigQuery vacío para almacenar los resultados.
- Lee los permisos del conjunto de datos para ver los resultados
- Recomendado: derechos de acceso a nivel de administrador a la base de datos de origen cuando se usa la herramienta de extracción para acceder a tablas del sistema
Requisito: habilitar el registro
La herramienta dwh-migration-dumper
extrae tres tipos de registros: registros de consulta, registros de utilidad y registros de uso de recursos. Debes habilitar el registro de los siguientes tipos de registros para ver estadísticas más detalladas:
- Registros de consultas: Se extraen de la vista
dbc.QryLogV
y de la tabladbc.DBQLSqlTbl
. Para habilitar el registro, especifica la opciónWITH SQL
. - Registros de utilidad: Se extraen de la tabla
dbc.DBQLUtilityTbl
. Para habilitar el registro, especifica la opciónWITH UTILITYINFO
. - Registros de uso de recursos: Se extraen de las tablas
dbc.ResUsageScpu
ydbc.ResUsageSpma
. Habilita el registro de RSS para estas dos tablas.
Ejecuta la herramienta dwh-migration-dumper
Descargue la herramienta dwh-migration-dumper
.
Descarga el archivo SHA256SUMS.txt
y ejecuta el siguiente comando para verificar la precisión del archivo ZIP:
Bash
sha256sum --check SHA256SUMS.txt
WindowsPowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Reemplaza RELEASE_ZIP_FILENAME
por el nombre del archivo ZIP
descargado de la versión de la herramienta de extracción de línea de comandos de dwh-migration-dumper
, por
ejemplo, dwh-migration-tools-v1.0.52.zip
.
El resultado True
confirma la verificación correcta de la suma de verificación.
El resultado False
indica un error de verificación. Asegúrate de que los archivos de suma de comprobación
y ZIP se descarguen de la misma versión de actualización y se coloquen en
el mismo directorio.
Si deseas obtener detalles sobre cómo configurar y usar la herramienta de extracción, consulta Genera metadatos para la traducción y la evaluación.
Usa la herramienta de extracción para extraer registros y metadatos de tu almacén de datos de Teradata como dos archivos ZIP. Ejecuta los siguientes comandos en una máquina con acceso al almacén de datos de origen para generar los archivos.
Genera el archivo ZIP de metadatos:
dwh-migration-dumper \ --connector teradata \ --database DATABASES \ --driver path/terajdbc4.jar \ --host HOST \ --assessment \ --user USER \ --password PASSWORD
Genera el archivo ZIP que contiene los registros de consulta:
dwh-migration-dumper \ --connector teradata-logs \ --driver path/terajdbc4.jar \ --host HOST \ --assessment \ --user USER \ --password PASSWORD
Reemplaza lo siguiente:
DATABASES
: Es la lista separada por comas de los nombres de las bases de datos que se extraerán.PATH
: Es la ruta absoluta o relativa al archivo JAR del controlador que se usará para esta conexión.VERSION
: Es la versión del controlador.HOST
: la dirección del hostUSER
: el nombre de usuario que se usará para la conexión de la base de datosPASSWORD
: la contraseña que se usará para la conexión a la base de datos.Si se deja vacía, se le solicita al usuario su contraseña.
Solo puedes usar la marca --database
para el conector teradata
. Esta marca
te permite extraer los metadatos de una o más bases de datos. Cuando extraes los registros de consulta con el conector teradata-logs
, la marca --database
no está disponible. Los registros de consultas siempre se extraen para todas las bases de datos.
De forma predeterminada, los registros de consultas se extraen de la vista dbc.QryLogV
y de la tabla dbc.DBQLSqlTbl
. Si necesitas extraer los registros de consultas de una ubicación alternativa, puedes especificar los nombres de las tablas o vistas mediante las marcas -Dteradata-logs.query-logs-table
y -Dteradata-logs.sql-logs-table
.
De forma predeterminada, los registros de utilidad se extraen de la tabla
dbc.DBQLUtilityTbl
. Si necesitas extraer los registros de la utilidad de una
ubicación alternativa, puedes especificar el nombre de la tabla con la marca
-Dteradata-logs.utility-logs-table
.
De forma predeterminada, los registros de uso de recursos se extraen de las tablas dbc.ResUsageScpu
y dbc.ResUsageSpma
. Si necesitas extraer los
registros de uso de recursos de una ubicación alternativa, puedes especificar los nombres
de las tablas con las marcas -Dteradata-logs.res-usage-scpu-table
y
-Dteradata-logs.res-usage-spma-table
.
Por ejemplo:
Bash
dwh-migration-dumper \ --connector teradata-logs \ --driver path/terajdbc4.jar \ --host HOST \ --assessment \ --user USER \ --password PASSWORD \ -Dteradata-logs.query-logs-table=pdcrdata.QryLogV_hst \ -Dteradata-logs.sql-logs-table=pdcrdata.DBQLSqlTbl_hst \ -Dteradata-logs.log-date-column=LogDate \ -Dteradata-logs.utility-logs-table=pdcrdata.DBQLUtilityTbl_hst \ -Dteradata-logs.res-usage-scpu-table=pdcrdata.ResUsageScpu_hst \ -Dteradata-logs.res-usage-spma-table=pdcrdata.ResUsageSpma_hst
WindowsPowerShell
dwh-migration-dumper ` --connector teradata-logs ` --driver path\terajdbc4.jar ` --host HOST ` --assessment ` --user USER ` --password PASSWORD ` "-Dteradata-logs.query-logs-table=pdcrdata.QryLogV_hst" ` "-Dteradata-logs.sql-logs-table=pdcrdata.DBQLSqlTbl_hst" ` "-Dteradata-logs.log-date-column=LogDate" ` "-Dteradata-logs.utility-logs-table=pdcrdata.DBQLUtilityTbl_hst" ` "-Dteradata-logs.res-usage-scpu-table=pdcrdata.ResUsageScpu_hst" ` "-Dteradata-logs.res-usage-spma-table=pdcrdata.ResUsageSpma_hst"
De forma predeterminada, la herramienta dwh-migration-dumper
extrae los últimos siete días de los registros de consulta.
Google recomienda que proporciones al menos dos semanas de registros de consultas para poder ver estadísticas más detalladas. Puedes especificar un intervalo de tiempo personalizado con las marcas --query-log-start
y --query-log-end
. Por ejemplo:
dwh-migration-dumper \ --connector teradata-logs \ --driver path/terajdbc4.jar \ --host HOST \ --assessment \ --user USER \ --password PASSWORD \ --query-log-start "2023-01-01 00:00:00" \ --query-log-end "2023-01-15 00:00:00"
También puedes generar varios archivos ZIP que contengan registros de consulta que abarquen diferentes períodos y proporcionarlos todos para su evaluación.
Amazon Redshift
Requisitos
- Una máquina conectada a tu almacén de datos de origen de Amazon Redshift
- Una cuenta de Google Cloud con un bucket de Cloud Storage para almacenar los datos
- Un conjunto de datos de BigQuery vacío para almacenar los resultados.
- Lee los permisos del conjunto de datos para ver los resultados
- Recomendado: Acceso de superusuario a la base de datos cuando se usa la herramienta de extracción para acceder a tablas del sistema
Ejecuta la herramienta dwh-migration-dumper
Descarga la herramienta de extracción de línea de comandos de dwh-migration-dumper
.
Descarga el archivo SHA256SUMS.txt
y ejecuta el siguiente comando para verificar la precisión del archivo ZIP:
Bash
sha256sum --check SHA256SUMS.txt
WindowsPowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Reemplaza RELEASE_ZIP_FILENAME
por el nombre del archivo ZIP
descargado de la versión de la herramienta de extracción de línea de comandos de dwh-migration-dumper
, por
ejemplo, dwh-migration-tools-v1.0.52.zip
.
El resultado True
confirma la verificación correcta de la suma de verificación.
El resultado False
indica un error de verificación. Asegúrate de que los archivos de suma de comprobación
y ZIP se descarguen de la misma versión de actualización y se coloquen en
el mismo directorio.
Para obtener detalles sobre cómo usar la herramienta de dwh-migration-dumper
, consulta la página Genera metadatos.
Usa la herramienta dwh-migration-dumper
para extraer registros y metadatos de tu almacén de datos de Amazon Redshift como dos archivos ZIP.
Ejecuta los siguientes comandos en una máquina con acceso al almacén de datos de origen para generar los archivos.
Genera el archivo ZIP de metadatos:
dwh-migration-dumper \ --connector redshift \ --database DATABASE \ --driver PATH/redshift-jdbc42-VERSION.jar \ --host host.region.redshift.amazonaws.com \ --assessment \ --user USER \ --iam-profile IAM_PROFILE_NAME
Genera el archivo ZIP que contiene los registros de consulta:
dwh-migration-dumper \ --connector redshift-raw-logs \ --database DATABASE \ --driver PATH/redshift-jdbc42-VERSION.jar \ --host host.region.redshift.amazonaws.com \ --assessment \ --user USER \ --iam-profile IAM_PROFILE_NAME
Reemplaza lo siguiente:
DATABASE
: el nombre de la base de datos a la que te conectarás.PATH
: Es la ruta absoluta o relativa al archivo JAR del controlador que se usará para esta conexión.VERSION
: Es la versión del controlador.USER
: el nombre de usuario que se usará para la conexión de la base de datosIAM_PROFILE_NAME
: Es el nombre del perfil de IAM de Amazon Redshift. Es obligatorio para la autenticación de Amazon Redshift y para el acceso a la API de AWS. Para obtener la descripción de los clústeres de Amazon Redshift, usa la API de AWS.
De forma predeterminada, Amazon Redshift almacena de tres a cinco días de registros de consultas.
De forma predeterminada, la herramienta dwh-migration-dumper
extrae los últimos siete días de los registros de consulta.
Google recomienda que proporciones al menos dos semanas de registros de consultas para poder ver estadísticas más detalladas. Es posible que debas ejecutar la herramienta de extracción algunas veces durante dos semanas para obtener los mejores resultados. Puedes especificar un rango personalizado con las marcas --query-log-start
y --query-log-end
.
Por ejemplo:
dwh-migration-dumper \ --connector redshift-raw-logs \ --database DATABASE \ --driver PATH/redshift-jdbc42-VERSION.jar \ --host host.region.redshift.amazonaws.com \ --assessment \ --user USER \ --iam-profile IAM_PROFILE_NAME \ --query-log-start "2023-01-01 00:00:00" \ --query-log-end "2023-01-02 00:00:00"
También puedes generar varios archivos ZIP que contengan registros de consulta que abarquen diferentes períodos y proporcionarlos todos para su evaluación.
Apache Hive
Requisitos
- Una máquina conectada a tu almacén de datos de origen de Apache Hive (la evaluación de migración de BigQuery admite Hive en Tez y MapReduce, y admite versiones de Apache Hive entre 2.2 y 3.1, inclusive)
- Una cuenta de Google Cloud con un bucket de Cloud Storage para almacenar los datos
- Un conjunto de datos de BigQuery vacío para almacenar los resultados.
- Lee los permisos del conjunto de datos para ver los resultados
- Acceso a tu almacén de datos de origen de Apache Hive para configurar la extracción de registros de consultas
- Estadísticas de tablas, particiones y columnas actualizadas
La evaluación de migración de BigQuery usa tablas, particiones y estadísticas de columnas para comprender tu almacén de datos de Apache Hive mejor y proporcionar estadísticas detalladas. Si la configuración hive.stats.autogather
se establece como false
en tu almacén de datos de origen de Apache Hive, Google recomienda habilitarla o actualizar las estadísticas de forma manual antes de ejecutar la herramienta de dwh-migration-dumper
.
Ejecuta la herramienta dwh-migration-dumper
Descarga la herramienta de extracción de línea de comandos de dwh-migration-dumper
.
Descarga el archivo SHA256SUMS.txt
y ejecuta el siguiente comando para verificar la precisión del archivo ZIP:
Bash
sha256sum --check SHA256SUMS.txt
WindowsPowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Reemplaza RELEASE_ZIP_FILENAME
por el nombre del archivo ZIP
descargado de la versión de la herramienta de extracción de línea de comandos de dwh-migration-dumper
, por
ejemplo, dwh-migration-tools-v1.0.52.zip
.
El resultado True
confirma la verificación correcta de la suma de verificación.
El resultado False
indica un error de verificación. Asegúrate de que los archivos de suma de comprobación
y ZIP se descarguen de la misma versión de actualización y se coloquen en
el mismo directorio.
Si deseas obtener detalles sobre cómo usar la herramienta dwh-migration-dumper
, consulta Genera metadatos para la traducción y la evaluación.
Usa la herramienta dwh-migration-dumper
para generar metadatos de tu almacén de datos de Hive como un archivo ZIP.
Sin autenticación
Para generar el archivo ZIP de metadatos, ejecuta el siguiente comando en una máquina que tenga acceso al almacén de datos de origen:
dwh-migration-dumper \ --connector hiveql \ --database DATABASES \ --host hive.cluster.host \ --port 9083 \ --assessment
Con autenticación de Kerberos
Para autenticarte en el almacén de metadatos, accede como un usuario que tenga acceso al almacén de metadatos de Hive y genera un ticket de Kerberos. Luego, genera el archivo ZIP de metadatos con el siguiente comando:
JAVA_OPTS="-Djavax.security.auth.useSubjectCredsOnly=false" \ dwh-migration-dumper \ --connector hiveql \ --database DATABASES \ --host hive.cluster.host \ --port 9083 \ --hive-kerberos-url PRINCIPAL/HOST \ -Dhiveql.rpc.protection=hadoop.rpc.protection \ --assessment
Reemplaza lo siguiente:
DATABASES
: Es la lista separada por comas de los nombres de las bases de datos que se extraerán. Si no se proporciona, se extraen todas las bases de datos.PRINCIPAL
: El principal de Kerberos al que se emitió el ticketHOST
: Es el nombre de host de Kerberos al que se emite el ticket.hadoop.rpc.protection
: Es la calidad de protección (QOP) del nivel de configuración de la capa de seguridad y autenticación simple (SASL), igual al valor del parámetrohadoop.rpc.protection
dentro del archivo/etc/hadoop/conf/core-site.xml
, con uno de los siguientes valores:authentication
integrity
privacy
Extrae registros de consultas con el hook de registro hadoop-migration-assessment
Para extraer registros de consultas, sigue estos pasos:
- Sube el hook de registro
hadoop-migration-assessment
. - Configura las propiedades del hook de registro.
- Verifica el hook de registro.
Sube el hook de registro hadoop-migration-assessment
Descarga el hook de registro de extracción de registros de consulta
hadoop-migration-assessment
que contiene el archivo JAR del hook de registro de Hive.Extrae el archivo JAR.
Si necesitas auditar la herramienta para asegurarte de que cumpla con los requisitos de cumplimiento, revisa el código fuente del repositorio de GitHub del hook de registro
hadoop-migration-assessment
y compila tu propio objeto binario.Copia el archivo JAR en la carpeta de la biblioteca auxiliar en todos los clústeres en los que planeas habilitar el registro de consultas. Según tu proveedor, debes ubicar la carpeta de la biblioteca auxiliar en la configuración del clúster y transferir el archivo JAR a la carpeta de la biblioteca auxiliar en el clúster de Hive.
Establece las propiedades de configuración para el hook de registro
hadoop-migration-assessment
. Según tu proveedor de Hadoop, debes usar la consola de IU para editar la configuración del clúster. Modifica el archivo/etc/hive/conf/hive-site.xml
o aplica la configuración con el administrador de configuración.
Configura propiedades
Si ya tienes otros valores para las siguientes claves de configuración, agrega la configuración mediante una coma (,
). A fin de configurar el hook de registro hadoop-migration-assessment
, se requiere la siguiente configuración:
hive.exec.failure.hooks
:com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
hive.exec.post.hooks
:com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
hive.exec.pre.hooks
:com.google.cloud.bigquery.dwhassessment.hooks.MigrationAssessmentLoggingHook
hive.aux.jars.path
: incluye la ruta al archivo JAR de hook de registro, por ejemplo,file://
./HiveMigrationAssessmentQueryLogsHooks_deploy.jar dwhassessment.hook.base-directory
: Es la ruta de acceso a la carpeta de salida de los registros de consulta. Por ejemplo,hdfs://tmp/logs/
También puedes establecer las siguientes configuraciones opcionales:
dwhassessment.hook.queue.capacity
: la capacidad de cola para los subprocesos de registro de eventos de consulta. El valor predeterminado es64
.dwhassessment.hook.rollover-interval
: la frecuencia con la que se debe realizar la transferencia del archivo. Por ejemplo,600s
El valor predeterminado es 3,600 segundos (1 hora).dwhassessment.hook.rollover-eligibility-check-interval
: la frecuencia con la que se activa la verificación de elegibilidad de transferencia de archivos en segundo plano. Por ejemplo,600s
El valor predeterminado es 600 segundos (10 minutos).
Verifica el hook de registro
Después de reiniciar el proceso hive-server2
, ejecuta una consulta de prueba y analiza los registros de depuración. Puedes ver el siguiente mensaje:
Logger successfully started, waiting for query events. Log directory is '[dwhassessment.hook.base-directory value]'; rollover interval is '60' minutes; rollover eligibility check is '10' minutes
El hook de registro crea una subcarpeta particionada por fecha en la carpeta configurada. El archivo Avro con eventos de consulta aparece en esa carpeta después del intervalo dwhassessment.hook.rollover-interval
o la finalización del proceso hive-server2
. Puedes buscar mensajes similares en tus registros de depuración para ver el estado de la operación de desplazamiento:
Updated rollover time for logger ID 'my_logger_id' to '2023-12-25T10:15:30'
Performed rollover check for logger ID 'my_logger_id'. Expected rollover time is '2023-12-25T10:15:30'
El desplazamiento se produce en los intervalos especificados o cuando cambia el día. Cuando la fecha cambia, el hook de registro también crea una subcarpeta nueva para esa fecha.
Google recomienda que proporciones al menos dos semanas de registros de consultas para poder ver estadísticas más detalladas.
También puedes generar carpetas que contengan registros de consulta de diferentes clústeres de Hive y proporcionarlos a todos para una sola evaluación.
Snowflake
Requisitos
Debes cumplir con los siguientes requisitos para extraer metadatos y registros de consultas de Snowflake:
- Una máquina que se pueda conectar a tus instancias de Snowflake.
- Una cuenta de Google Cloud con un bucket de Cloud Storage para almacenar los datos
- Un conjunto de datos de BigQuery vacío para almacenar los resultados. Como alternativa, puedes crear un conjunto de datos de BigQuery cuando creas el trabajo de evaluación con la IU de la consola de Google Cloud .
- Acceso al rol de
ACCOUNTADMIN
en tu instancia de Snowflake, o que un administrador de cuentas te otorgue un rol con los privilegiosIMPORTED PRIVILEGES
en la base de datosSnowflake
.
Ejecuta la herramienta dwh-migration-dumper
Descarga la herramienta de extracción de línea de comandos de dwh-migration-dumper
.
Descarga el archivo SHA256SUMS.txt
y ejecuta el siguiente comando para verificar la precisión del archivo ZIP:
Bash
sha256sum --check SHA256SUMS.txt
WindowsPowerShell
(Get-FileHash RELEASE_ZIP_FILENAME).Hash -eq ((Get-Content SHA256SUMS.txt) -Split " ")[0]
Reemplaza RELEASE_ZIP_FILENAME
por el nombre del archivo ZIP
descargado de la versión de la herramienta de extracción de línea de comandos de dwh-migration-dumper
, por
ejemplo, dwh-migration-tools-v1.0.52.zip
.
El resultado True
confirma la verificación correcta de la suma de verificación.
El resultado False
indica un error de verificación. Asegúrate de que los archivos de suma de comprobación
y ZIP se descarguen de la misma versión de actualización y se coloquen en
el mismo directorio.
Para obtener detalles sobre cómo usar la herramienta de dwh-migration-dumper
, consulta la página Genera metadatos.
Usa la herramienta dwh-migration-dumper
para extraer registros y metadatos del almacén de datos de Snowflake en dos archivos ZIP. Ejecuta los siguientes comandos en una máquina con acceso al almacén de datos de origen para generar los archivos.
Genera el archivo ZIP de metadatos:
dwh-migration-dumper \ --connector snowflake \ --host HOST_NAME \ --database SNOWFLAKE \ --user USER_NAME \ --role ROLE_NAME \ --warehouse WAREHOUSE \ --assessment \ --password PASSWORD
Genera el archivo ZIP que contiene los registros de consulta:
dwh-migration-dumper \ --connector snowflake-logs \ --host HOST_NAME \ --database SNOWFLAKE \ --user USER_NAME \ --role ROLE_NAME \ --warehouse WAREHOUSE \ --query-log-start STARTING_DATE \ --query-log-end ENDING_DATE \ --assessment \ --password PASSWORD
Reemplaza lo siguiente:
HOST_NAME
: el nombre de host de tu instancia de Snowflake.USER_NAME
: el nombre de usuario que se usará para la conexión a la base de datos, en la que el usuario debe tener los permisos de acceso que se detallan en la sección de requisitos.ROLE_NAME
: (Opcional) el rol de usuario cuando se ejecuta la herramientadwh-migration-dumper
, por ejemplo,ACCOUNTADMIN
.WAREHOUSE
: el almacén que se usa para realizar las operaciones de volcado. Si tienes varios almacenes virtuales, puedes especificar cualquier almacén para realizar esta consulta. La ejecución de esta consulta con los permisos de acceso detallados en la sección de requisitos extrae todos los artefactos del almacén de esta cuenta.STARTING_DATE
: (Opcional) se usa para indicar la fecha de inicio en un período de registros de consulta, escrito en el formatoYYYY-MM-DD
.ENDING_DATE
: (Opcional) se usa para indicar la fecha de finalización en un período de registros de consultas, escrito en el formatoYYYY-MM-DD
.
También puedes generar varios archivos ZIP que contengan registros de consulta que abarquen diferentes períodos y proporcionarlos para su evaluación.
Oracle
Para solicitar comentarios o asistencia para esta función, envía un correo electrónico a bq-edw-migration-support@google.com.
Requisitos
Debes cumplir con los siguientes requisitos para extraer metadatos y registros de consultas de Oracle:
- Una máquina que se pueda conectar a tus instancias de Oracle.
- Java 8 o superior
- Una cuenta de Google Cloud con un bucket de Cloud Storage para almacenar los datos
- Un conjunto de datos de BigQuery vacío para almacenar los resultados. Como alternativa, puedes crear un conjunto de datos de BigQuery cuando creas el trabajo de evaluación con la IU de la consola de Google Cloud .
- Un usuario común de Oracle con privilegios de SYSDBA
Ejecuta la herramienta dwh-migration-dumper
Descarga la herramienta de extracción de línea de comandos de dwh-migration-dumper
.
Descarga el archivo SHA256SUMS.txt
y ejecuta el siguiente comando para verificar la precisión del archivo ZIP:
sha256sum --check SHA256SUMS.txt
Para obtener detalles sobre cómo usar la herramienta de dwh-migration-dumper
, consulta la página Genera metadatos.
Usa la herramienta dwh-migration-dumper
para extraer metadatos y estadísticas de rendimiento al archivo ZIP. De forma predeterminada, las estadísticas se extraen del AWR de Oracle, que requiere el paquete de diagnóstico y optimización de Oracle. Si estos datos no están disponibles, dwh-migration-dumper
usa STATSPACK en su lugar.
En el caso de las bases de datos multiusuario, la herramienta dwh-migration-dumper
se debe ejecutar en el contenedor raíz. Ejecutarlo en una de las bases de datos conectables hace que se pierdan las estadísticas de rendimiento y los metadatos sobre otras bases de datos conectables.
Genera el archivo ZIP de metadatos:
dwh-migration-dumper \ --connector oracle-stats \ --host HOST_NAME \ --port PORT \ --oracle-service SERVICE_NAME \ --assessment \ --driver JDBC_DRIVER_PATH \ --user USER_NAME \ --password
Reemplaza lo siguiente:
HOST_NAME
: El nombre de host de tu instancia de Oracle.PORT
: Es el número de puerto de conexión. El valor predeterminado es 1521.SERVICE_NAME
: Es el nombre del servicio de Oracle que se usará para la conexión.JDBC_DRIVER_PATH
: Es la ruta de acceso absoluta o relativa al archivo JAR del controlador. Puedes descargar este archivo desde la página de descargas del controlador de JDBC de Oracle. Debes seleccionar la versión del controlador que sea compatible con la versión de la base de datos.USER_NAME
: Es el nombre del usuario que se usa para conectarse a tu instancia de Oracle. El usuario debe tener los permisos de acceso que se detallan en la sección de requisitos.
Sube registros de consultas y de metadatos a Cloud Storage
Una vez que hayas extraído los metadatos y los registros de consultas de tu almacén de datos, puedes subir los archivos a un bucket de Cloud Storage para continuar con la evaluación de la migración.
Teradata
Sube los metadatos y uno o más archivos ZIP que contengan registros de consulta a tu bucket de Cloud Storage. Para obtener más información sobre la creación de buckets y la carga de archivos a Cloud Storage, consulta Crea buckets y Sube objetos desde un sistema de archivos. El límite para el tamaño total sin comprimir de todos los archivos dentro del archivo ZIP de metadatos es de 50 GB.
Las entradas en todos los archivos ZIP que contienen registros de consultas se dividen en lo siguiente:
- Archivos de historial de consultas con el prefijo
query_history_
- Archivos de series temporales con los prefijos
utility_logs_
,dbc.ResUsageScpu_
ydbc.ResUsageSpma_
El límite para el tamaño total sin comprimir de todos los archivos del historial de consultas es de 5 TB. El límite para el tamaño total sin comprimir de todos los archivos de series temporales es de 1 TB.
En caso de que los registros de consultas se archiven en una base de datos diferente, consulta la descripción de las marcas -Dteradata-logs.query-logs-table
y -Dteradata-logs.sql-logs-table
antes en esta sección, en la que se explica cómo proporcionar una ubicación alternativa para los registros de consultas.
Amazon Redshift
Sube los metadatos y uno o más archivos ZIP que contengan registros de consulta a tu bucket de Cloud Storage. Para obtener más información sobre la creación de buckets y la carga de archivos a Cloud Storage, consulta Crea buckets y Sube objetos desde un sistema de archivos. El límite para el tamaño total sin comprimir de todos los archivos dentro del archivo ZIP de metadatos es de 50 GB.
Las entradas en todos los archivos ZIP que contienen registros de consultas se dividen en lo siguiente:
- Archivos de historial de consultas con los prefijos
querytext_
yddltext_
- Archivos de series temporales con los prefijos
query_queue_info_
,wlm_query_
yquerymetrics_
El límite para el tamaño total sin comprimir de todos los archivos del historial de consultas es de 5 TB. El límite para el tamaño total sin comprimir de todos los archivos de series temporales es de 1 TB.
Apache Hive
Sube los metadatos y las carpetas que contienen registros de consulta de uno o varios clústeres de Hive a tu bucket de Cloud Storage. Para obtener más información sobre la creación de buckets y la carga de archivos a Cloud Storage, consulta Crea buckets y Sube objetos desde un sistema de archivos.
El límite para el tamaño total sin comprimir de todos los archivos dentro del archivo ZIP de metadatos es de 50 GB.
Puedes usar el conector de Cloud Storage para copiar registros de consulta directamente a la carpeta de Cloud Storage. Las carpetas que contienen subcarpetas con registros de consultas se deben subir a la misma carpeta de Cloud Storage, en la que se sube el archivo ZIP de metadatos.
Las carpetas de registros de consultas tienen archivos del historial de consultas con el prefijo dwhassessment_
. El límite para el tamaño total sin comprimir de todos los archivos del historial de consultas es de 5 TB.
Snowflake
Sube los metadatos y los archivos ZIP que contienen registros de consulta y los historiales de uso a tu bucket de Cloud Storage. Cuando subas estos archivos a Cloud Storage, se deben cumplir los siguientes requisitos:
- El tamaño total sin comprimir de todos los archivos dentro del archivo ZIP de metadatos debe ser inferior a 50 GB.
- El archivo ZIP de metadatos y el archivo ZIP que contiene registros de consulta deben subirse a una carpeta de Cloud Storage. Si tienes varios archivos ZIP con registros de consultas no superpuestos, puedes subirlos todos.
- Debes subir todos los archivos a la misma carpeta de Cloud Storage.
- Debes subir todos los archivos ZIP de metadatos y registros de consulta exactamente como los
genera la herramienta
dwh-migration-dumper
. No los descomprimas ni combines o modifiques de ningún modo. - El tamaño total sin comprimir de todos los archivos del historial de consultas debe ser inferior a 5 TB.
Para obtener más información sobre la creación de buckets y la carga de archivos a Cloud Storage, consulta Crea buckets y Sube objetos desde un sistema de archivos.
Oracle
Para solicitar comentarios o asistencia para esta función, envía un correo electrónico a bq-edw-migration-support@google.com.
Sube el archivo ZIP que contiene metadatos y estadísticas de rendimiento a un
bucket de Cloud Storage. De forma predeterminada, el nombre del archivo ZIP es dwh-migration-oracle-stats.zip
, pero puedes personalizarlo si lo especificas en la marca --output
. El límite para el tamaño total sin comprimir de todos los
archivos dentro del archivo ZIP es de 50 GB.
Para obtener más información sobre la creación de buckets y la carga de archivos a Cloud Storage, consulta Crea buckets y Sube objetos desde un sistema de archivos.
Ejecuta una evaluación de migración de BigQuery
Sigue estos pasos para ejecutar la evaluación de migración de BigQuery. En estos pasos, se supone que subiste los archivos de metadatos a un bucket de Cloud Storage, como se describe en la sección anterior.
Permisos necesarios
Para habilitar el Servicio de migración de BigQuery, necesitas los siguientes permisos de Identity and Access Management (IAM):
resourcemanager.projects.get
resourcemanager.projects.update
serviceusage.services.enable
serviceusage.services.get
Para acceder al Servicio de migración de BigQuery y usarlo, necesitas los siguientes permisos en el proyecto:
bigquerymigration.workflows.create
bigquerymigration.workflows.get
bigquerymigration.workflows.list
bigquerymigration.workflows.delete
bigquerymigration.subtasks.get
bigquerymigration.subtasks.list
Para ejecutar el servicio de migración de BigQuery, necesitas los siguientes permisos adicionales.
Permiso para acceder a los buckets de Cloud Storage para archivos de entrada y salida, sigue estos pasos:
storage.objects.get
en el bucket de origen de Cloud Storagestorage.objects.list
en el bucket de origen de Cloud Storagestorage.objects.create
en el bucket de destino de Cloud Storagestorage.objects.delete
en el bucket de destino de Cloud Storagestorage.objects.update
en el bucket de destino de Cloud Storagestorage.buckets.get
storage.buckets.list
Permiso para leer y actualizar el conjunto de datos de BigQuery en el que el Servicio de migración de BigQuery escribe los resultados:
bigquery.datasets.update
bigquery.datasets.get
bigquery.datasets.create
bigquery.datasets.delete
bigquery.jobs.create
bigquery.jobs.delete
bigquery.jobs.list
bigquery.jobs.update
bigquery.tables.create
bigquery.tables.get
bigquery.tables.getData
bigquery.tables.list
bigquery.tables.updateData
Para compartir el informe de Looker Studio con un usuario, debes otorgar los siguientes roles:
roles/bigquery.dataViewer
roles/bigquery.jobUser
Si quieres personalizar este documento para usar tu propio proyecto y usuario en los comandos, edita estas variables:
PROJECT
,
USER_EMAIL
.
Crea un rol personalizado con los permisos necesarios para usar la evaluación de migración de BigQuery:
gcloud iam roles create BQMSrole \ --project=PROJECT \ --title=BQMSrole \ --permissions=bigquerymigration.subtasks.get,bigquerymigration.subtasks.list,bigquerymigration.workflows.create,bigquerymigration.workflows.get,bigquerymigration.workflows.list,bigquerymigration.workflows.delete,resourcemanager.projects.update,resourcemanager.projects.get,serviceusage.services.enable,serviceusage.services.get,storage.objects.get,storage.objects.list,storage.objects.create,storage.objects.delete,storage.objects.update,bigquery.datasets.get,bigquery.datasets.update,bigquery.datasets.create,bigquery.datasets.delete,bigquery.tables.get,bigquery.tables.create,bigquery.tables.updateData,bigquery.tables.getData,bigquery.tables.list,bigquery.jobs.create,bigquery.jobs.update,bigquery.jobs.list,bigquery.jobs.delete,storage.buckets.list,storage.buckets.get
Otórgale el rol personalizado BQMSrole
a un usuario:
gcloud projects add-iam-policy-binding \ PROJECT \ --member=user:USER_EMAIL \ --role=projects/PROJECT/roles/BQMSrole
Otorga los roles necesarios a un usuario con el que deseas compartir el informe:
gcloud projects add-iam-policy-binding \ PROJECT \ --member=user:USER_EMAIL \ --role=roles/bigquery.dataViewer gcloud projects add-iam-policy-binding \ PROJECT \ --member=user:USER_EMAIL \ --role=roles/bigquery.jobUser
Ubicaciones admitidas
La función de evaluación de migración de BigQuery es compatible con dos tipos de ubicaciones:
Una región es un lugar geográfico específico, como Londres.
Una multirregión es un área geográfica grande, como los Estados Unidos, que contiene dos o más regiones. Las ubicaciones multirregionales pueden proporcionar cuotas más grandes que las regiones individuales.
Para obtener más información sobre las regiones y zonas, consulta Geografía y regiones.
Regiones
En la siguiente tabla, se enumeran las regiones de América en las que está disponible la evaluación de migración de BigQuery.Descripción de la región | Nombre de la región | Detalles |
---|---|---|
Columbus, Ohio | us-east5 |
|
Dallas | us-south1 |
CO2 bajo |
Iowa | us-central1 |
CO2 bajo |
Carolina del Sur | us-east1 |
|
Virginia del Norte | us-east4 |
|
Oregón | us-west1 |
CO2 bajo |
Los Ángeles | us-west2 |
|
Salt Lake City | us-west3 |
Descripción de la región | Nombre de la región | Detalles |
---|---|---|
Singapur | asia-southeast1 |
|
Tokio | asia-northeast1 |
Descripción de la región | Nombre de la región | Detalles |
---|---|---|
Bélgica | europe-west1 |
CO2 bajo |
Finlandia | europe-north1 |
CO2 bajo |
Fráncfort | europe-west3 |
CO2 bajo |
Londres | europe-west2 |
CO2 bajo |
Madrid | europe-southwest1 |
CO2 bajo |
Países Bajos | europe-west4 |
CO2 bajo |
París | europe-west9 |
CO2 bajo |
Turín | europe-west12 |
|
Varsovia | europe-central2 |
|
Zúrich | europe-west6 |
CO2 bajo |
Multirregiones
En la siguiente tabla, se enumeran las multirregiones en las que está disponible la evaluación de migración de BigQuery.Descripción de la multirregión | Nombre de la multirregión |
---|---|
Centros de datos dentro de los estados miembros de la Unión Europea | EU |
Centros de datos en Estados Unidos | US |
Antes de comenzar
Antes de ejecutar la evaluación, debes habilitar la API de BigQuery Migration y crear un conjunto de datos de BigQuery para almacenar los resultados de la evaluación.
Habilita la API de BigQuery Migration
Habilita la API de migración de BigQuery de la siguiente manera:
En la consola de Google Cloud , ve a la página API de BigQuery Migration.
Haga clic en Habilitar.
Crea un conjunto de datos para los resultados de la evaluación
La evaluación de migración de BigQuery escribe los resultados de la evaluación en las tablas de BigQuery. Antes de comenzar, crea un conjunto de datos para conservar estas tablas. Cuando compartes el informe de Looker Studio, también debes otorgar permiso a los usuarios para leer este conjunto de datos. Si deseas obtener más información, consulta Haz que el informe esté disponible para los usuarios.
Ejecuta la evaluación de la migración
Console
En la consola de Google Cloud , ve a la página BigQuery.
En el panel de navegación, ve a Evaluación.
Haz clic en Iniciar evaluación.
Completa el cuadro de diálogo de configuración de la evaluación.
- En Nombre visible, ingresa el nombre, que puede contener letras, números o guiones bajos. Este nombre solo se usa con fines de visualización y no tiene que ser único.
En la lista Ubicación de los datos, elige una ubicación para el trabajo de evaluación. La tarea de evaluación debe estar en la misma ubicación que el bucket de Cloud Storage de entrada de tus archivos extraídos y el conjunto de datos de BigQuery de salida.
Sin embargo, si esta ubicación es una multirregión
US
oEU
, la ubicación del bucket de Cloud Storage y la ubicación del conjunto de datos de BigQuery pueden estar en cualquiera de las regiones dentro de esta multirregión. El bucket de Cloud Storage y el conjunto de datos de BigQuery pueden estar ubicados en diferentes ubicaciones dentro de la misma multirregión. Por ejemplo, si seleccionas la multirregiónUS
, el bucket de Cloud Storage puede estar en la regiónus-central1
, mientras que el conjunto de datos de BigQuery puede estar en la regiónus-east1
.En Fuente de datos de la evaluación, elige tu almacén de datos.
En Ruta de acceso a los archivos de entrada, ingresa la ruta de acceso al bucket de Cloud Storage que contiene los archivos extraídos.
Para elegir cómo se almacenan los resultados de la evaluación, haz una de las siguientes opciones:
- Mantén seleccionada la casilla de verificación Crea el conjunto de datos de BigQuery nuevo automáticamente para que se cree el conjunto de datos de BigQuery automáticamente. El nombre del conjunto de datos se genera automáticamente.
- Borra la casilla de verificación Crea el conjunto de datos de BigQuery nuevo automáticamente y elige el conjunto de datos de BigQuery vacío existente con el formato
projectId.datasetId
o crea un nombre de conjunto de datos nuevo. En esta opción, puedes elegir el nombre del conjunto de datos de BigQuery.
Opción 1: Generación automática de conjuntos de datos de BigQuery (opción predeterminada)
Opción 2: Creación manual de un conjunto de datos de BigQuery:
Haz clic en Crear. Puedes ver el estado del trabajo en la lista de trabajos de evaluación.
Mientras se ejecuta la evaluación, puedes verificar su progreso y el tiempo estimado para completarla en la información sobre herramientas del ícono de estado.
Mientras se ejecuta la evaluación, puedes hacer clic en el vínculo Ver informe en la lista de tareas de evaluación para ver el informe de evaluación con datos parciales en Looker Studio. Es posible que el vínculo Ver informe tarde un poco en aparecer mientras se ejecuta la evaluación. El informe se abrirá en una pestaña nueva.
El informe se actualiza con datos nuevos a medida que se procesan. Actualiza la pestaña con el informe o vuelve a hacer clic en Ver informe para ver el informe actualizado.
Cuando se complete la evaluación, haz clic en Ver informe para ver el informe de evaluación completo en Looker Studio. El informe se abrirá en una pestaña nueva.
API
Llama al método create
con un flujo de trabajo definido.
Luego, llama al método start
para iniciar el flujo de trabajo de evaluación.
La evaluación crea tablas en el conjunto de datos de BigQuery que creaste antes. Puedes consultarlos para obtener información sobre las tablas y las consultas que se usan en tu almacén de datos existente. Para obtener información sobre los archivos de salida de la traducción, consulta Traductor de SQL por lotes.
Resultado de la evaluación agregada que se puede compartir
En el caso de las evaluaciones de Amazon Redshift, Teradata y Snowflake, además del conjunto de datos de BigQuery creado anteriormente, el flujo de trabajo crea otro conjunto de datos ligero con el mismo nombre, más el sufijo _shareableRedactedAggregate
. Este conjunto de datos contiene datos altamente agregados que se derivan del conjunto de datos de salida y no contiene información de identificación personal (PII).
Para encontrar, inspeccionar y compartir de forma segura el conjunto de datos con otros usuarios, consulta Cómo consultar las tablas de resultados de la evaluación de migración.
La función está activada de forma predeterminada, pero puedes inhabilitarla con la API pública.
Detalles de la evaluación
Para ver la página de detalles de la evaluación, haz clic en el nombre visible en la lista de trabajos de evaluación.
La página de detalles de la evaluación contiene la pestaña Configuración, en la que puedes ver más información sobre un trabajo de evaluación, y la pestaña Errores, en la que puedes revisar los errores que se produjeron durante el procesamiento de la evaluación.
Consulta la pestaña Configuración para ver las propiedades de la evaluación.
Consulta la pestaña Errors para ver los errores que se produjeron durante el procesamiento de la evaluación.
Revisa y comparte el informe de Looker Studio
Una vez que se completa la tarea de evaluación, puedes crear y compartir un informe de Looker Studio de los resultados.
Revisa el informe
Haz clic en el vínculo Ver informe que se encuentra junto a la tarea de evaluación individual. El informe de Looker Studio se abre en una pestaña nueva, en modo de vista previa. Puedes usar el modo de vista previa para revisar el contenido del informe antes de compartirlo.
El informe es similar a la siguiente captura de pantalla:
Para ver qué vistas se encuentran en el informe, selecciona tu almacén de datos:
Teradata
El informe es una narrativa de tres partes que está precedida por una página de puntos destacados de resumen. Esa página incluye las siguientes secciones:
- Sistema existente. Esta sección es una instantánea del sistema y el uso de Teradata existentes, incluida la cantidad de bases de datos, esquemas, tablas y el tamaño total en TB. También se enumeran los esquemas por tamaño y se apunta al posible uso de recursos deficientes (tablas sin escrituras o pocas lecturas).
- Transformaciones de estado estable de BigQuery (sugerencias). En esta sección, se muestra cómo se verá el sistema en BigQuery después de la migración. Incluye sugerencias para optimizar las cargas de trabajo en BigQuery (y evitar el desperdicio).
- Plan de migración. En esta sección, se proporciona información sobre el esfuerzo de migración, por ejemplo, pasar del sistema existente al estado estable de BigQuery. Esta sección incluye el recuento de consultas que se tradujeron automáticamente y el tiempo esperado para mover cada tabla a BigQuery.
Los detalles de cada sección incluyen lo siguiente:
Sistema existente
- Procesamiento y consultas
- Uso de CPU:
- Mapa de calor del uso promedio de la CPU por hora (vista general del uso de recursos del sistema)
- Consultas por hora y día con el uso de CPU
- Consultas por tipo (lectura/escritura) con uso de CPU
- Aplicaciones con uso de CPU
- Superposición del uso de CPU por hora con el rendimiento de consultas por hora promedio y el rendimiento promedio de las aplicaciones por hora
- Consulta histogramas por tipo y duración de las consultas
- Vista de detalles de las aplicaciones (app, usuario, consultas únicas, informes y desglose de ETL)
- Uso de CPU:
- Descripción general del almacenamiento
- Bases de datos por volumen, vistas y tasas de acceso
- Tablas con tasas de acceso de los usuarios, consultas, escrituras y creación de tablas temporales
- Aplicaciones: Tasas de acceso y direcciones IP
Transformaciones de estado estable de BigQuery (sugerencias)
- Cómo unir índices convertidos en vistas materializadas
- Clúster y partición de candidatos según los metadatos y el uso
- Consultas de baja latencia identificadas como candidatas para BigQuery BI Engine
- Columnas configuradas con valores predeterminados que usan la función de descripción de la columna para almacenar valores predeterminados
- Los índices únicos en Teradata (para evitar filas con claves que no sean únicas en una tabla) usan tablas de etapa de pruebas y una sentencia
MERGE
para insertar solo registros únicos en las tablas de destino y, luego, descartar los duplicados. - Consultas restantes y esquema traducidos tal como están
Plan de migración
- Vista detallada con consultas traducidas de forma automática
- Recuento de consultas totales con capacidad para filtrar por usuario, aplicación, tablas afectadas, tablas consultadas y tipo de consulta
- Buckets de consultas con patrones similares agrupados y se muestran juntos para que el usuario pueda ver la filosofía de traducción por tipos de consulta
- Consultas que requieren intervención humana
- Consultas con incumplimientos de estructura léxica de BigQuery
- Funciones y procedimientos definidos por el usuario
- Palabras clave reservadas de BigQuery
- Tablas programadas por escrituras y lecturas (para agruparlas a fin de moverlas)
- Migración de datos con el Servicio de transferencia de datos de BigQuery: Tiempo estimado de migración por tabla
La sección Sistema existente contiene las siguientes vistas:
- Descripción general del sistema
- La vista de descripción general del sistema proporciona las métricas de volumen de alto nivel de los componentes clave en el sistema existente durante un período específico. El cronograma que se evalúa depende de los registros que se analizaron en la evaluación de migración de BigQuery. Esta vista te brinda estadísticas rápidas sobre el uso del almacén de datos de origen, que puedes usar para la planificación de la migración.
- Volumen de tablas
- En la vista Volumen de tablas, se proporcionan estadísticas sobre las tablas y bases de datos más grandes que se encuentran en la evaluación de migración de BigQuery. Debido a que las tablas grandes pueden tardar más en extraerse del sistema de almacén de datos de origen, esta vista puede ser útil en la planificación y la secuencia de la migración.
- Uso de tablas
- En la vista Uso de tablas, se proporcionan estadísticas sobre qué tablas se usan mucho dentro del sistema de almacén de datos de origen. Las tablas muy usadas pueden ayudarte a comprender qué tablas pueden tener muchas dependencias y requieren una planificación adicional durante el proceso de migración.
- Aplicaciones
- Las vistas Uso de aplicaciones y Patrones de aplicaciones proporcionan estadísticas sobre las aplicaciones que se encontraron durante el procesamiento de los registros. Estas vistas permiten a los usuarios comprender el uso de aplicaciones específicas a lo largo del tiempo y el impacto en el uso de recursos. Durante una migración, es importante visualizar la transferencia y el consumo de datos para comprender mejor las dependencias del almacén de datos y analizar el impacto de mover varias aplicaciones dependientes juntas. La tabla Direcciones IP puede ser útil para identificar la aplicación exacta que usa el almacén de datos a través de conexiones de JDBC.
- Consultas
- La vista Consultas proporciona un desglose de los tipos de instrucciones de SQL ejecutadas y las estadísticas de su uso. Puedes usar el histograma de Tiempo y tipo de consulta para identificar los períodos bajos del uso del sistema y los momentos óptimos del día para transferir datos. También puedes usar esta vista para identificar las consultas que se ejecutan con frecuencia y los usuarios que invocan esas ejecuciones.
- Bases de datos
- La vista de bases de datos proporciona métricas sobre el tamaño, las tablas, las vistas y los procedimientos definidos en el sistema de almacén de datos de origen. Esta vista puede proporcionar estadísticas sobre el volumen de objetos que necesitas migrar.
- Acoplamiento de bases de datos
- La vista de acoplamiento de la base de datos proporciona una vista de alto nivel en las bases de datos y tablas a las que se accede en conjunto en una sola consulta. En esta vista, se puede mostrar a qué tablas y bases de datos se hace referencia con frecuencia y qué puedes usar para la planificación de la migración.
La sección Estado estable de BigQuery contiene las siguientes vistas:
- Tablas sin uso
- En la vista Tablas sin uso, se muestran las tablas en las que la evaluación de migración de BigQuery no pudo encontrar ningún uso durante el período de registros que se analizó. La falta de uso puede indicar que no necesitas transferir esa tabla a BigQuery durante la migración o que los costos de almacenamiento de datos en BigQuery pueden ser menores. Debes validar la lista de tablas sin usar, ya que podrían tener uso fuera del período de los registros, como una tabla que solo se usa una vez cada tres o seis meses.
- Tablas sin escritura
- En la vista Tablas sin escrituras, se muestran las tablas en las que la evaluación de migración de BigQuery no pudo encontrar ninguna actualización durante el período de registros que se analizó. La falta de escrituras puede indicar dónde se pueden reducir los costos de almacenamiento en BigQuery.
- Consultas de baja latencia
- La vista Consultas de baja latencia muestra una distribución de entornos de ejecución de consultas en función de los datos de registro analizados. Si el gráfico de distribución de la duración de la consulta muestra una gran cantidad de consultas con menos de 1 segundo en el entorno de ejecución, considera habilitar BigQuery BI Engine para acelerar la IE y otras cargas de trabajo de baja latencia.
- Vistas materializadas
- Las vistas materializadas proporcionan sugerencias de optimización adicionales para aumentar el rendimiento en BigQuery.
- Partición y agrupamiento en clústeres
En la vista Partición y agrupamiento en clústeres, se muestran las tablas que se beneficiarían de la partición, el agrupamiento en clústeres o ambos.
Las sugerencias de metadatos se logran mediante el análisis del esquema del almacén de datos de origen (como el particionamiento y la clave primaria en la tabla de origen) y la búsqueda del equivalente de BigQuery más cercano para lograr características de optimización similares.
Las sugerencias de cargas de trabajo se obtienen mediante el análisis de los registros de consulta de origen. La recomendación se determina mediante el análisis de las cargas de trabajo, en especial las cláusulas
WHERE
oJOIN
en los registros de consulta analizados.- Recomendación de agrupamiento en clústeres
En la vista Partición, se muestran las tablas que pueden tener más de 10,000 particiones, según su definición de restricción de partición. Estas tablas suelen ser buenas candidatas para el agrupamiento en clústeres de BigQuery, lo que permite particiones de tabla detalladas.
- Restricciones únicas
En la vista Restricciones únicas, se muestran las tablas
SET
y los índices únicos definidos dentro del almacén de datos de origen. En BigQuery, se recomienda usar tablas de etapa de pruebas y una declaraciónMERGE
para insertar solo registros únicos en una tabla de destino. Usa el contenido de esta vista para determinar en qué tablas es posible que debas ajustar el ETL durante la migración.- Valores predeterminados/Restricciones de verificación
En esta vista, se muestran tablas que usan restricciones de verificación para establecer valores de columna predeterminados. En BigQuery, consulta Especifica los valores predeterminados de la columna.
La sección Ruta de la migración del informe contiene las siguientes vistas:
- Traducción de SQL
- En la vista Traducción de SQL, se muestra el recuento y los detalles de las consultas que la evaluación de migración de BigQuery convirtió automáticamente y que no requieren intervención manual. La traducción automática de SQL suele lograr tasas de traducción altas si se proporcionan metadatos. Esta vista es interactiva y permite el análisis de consultas comunes y cómo se traducen.
- Esfuerzo sin conexión
- La vista Esfuerzo sin conexión captura las áreas que necesitan intervención manual, incluidas las UDF específicas y las posibles infracciones de sintaxis y estructura léxicas para las tablas o columnas.
- Palabras clave reservadas de BigQuery
- La vista Palabras clave reservadas de BigQuery muestra el uso detectado de palabras clave que tienen un significado especial en el lenguaje GoogleSQL y no se pueden usar como identificadores, a menos que estén encerrados entre caracteres de acento grave (
`
). - Programa de actualizaciones de la tabla
- En la vista Programa de actualizaciones de tablas, se muestra cuándo y con qué frecuencia se actualizan las tablas para ayudarte a planificar cómo y cuándo moverlas.
- Migración de datos a BigQuery
- En la vista Migración de datos a BigQuery, se describe la ruta de migración con el tiempo previsto para migrar tus datos con el Servicio de transferencia de datos de BigQuery. Para obtener más información, consulta la Guía del Servicio de transferencia de datos de BigQuery para Teradata.
La sección Apéndice contiene las siguientes vistas:
- Distinción de mayúsculas
- En la vista Distinción entre mayúsculas y minúsculas, se muestran las tablas del almacén de datos de origen que están configuradas para realizar comparaciones que no distinguen mayúsculas de minúsculas. De forma predeterminada, las comparaciones de cadenas en BigQuery distinguen mayúsculas de minúsculas. Para obtener más información, consulta Intercalación.
Amazon Redshift
- Puntos destacados de la migración
- La vista Aspectos destacados de la migración proporciona un resumen ejecutivo de las tres secciones del informe:
- El panel Sistema existente proporciona información sobre la cantidad de bases de datos, esquemas, tablas y el tamaño total del sistema de Redshift existente. También se enumeran los esquemas por tamaño y el posible uso de recursos deficientes. Puedes usar esta información para optimizar tus datos quitando, particionando o agrupando tus tablas.
- En el panel Estado de Steady de BigQuery, se proporciona información sobre cómo se verán tus datos después de la migración en BigQuery, incluida la cantidad de consultas que se pueden traducir de forma automática mediante el servicio de migración de BigQuery. En esta sección, también se muestran los costos de almacenar tus datos en BigQuery según tu tasa de transferencia de datos anual, junto con sugerencias de optimización para tablas, aprovisionamiento y espacio.
- El panel Ruta de migración proporciona información sobre el esfuerzo de migración. Para cada tabla, se muestra el tiempo estimado para la migración, la cantidad de filas en la tabla y su tamaño.
La sección Sistema existente contiene las siguientes vistas:
- Consultas por tipo y programación
- La vista Consultas por tipo y programación clasifica tus consultas en ETL/escritura y generación de informes/agregación. Ver tu combinación de consultas a lo largo del tiempo te ayuda a comprender tus patrones de uso existentes y a identificar la intermitencia y el posible sobreaprovisionamiento que pueden afectar el costo y el rendimiento.
- En cola de consultas
- La vista de colas de consultas proporciona detalles adicionales sobre la carga del sistema, como el volumen y la combinación de consultas, y cualquier impacto en el rendimiento debido a las colas, como recursos insuficientes.
- Consultas y escalamiento de WLM
- La vista Búsquedas y escalamiento de WLM identifica el escalamiento de simultaneidad como un costo adicional y una complejidad de configuración. Muestra cómo tu sistema Redshift enruta las consultas según las reglas que especificaste y los impactos en el rendimiento debido a las filas, el escalamiento de simultaneidad y las consultas desalojadas.
- Cola y espera
- La vista de colas y tiempos de espera ofrece un análisis más detallado de las colas y los tiempos de espera de las consultas a lo largo del tiempo.
- Rendimiento y clases de WLM
- La vista de clases y rendimiento de WLM proporciona una forma opcional de asignar las reglas a BigQuery. Sin embargo, te recomendamos que dejes que BigQuery enrute automáticamente tus consultas.
- Estadísticas de volumen de consultas y tablas
- En la vista de estadísticas de volumen de consultas y tablas, se enumeran las consultas por tamaño, frecuencia y usuarios principales. Esto te ayuda a categorizar las fuentes de carga en el sistema y a planificar cómo migrar tus cargas de trabajo.
- Bases de datos y esquemas
- La vista de bases de datos y esquemas proporciona métricas sobre el tamaño, las tablas, las vistas y los procedimientos definidos en el sistema de almacén de datos de origen. Esto proporciona estadísticas sobre el volumen de objetos que se deben migrar.
- Volumen de tablas
- En la vista Volumen de tablas, se proporcionan estadísticas sobre las tablas y bases de datos más grandes, y se muestra cómo se accede a ellas. Debido a que las tablas grandes pueden tardar más en extraerse del sistema de almacén de datos de origen, esta vista te ayuda con la planificación y la secuencia de la migración.
- Uso de tablas
- En la vista Uso de tablas, se proporcionan estadísticas sobre qué tablas se usan mucho dentro del sistema de almacén de datos de origen. Las tablas muy usadas se pueden aprovechar para comprender qué tablas pueden tener muchas dependencias y garantizar una planificación adicional durante el proceso de migración.
- Importadores y exportadores
- La vista Importadores y exportadores proporciona información sobre los datos y los usuarios involucrados en la importación de datos (con consultas
COPY
) y la exportación de datos (con consultasUNLOAD
). Esta vista ayuda a identificar la capa de etapa y los procesos relacionados con la carga y las exportaciones. - Uso de clústeres
- La vista Uso de clúster proporciona información general sobre todos los clústeres disponibles y muestra el uso de CPU de cada clúster. Esta visualización puede ayudarte a comprender la reserva de capacidad del sistema.
La sección Estado estable de BigQuery contiene las siguientes vistas:
- Partición y agrupamiento en clústeres
En la vista Partición y agrupamiento en clústeres, se muestran las tablas que se beneficiarían de la partición, el agrupamiento en clústeres o ambos.
Las sugerencias de metadatos se logran mediante el análisis del esquema del almacén de datos de origen (como Sort Key y Dist Key en la tabla de origen) y la búsqueda del equivalente de BigQuery más cercano para lograr características de optimización similares.
Las sugerencias de cargas de trabajo se obtienen a través del análisis de los registros de consulta de origen. La recomendación se determina mediante el análisis de las cargas de trabajo, en especial las cláusulas
WHERE
oJOIN
en los registros de consulta analizados.En la parte inferior de la página, hay una sentencia de creación de tabla con todas las optimizaciones proporcionadas. Todas las sentencias DDL traducidas también se pueden extraer del conjunto de datos. Las sentencias DDL traducidas se almacenan en la tabla
SchemaConversion
en la columnaCreateTableDDL
.Las recomendaciones del informe solo se proporcionan para tablas de más de 1 GB, ya que las tablas pequeñas no se beneficiarán del agrupamiento ni de la partición. Sin embargo, el DDL para todas las tablas (incluidas las tablas de menos de 1 GB) está disponible en la tabla
SchemaConversion
.- Tablas sin uso
En la vista Tablas sin uso, se muestran las tablas en las que la evaluación de migración de BigQuery no identificó ningún uso durante el período de registros analizado. La falta de uso puede indicar que no necesitas transferir esa tabla a BigQuery durante la migración o que los costos de almacenamiento de datos en BigQuery pueden ser menores (facturados como almacenamiento a largo plazo). Recomendamos validar la lista de tablas sin usar, ya que podrían tener uso fuera del período de los registros, como una tabla que solo se usa una vez cada tres o seis meses.
- Tablas sin escritura
En la vista Tablas sin escrituras, se muestran las tablas en las que la evaluación de migración de BigQuery no identificó ninguna actualización durante el período de registros analizado. La falta de operaciones de escritura puede indicar dónde puedes reducir los costos de almacenamiento en BigQuery (facturados como Almacenamiento a largo plazo).
- BI Engine y vistas materializadas
BI Engine y las vistas materializadas proporcionan sugerencias de optimización adicionales para aumentar el rendimiento en BigQuery.
La sección Ruta de la migración contiene las siguientes vistas:
- Traducción de SQL
- En la vista Traducción de SQL, se muestra el recuento y los detalles de las consultas que la evaluación de migración de BigQuery convirtió automáticamente y que no requieren intervención manual. La traducción automática de SQL suele lograr tasas de traducción altas si se proporcionan metadatos.
- Esfuerzo sin conexión de traducción de SQL
- La vista Esfuerzo sin conexión de traducción de SQL captura las áreas que necesitan intervención manual, incluidas las UDF específicas y las consultas con posibles ambigüedades de traducción.
- Compatibilidad con la función ALTER TABLE APPEND
- La vista de compatibilidad con la función Alter Table Append muestra detalles sobre las construcciones comunes de SQL de Redshift que no tienen una contraparte directa de BigQuery.
- Compatibilidad con el comando de copia
- La vista de compatibilidad con el comando de copia muestra detalles sobre las construcciones comunes de SQL de Redshift que no tienen una contraparte directa de BigQuery.
- Advertencias de SQL
- La vista Advertencias de SQL captura áreas que se traducen correctamente, pero requieren una revisión.
- Incumplimientos de estructura léxica y sintaxis
- La vista Estructura léxica y Violaciones de sintaxis muestra los nombres de las columnas, las tablas, las funciones y los procedimientos que incumplen la sintaxis de BigQuery.
- Palabras clave reservadas de BigQuery
- En la vista Palabras clave reservadas de BigQuery, se muestra el uso detectado de palabras clave que tienen un significado especial en el lenguaje GoogleSQL y no se pueden usar como identificadores, a menos que estén encerrados entre caracteres de acento grave (
`
). - Acoplamiento de esquemas
- La vista de acoplamiento de esquemas proporciona una vista de alto nivel de las bases de datos, los esquemas y las tablas a las que se accede en conjunto en una sola consulta. En esta vista, se puede mostrar a qué tablas, esquemas y bases de datos se hace referencia con frecuencia y qué puedes usar para la planificación de la migración.
- Programa de actualizaciones de la tabla
- En la vista Programa de actualizaciones de tablas, se muestra cuándo y con qué frecuencia se actualizan las tablas para ayudarte a planificar cómo y cuándo moverlas.
- Escala de la tabla
- En la vista Escala de tablas, se enumeran las tablas con la mayor cantidad de columnas.
- Migración de datos a BigQuery
- En la vista Migración de datos a BigQuery, se describe la ruta de migración con el tiempo esperado para migrar tus datos con el Servicio de transferencia de datos del Servicio de migración de BigQuery. Para obtener más información, consulta la Guía del Servicio de transferencia de datos de BigQuery para Redshift.
- Resumen de la ejecución de la evaluación
El resumen de la ejecución de la evaluación contiene la finalización del informe, el progreso de la evaluación en curso y el estado de los archivos y errores procesados.
El nivel de finalización del informe representa el porcentaje de datos procesados correctamente que se recomienda para mostrar estadísticas significativas en el informe de evaluación. Si faltan los datos de una sección particular del informe, esta información aparecerá en la tabla Módulos de evaluación, en el indicador Completitud del informe.
La métrica progreso indica el porcentaje de los datos procesados hasta el momento, junto con la estimación del tiempo restante para procesar todos los datos. Una vez que se completa el procesamiento, no se muestra la métrica de progreso.
Apache Hive
El informe que consta de una narrativa de tres partes está precedido por una página de puntos destacados de resumen que incluye las siguientes secciones:
Sistema existente: Hive. En esta sección, se incluye una instantánea del sistema y el uso de Hive existentes, incluida la cantidad de bases de datos, tablas, su tamaño total en GB y la cantidad de registros de consultas procesados. En esta sección, también se enumeran las bases de datos por tamaño y se apunta al posible uso de recursos deficientes (tablas sin escrituras o pocas lecturas) y el aprovisionamiento. Los detalles de esta sección incluyen lo siguiente:
- Procesamiento y consultas
- Uso de CPU:
- Consultas por hora y día con el uso de CPU
- Consultas por tipo (lectura/escritura)
- Colas y aplicaciones
- Superposición del uso de CPU por hora con el rendimiento de consultas por hora promedio y el rendimiento promedio de las aplicaciones por hora
- Consulta histogramas por tipo y duración de las consultas
- Página en cola y en espera
- Vista detallada de colas (cola, usuario, consultas únicas, informes y desglose de ETL, por métricas)
- Uso de CPU:
- Descripción general del almacenamiento
- Bases de datos por volumen, vistas y tasas de acceso
- Tablas con tasas de acceso de los usuarios, consultas, escrituras y creación de tablas temporales
- Colas y aplicaciones: tasas de acceso y direcciones IP de cliente
- Procesamiento y consultas
Estado estable de BigQuery. En esta sección, se muestra cómo se verá el sistema en BigQuery después de la migración. Incluye sugerencias para optimizar las cargas de trabajo en BigQuery (y evitar el desperdicio). Los detalles de esta sección incluyen lo siguiente:
- Tablas identificadas como candidatas para vistas materializadas
- Clúster y partición de candidatos según los metadatos y el uso
- Consultas de baja latencia identificadas como candidatas para BigQuery BI Engine
- Tablas sin uso de lectura o escritura
- Tablas particionadas con sesgo de datos
Plan de migración. En esta sección, se proporciona información sobre el esfuerzo de migración. Por ejemplo, pasar del sistema existente al estado estable de BigQuery. En esta sección, se muestran los objetivos de almacenamiento identificados para cada tabla, las tablas identificadas como significativas para la migración y el recuento de consultas que se tradujeron de forma automática. Los detalles de esta sección incluyen lo siguiente:
- Vista detallada con consultas traducidas de forma automática
- Recuento de consultas totales con capacidad para filtrar por usuario, aplicación, tablas afectadas, tablas consultadas y tipo de consulta
- Depósitos de consultas con patrones similares agrupados, lo que permite a los usuarios ver la filosofía de traducción por tipo de consulta
- Consultas que requieren intervención humana
- Consultas con incumplimientos de estructura léxica de BigQuery
- Funciones y procedimientos definidos por el usuario
- Palabras clave reservadas de BigQuery
- Consulta que requiere revisión
- Tablas programadas por escrituras y lecturas (para agruparlas a fin de moverlas)
- Destino de almacenamiento identificado para tablas externas y administradas
- Vista detallada con consultas traducidas de forma automática
La sección Sistema existente - Hive contiene las siguientes vistas:
- Descripción general del sistema
- Esta vista proporciona las métricas de volumen de alto nivel de los componentes clave en el sistema existente durante un período específico. El cronograma que se evalúa depende de los registros que se analizaron en la evaluación de migración de BigQuery. Esta vista te brinda estadísticas rápidas sobre el uso del almacén de datos de origen, que puedes usar para la planificación de la migración.
- Volumen de tablas
- En esta vista, se proporcionan estadísticas sobre las tablas y bases de datos más grandes que se encuentran en la evaluación de migración de BigQuery. Debido a que las tablas grandes pueden tardar más en extraerse del sistema de almacén de datos de origen, esta vista puede ser útil en la planificación y la secuencia de la migración.
- Uso de tablas
- En esta vista, se proporcionan estadísticas sobre qué tablas se usan mucho dentro del sistema de almacén de datos de origen. Las tablas muy usadas pueden ayudarte a comprender qué tablas pueden tener muchas dependencias y requieren una planificación adicional durante el proceso de migración.
- Uso de colas
- En esta vista, se proporcionan estadísticas sobre el uso de las colas de YARN que se encontraron durante el procesamiento de los registros. Estas vistas permiten a los usuarios comprender el uso de colas y aplicaciones específicas a lo largo del tiempo y el impacto en el uso de recursos. Estas vistas también ayudan a identificar y priorizar las cargas de trabajo para la migración. Durante una migración, es importante visualizar la transferencia y el consumo de datos para comprender mejor las dependencias del almacén de datos y analizar el impacto de mover varias aplicaciones dependientes juntas. La tabla Direcciones IP puede ser útil para identificar la aplicación exacta que usa el almacén de datos a través de conexiones de JDBC.
- Métricas de colas
- Esta vista proporciona un desglose de las diferentes métricas en las colas YARN que se encuentran durante el procesamiento de los registros. Esta vista permite a los usuarios comprender los patrones de uso en colas específicas y el impacto en la migración. También puedes usar esta vista para identificar conexiones entre tablas a las que se accede en consultas y colas en las que se ejecutó la consulta.
- Cola y espera
- En esta vista, se proporciona una estadística sobre el tiempo en cola de la consulta en el almacén de datos de origen. Los tiempos en cola indican una degradación del rendimiento debido al aprovisionamiento insuficiente, y el aprovisionamiento adicional requiere mayores costos de hardware y mantenimiento.
- Consultas
- En esta vista, se proporciona un desglose de los tipos de instrucciones de SQL ejecutadas y las estadísticas de su uso. Puedes usar el histograma de Tiempo y tipo de consulta para identificar los períodos bajos del uso del sistema y los momentos óptimos del día para transferir datos. También puedes usar esta vista para identificar los motores de ejecución de Hive más usados y las consultas ejecutadas con frecuencia junto con los detalles del usuario.
- Bases de datos
- En esta vista, se proporcionan métricas sobre el tamaño, las tablas, las vistas y los procedimientos definidos en el sistema de almacén de datos de origen. Esta vista puede proporcionar estadísticas sobre el volumen de objetos que necesitas migrar.
- Acoplamiento de bases de datos y tablas
- Esta vista proporciona una vista de alto nivel de las bases de datos y tablas a las que se accede en una sola consulta. En esta vista, se puede mostrar a qué tablas y bases de datos se hace referencia con frecuencia y qué puedes usar para la planificación de la migración.
La sección Estado estable de BigQuery contiene las siguientes vistas:
- Tablas sin uso
- En la vista Tablas sin uso, se muestran las tablas en las que la evaluación de migración de BigQuery no pudo encontrar ningún uso durante el período de registros que se analizó. La falta de uso puede indicar que no necesitas transferir esa tabla a BigQuery durante la migración o que los costos de almacenamiento de datos en BigQuery pueden ser menores. Debes validar la lista de tablas sin usar, ya que podrían tener uso fuera del período de los registros, como una tabla que solo se usa una vez cada tres o seis meses.
- Tablas sin escritura
- En la vista Tablas sin escrituras, se muestran las tablas en las que la evaluación de migración de BigQuery no pudo encontrar ninguna actualización durante el período de registros que se analizó. La falta de escrituras puede indicar dónde se pueden reducir los costos de almacenamiento en BigQuery.
- Recomendaciones de agrupamiento en clústeres y partición
En esta vista, se muestran las tablas que se beneficiarían de la partición, el agrupamiento en clústeres o ambos.
Las sugerencias de metadatos se logran mediante el análisis del esquema del almacén de datos de origen (como el particionamiento y la clave primaria en la tabla de origen) y la búsqueda del equivalente de BigQuery más cercano para lograr características de optimización similares.
Las sugerencias de cargas de trabajo se obtienen mediante el análisis de los registros de consulta de origen. La recomendación se determina mediante el análisis de las cargas de trabajo, en especial las cláusulas
WHERE
oJOIN
en los registros de consulta analizados.- Particiones convertidas en clústeres
En esta vista, se muestran tablas que tienen más de 10,000 particiones, según su definición de restricción de partición. Estas tablas suelen ser buenas candidatas para el agrupamiento en clústeres de BigQuery, lo que permite particiones de tabla detalladas.
- Particiones sesgadas
La vista de particiones sesgadas muestra tablas que se basan en el análisis de metadatos y tienen sesgo de datos en una o varias particiones. Estas tablas son buenas candidatas para el cambio de esquema, ya que las consultas en particiones sesgadas podrían no tener un buen rendimiento.
- BI Engine y vistas materializadas
La vista Consultas de baja latencia y Vistas materializadas muestran una distribución de entornos de ejecución de consultas en función de los datos de registro analizados y más sugerencias de optimización para aumentar el rendimiento en BigQuery. Si el gráfico de distribución de la duración de la consulta muestra una gran cantidad de consultas con un tiempo de ejecución inferior a 1 segundo, considera habilitar BI Engine para acelerar la IE y otras cargas de trabajo de baja latencia.
La sección Plan de migración del informe contiene las siguientes vistas:
- Traducción de SQL
- En la vista Traducción de SQL, se muestra el recuento y los detalles de las consultas que la evaluación de migración de BigQuery convirtió automáticamente y que no requieren intervención manual. La traducción automática de SQL suele lograr tasas de traducción altas si se proporcionan metadatos. Esta vista es interactiva y permite el análisis de consultas comunes y cómo se traducen.
- Esfuerzo sin conexión de traducción de SQL
- La vista Esfuerzo sin conexión captura las áreas que necesitan intervención manual, incluidas las UDF específicas y las posibles infracciones de sintaxis y estructura léxicas para las tablas o columnas.
- Advertencias de SQL
- La vista Advertencias de SQL captura áreas que se traducen correctamente, pero requieren una revisión.
- Palabras clave reservadas de BigQuery
- En la vista Palabras clave reservadas de BigQuery, se muestra el uso detectado de las palabras clave que tienen un significado especial en el lenguaje GoogleSQL.
Estas palabras clave no se pueden usar como identificadores, a menos que estén encerradas entre caracteres de acento grave (
`
). - Programa de actualizaciones de la tabla
- En la vista Programa de actualizaciones de tablas, se muestra cuándo y con qué frecuencia se actualizan las tablas para ayudarte a planificar cómo y cuándo moverlas.
- Tablas externas de BigLake
- En la vista de tablas externas de BigLake, se describen las tablas que se identifican como destinos de migración a BigLake en lugar de BigQuery.
La sección Apéndice del informe contiene las siguientes vistas:
- Análisis detallado del esfuerzo sin conexión de la traducción de SQL
- La vista Análisis detallado del esfuerzo sin conexión proporciona una estadística adicional de las áreas de SQL que necesitan intervención manual.
- Análisis detallado de advertencias de SQL
- La vista Análisis detallado de las advertencias proporciona una estadística adicional de las áreas de SQL que se traducen de forma correcta, pero requieren una revisión.
Snowflake
El informe consta de diferentes secciones que se pueden usar por separado o juntas. En el siguiente diagrama, se organizan estas secciones en tres objetivos de usuario comunes para ayudarte a evaluar tus necesidades de migración:
Vistas destacadas de migración
La sección Aspectos destacados de la migración contiene las siguientes vistas:
- Modelos de precios de Snowflake en comparación con BigQuery
- Enumera los precios con diferentes ediciones o niveles. También se incluye una ilustración de cómo el ajuste de escala automático de BigQuery puede ayudar a ahorrar más costos en comparación con el de Snowflake.
- Costo total de propiedad
- Tabla interactiva, que permite al usuario definir: edición de BigQuery, compromiso, compromiso de la ranura del modelo de referencia, porcentaje de almacenamiento activo y porcentaje de datos cargados o modificados. Ayuda a estimar mejor el costo de los casos personalizados.
- Aspectos destacados de la traducción automática
- Proporción de traducción agregada, agrupada por usuario o base de datos, ordenada de forma ascendente o descendente. También incluye el mensaje de error más común para la traducción automática con errores.
Vistas del sistema existente
La sección Sistema existente contiene las siguientes vistas:
- Descripción general del sistema
- La vista de descripción general del sistema proporciona las métricas de volumen de alto nivel de los componentes clave en el sistema existente durante un período específico. El cronograma que se evalúa depende de los registros que se analizaron en la evaluación de migración de BigQuery. Esta vista te brinda estadísticas rápidas sobre el uso del almacén de datos de origen, que puedes usar para la planificación de la migración.
- Descripción general de los almacenes virtuales
- Muestra el costo de Snowflake por almacén, así como el reescalamiento basado en nodos durante el período.
- Volumen de tablas
- En la vista Volumen de tablas, se proporcionan estadísticas sobre las tablas y bases de datos más grandes que se encuentran en la evaluación de migración de BigQuery. Debido a que las tablas grandes pueden tardar más en extraerse del sistema de almacén de datos de origen, esta vista puede ser útil en la planificación y la secuencia de la migración.
- Uso de tablas
- En la vista Uso de tablas, se proporcionan estadísticas sobre qué tablas se usan mucho dentro del sistema de almacén de datos de origen. Las tablas muy usadas pueden ayudarte a comprender qué tablas pueden tener muchas dependencias y requieren una planificación adicional durante el proceso de migración.
- Consultas
- La vista Consultas proporciona un desglose de los tipos de instrucciones de SQL ejecutadas y las estadísticas de su uso. Puedes usar el histograma de Tiempo y Tipo de consulta para identificar los períodos bajos del uso del sistema y los momentos óptimos del día para transferir datos. También puedes usar esta vista para identificar las consultas que se ejecutan con frecuencia y los usuarios que invocan esas ejecuciones.
- Bases de datos
- La vista de bases de datos proporciona métricas sobre el tamaño, las tablas, las vistas y los procedimientos definidos en el sistema de almacén de datos de origen. Esta vista proporciona observaciones sobre el volumen de objetos que necesitas migrar.
Vistas de estado estable de BigQuery
La sección Estado estable de BigQuery contiene las siguientes vistas:
- Tablas sin uso
- En la vista Tablas sin uso, se muestran las tablas en las que la evaluación de migración de BigQuery no pudo encontrar ningún uso durante el período de registros que se analizó. Esto puede indicar qué tablas no necesitan transferirse a BigQuery durante la migración o que los costos de almacenamiento de datos en BigQuery pueden ser menores. Debes validar la lista de tablas sin usar, ya que podrían tener uso fuera del período de registros analizado, como una tabla que solo se usa una vez por trimestre o por semestre.
- Tablas sin escritura
- En la vista Tablas sin escrituras, se muestran las tablas en las que la evaluación de migración de BigQuery no pudo encontrar ninguna actualización durante el período de registros que se analizó. Esto puede indicar que los costos de almacenamiento de datos en BigQuery podrían ser menores.
Vistas del plan de migración
La sección Plan de migración del informe contiene las siguientes vistas:
- Traducción de SQL
- En la vista Traducción de SQL, se muestra el recuento y los detalles de las consultas que la evaluación de migración de BigQuery convirtió automáticamente y que no requieren intervención manual. La traducción automática de SQL suele lograr tasas de traducción altas si se proporcionan metadatos. Esta vista es interactiva y permite el análisis de consultas comunes y cómo se traducen.
- Esfuerzo sin conexión de traducción de SQL
- La vista Esfuerzo sin conexión captura las áreas que necesitan intervención manual, incluidas las UDF específicas y las posibles infracciones de sintaxis y estructura léxicas para las tablas o columnas.
- Advertencias de SQL: Revisión
- La vista Advertencias para revisar captura las áreas que se traducen, pero requieren cierta inspección manual.
- Palabras clave reservadas de BigQuery
- La vista Palabras clave reservadas de BigQuery muestra el uso detectado de palabras clave que tienen un significado especial en el lenguaje GoogleSQL y no se pueden usar como identificadores, a menos que estén encerrados entre caracteres de acento grave (
`
). - Acoplamiento de bases de datos y tablas
- La vista de acoplamiento de la base de datos proporciona una vista de alto nivel en las bases de datos y tablas a las que se accede en conjunto en una sola consulta. En esta vista, se puede ver a qué tablas y bases de datos se hace referencia a menudo y qué se puede usar para la planificación de la migración.
- Programa de actualizaciones de la tabla
- En la vista Programa de actualizaciones de tablas, se muestra cuándo y con qué frecuencia se actualizan las tablas para ayudarte a planificar cómo y cuándo moverlas.
Vista de prueba de concepto
La sección PoC (prueba de concepto) contiene las siguientes vistas:
- PoC para demostrar los ahorros de estado estable de BigQuery
- Incluye las consultas más frecuentes, las consultas que leen la mayor cantidad de datos, las consultas más lentas y las tablas afectadas por estas consultas.
- PoC para demostrar el plan de migración de BigQuery
- Muestra cómo BigQuery traduce las consultas más complejas y las tablas a las que afectan.
Oracle
Para solicitar comentarios o asistencia para esta función, envía un correo electrónico a bq-edw-migration-support@google.com.
Puntos destacados de la migración
La sección Aspectos destacados de la migración contiene las siguientes vistas:
- Sistema existente: Es una instantánea del sistema y el uso de Oracle existentes, incluida la cantidad de bases de datos, esquemas, tablas y el tamaño total en GB. También proporciona el resumen de la clasificación de la carga de trabajo para cada base de datos para ayudarte a decidir si BigQuery es el destino de migración correcto.
- Compatibilidad: Proporciona información sobre el esfuerzo de migración. Para cada base de datos analizada, muestra el tiempo esperado para la migración y la cantidad de objetos de base de datos que se pueden migrar automáticamente con las herramientas que proporciona Google.
- Estado estable de BigQuery: Contiene información sobre cómo se verán tus datos después de la migración en BigQuery, incluidos los costos de almacenar tus datos en BigQuery según tu tasa de transferencia anual de datos. Además, proporciona la estimación del costo de procesamiento de BigQuery para Oracle Exadata.
Sistema existente
La sección Sistema existente contiene las siguientes vistas:
- Característica de cargas de trabajo: Describe el tipo de carga de trabajo de cada base de datos según las métricas de rendimiento analizadas. Cada base de datos se clasifica como OLAP, mixta o OLTP. Esta información puede ayudarte a tomar una decisión sobre qué bases de datos se pueden migrar a BigQuery.
- Bases de datos y esquemas: Proporciona un desglose del tamaño total de almacenamiento en GB para cada base de datos, esquema o tabla. Además, puedes usar esta vista para identificar las vistas materializadas y las tablas externas.
- Funciones y vínculos de la base de datos: Muestra la lista de funciones de Oracle que se usan en tu base de datos, junto con las funciones o los servicios equivalentes de BigQuery que se pueden usar después de la migración. Además, puedes explorar los vínculos de bases de datos para comprender mejor las conexiones entre ellas.
- Conexiones de bases de datos: Proporciona estadísticas sobre las sesiones de la base de datos que inició el usuario o la aplicación. El análisis de estos datos puede ayudarte a identificar aplicaciones externas que podrían requerir un esfuerzo adicional durante la migración.
- Tipos de consultas: Proporciona un desglose de los tipos de instrucciones de SQL ejecutadas y las estadísticas de su uso. Puedes usar el histograma por hora de Ejecuciones de consultas o Tiempo de CPU de consultas para identificar los períodos bajos del uso del sistema y los momentos óptimos del día para transferir datos.
- Código fuente de PL/SQL: Proporciona estadísticas sobre los objetos PL/SQL, como las funciones o los procedimientos, y su tamaño para cada base de datos y esquema. Además, el histograma de ejecuciones por hora se puede usar para identificar las horas pico con la mayoría de las ejecuciones de PL/SQL.
Estado estable de BigQuery
La sección Sistema existente contiene las siguientes vistas:
- Precios de Exadata en comparación con los de BigQuery: Proporciona la comparación general de los modelos de precios de Exadata y BigQuery para ayudarte a comprender los beneficios y los posibles ahorros de costos después de la migración a BigQuery.
- Estimador de costos de BigQuery: Se puede usar para estimar el costo total de BigQuery según tu configuración de Exadata. Para obtener la estimación más precisa, debes proporcionar la cantidad de servidores de bases de datos, su tipo y su uso. Además, puedes comparar el costo de BigQuery según la edición y el compromiso seleccionados.
- Operaciones de lectura y escritura de la base de datos: Proporciona estadísticas sobre las operaciones de disco físico de la base de datos. El análisis de estos datos puede ayudarte a encontrar el mejor momento para realizar la migración de datos de Oracle a BigQuery.
Sugerencias de migración
La sección Sugerencias de migración contiene las siguientes vistas:
- Compatibilidad de objetos de base de datos: Proporciona una descripción general de la compatibilidad de los objetos de base de datos con BigQuery, incluida la cantidad de objetos que se pueden migrar automáticamente con las herramientas proporcionadas por Google o que requieren acciones manuales. Esta información se muestra para cada base de datos, esquema y tipo de objeto de base de datos.
- Esfuerzo de migración de objetos de base de datos: Muestra la estimación del esfuerzo de migración en horas para cada base de datos, esquema o tipo de objeto de base de datos. Además, muestra el porcentaje de objetos pequeños, medianos y grandes según el esfuerzo de migración.
- Esfuerzo de migración del esquema de la base de datos: Proporciona la lista de todos los tipos de objetos de la base de datos detectados, su cantidad, la compatibilidad con BigQuery y el esfuerzo de migración estimado en horas.
- Esfuerzo detallado de migración de esquemas de bases de datos: Proporciona estadísticas más detalladas sobre el esfuerzo de migración de esquemas de bases de datos, incluida la información de cada objeto.
Vista de prueba de concepto
La sección Vistas de prueba de concepto contiene las siguientes vistas:
- Migración de prueba de concepto: Muestra la lista sugerida de bases de datos con el esfuerzo de migración más bajo que son buenos candidatos para la migración inicial. Además, muestra las consultas principales que pueden ayudar a demostrar el ahorro de tiempo y costos, y el valor de BigQuery a través de una prueba de concepto.
Apéndice
La sección Apéndice contiene las siguientes vistas:
- Resumen de la ejecución de la evaluación: Proporciona los detalles de la ejecución de la evaluación, incluida la lista de archivos procesados, los errores y el nivel de finalización del informe. Puedes usar esta página para investigar los datos que faltan en el informe y comprender mejor su nivel de finalización general.
Comparte el informe
El informe de Looker Studio es un panel de frontend para la evaluación de la migración. Se basa en los permisos de acceso al conjunto de datos subyacente. Para compartir el informe, el destinatario debe tener acceso al informe de Looker Studio y al conjunto de datos de BigQuery que contiene los resultados de la evaluación.
Cuando abres el informe desde la consola de Google Cloud , lo ves en el modo de vista previa. Para crear y compartir el informe con otros usuarios, realiza los siguientes pasos:
- Haz clic en Editar y compartir. Looker Studio te solicita que adjuntes los conectores de Looker Studio recién creados al informe nuevo.
- Haga clic en Agregar al informe. El informe recibe un ID de informe individual, que puedes usar para acceder al informe.
- Para compartir el informe de Looker Studio con otros usuarios, sigue los pasos proporcionados en Comparte informes con usuarios y editores.
- Otorga permiso a los usuarios para ver el conjunto de datos de BigQuery que se usó a fin de ejecutar la tarea de evaluación. Para obtener más información, consulta Otorga acceso a un conjunto de datos.
Consulta las tablas de resultados de la evaluación de migración
Aunque los informes de Looker Studio son la forma más conveniente de ver los resultados de la evaluación, también puedes consultar y ver los datos subyacentes en el conjunto de datos de BigQuery.
Consulta de ejemplo
En el ejemplo siguiente, se obtiene la cantidad total de consultas únicas, la cantidad de consultas que fallaron en la traducción y el porcentaje de consultas únicas que fallaron.
SELECT QueryCount.v AS QueryCount, ErrorCount.v as ErrorCount, (ErrorCount.v * 100) / QueryCount.v AS FailurePercentage FROM ( SELECT COUNT(*) AS v FROM `your_project.your_dataset.TranslationErrors` WHERE Type = "ERROR" ) AS ErrorCount, ( SELECT COUNT(DISTINCT(QueryHash)) AS v FROM `your_project.your_dataset.Queries` ) AS QueryCount;
Comparte tu conjunto de datos con usuarios de otros proyectos
Después de inspeccionar el conjunto de datos, si deseas compartirlo con un usuario que no está en tu proyecto, puedes hacerlo con el flujo de trabajo del publicador de Analytics Hub.
En la consola de Google Cloud , ve a la página BigQuery.
Haz clic en el conjunto de datos para ver sus detalles.
Haz clic en > Publicar como ficha.
CompartirEn el diálogo que se abre, crea una ficha según se te solicite.
Si ya tienes un intercambio de datos, omite el paso 5.
Crea un intercambio y establece permisos. Para permitir que un usuario vea tus fichas en este intercambio, agrégalo a la lista de Suscriptores.
Ingresa los detalles de la ficha.
Nombre visible es el nombre de esta ficha y es obligatorio. Los demás campos son opcionales.
Haz clic en Publicar.
Se crea una ficha privada.
En tu ficha, selecciona
Más acciones en Acciones.Haz clic en Copiar vínculo para compartir.
Puedes compartir el vínculo con los usuarios que tengan acceso de suscripción a tu intercambio o ficha.
Esquemas de tablas de evaluación
Para ver las tablas y sus esquemas que la evaluación de migración de BigQuery escribe en BigQuery, selecciona tu almacén de datos:
Teradata
AllRIChildren
En esta tabla, se proporciona información de integridad referencial de los elementos secundarios de la tabla.
Columna | Tipo | Descripción |
---|---|---|
IndexId |
INTEGER |
Es el número de índice de referencia. |
IndexName |
STRING |
Es el nombre del índice. |
ChildDB |
STRING |
El nombre de la base de datos de referencia, convertido en minúsculas. |
ChildDBOriginal |
STRING |
El nombre de la base de datos de referencia, con mayúsculas preservadas. |
ChildTable |
STRING |
El nombre de la tabla de referencia, convertido en minúsculas. |
ChildTableOriginal |
STRING |
El nombre de la tabla de referencia con el caso preservado. |
ChildKeyColumn |
STRING |
El nombre de una columna en la clave de referencia, convertido en minúsculas. |
ChildKeyColumnOriginal |
STRING |
El nombre de una columna en la clave de referencia con el caso preservado. |
ParentDB |
STRING |
El nombre de la base de datos a la que se hace referencia, convertido en minúsculas. |
ParentDBOriginal |
STRING |
El nombre de la base de datos de referencia, con mayúsculas preservadas. |
ParentTable |
STRING |
El nombre de la tabla a la que se hace referencia, convertido en minúsculas. |
ParentTableOriginal |
STRING |
El nombre de la tabla de referencia con el caso preservado. |
ParentKeyColumn |
STRING |
El nombre de la columna en una clave a la que se hace referencia, convertido en minúsculas. |
ParentKeyColumnOriginal |
STRING |
El nombre de la columna en una clave de referencia con el caso preservado. |
AllRIParents
En esta tabla, se proporciona la información de integridad referencial de los elementos superiores de la tabla.
Columna | Tipo | Descripción |
---|---|---|
IndexId |
INTEGER |
Es el número de índice de referencia. |
IndexName |
STRING |
Es el nombre del índice. |
ChildDB |
STRING |
El nombre de la base de datos de referencia, convertido en minúsculas. |
ChildDBOriginal |
STRING |
El nombre de la base de datos de referencia, con mayúsculas preservadas. |
ChildTable |
STRING |
El nombre de la tabla de referencia, convertido en minúsculas. |
ChildTableOriginal |
STRING |
El nombre de la tabla de referencia con el caso preservado. |
ChildKeyColumn |
STRING |
El nombre de una columna en la clave de referencia, convertido en minúsculas. |
ChildKeyColumnOriginal |
STRING |
El nombre de una columna en la clave de referencia con el caso preservado. |
ParentDB |
STRING |
El nombre de la base de datos a la que se hace referencia, convertido en minúsculas. |
ParentDBOriginal |
STRING |
El nombre de la base de datos de referencia, con mayúsculas preservadas. |
ParentTable |
STRING |
El nombre de la tabla a la que se hace referencia, convertido en minúsculas. |
ParentTableOriginal |
STRING |
El nombre de la tabla de referencia con el caso preservado. |
ParentKeyColumn |
STRING |
El nombre de la columna en una clave a la que se hace referencia, convertido en minúsculas. |
ParentKeyColumnOriginal |
STRING |
El nombre de la columna en una clave de referencia con el caso preservado. |
Columns
En esta tabla, se proporciona información sobre las columnas.
Columna | Tipo | Descripción |
---|---|---|
DatabaseName |
STRING |
El nombre de la base de datos, convertido en minúsculas. |
DatabaseNameOriginal |
STRING |
El nombre de la base de datos, con mayúsculas preservadas. |
TableName |
STRING |
El nombre de la tabla, convertido en minúsculas. |
TableNameOriginal |
STRING |
El nombre de la tabla con el caso preservado. |
ColumnName |
STRING |
El nombre de la columna, convertido en minúsculas. |
ColumnNameOriginal |
STRING |
El nombre de la columna con el caso preservado. |
ColumnType |
STRING |
El tipo de BigQuery de la columna, como STRING . |
OriginalColumnType |
STRING |
El tipo original de la columna, como VARCHAR . |
ColumnLength |
INTEGER |
Es la cantidad máxima de bytes de la columna, como 30 para VARCHAR(30) . |
DefaultValue |
STRING |
Es el valor predeterminado, si existe. |
Nullable |
BOOLEAN |
Indica si la columna acepta el valor NULL. |
DiskSpace
En esta tabla, se proporciona información sobre el uso del espacio en disco de cada base de datos.
Columna | Tipo | Descripción |
---|---|---|
DatabaseName |
STRING |
El nombre de la base de datos, convertido en minúsculas. |
DatabaseNameOriginal |
STRING |
El nombre de la base de datos, con mayúsculas preservadas. |
MaxPerm |
INTEGER |
Es la cantidad máxima de bytes asignados al espacio permanente. |
MaxSpool |
INTEGER |
Es la cantidad máxima de bytes asignados al espacio de cola. |
MaxTemp |
INTEGER |
Es la cantidad máxima de bytes asignados al espacio temporal. |
CurrentPerm |
INTEGER |
Es la cantidad de bytes asignados actualmente al espacio permanente. |
CurrentSpool |
INTEGER |
Es la cantidad de bytes asignados actualmente al espacio de cola. |
CurrentTemp |
INTEGER |
Es la cantidad de bytes asignados actualmente al espacio temporal. |
PeakPerm |
INTEGER |
La cantidad máxima de bytes usados desde el último restablecimiento del espacio permanente. |
PeakSpool |
INTEGER |
La cantidad máxima de bytes usados desde el último restablecimiento del espacio de cola. |
PeakPersistentSpool |
INTEGER |
La cantidad máxima de bytes usados desde el último restablecimiento del espacio persistente. |
PeakTemp |
INTEGER |
La cantidad máxima de bytes usados desde el último restablecimiento del espacio temporal. |
MaxProfileSpool |
INTEGER |
Es el límite de espacio de cola para el usuario. |
MaxProfileTemp |
INTEGER |
Es el límite de espacio temporal para el usuario. |
AllocatedPerm |
INTEGER |
La asignación actual del espacio permanente. |
AllocatedSpool |
INTEGER |
La asignación actual del espacio en cola. |
AllocatedTemp |
INTEGER |
La asignación actual del espacio temporal. |
Functions
En esta tabla, se proporciona información sobre las funciones.
Columna | Tipo | Descripción |
---|---|---|
DatabaseName |
STRING |
El nombre de la base de datos, convertido en minúsculas. |
DatabaseNameOriginal |
STRING |
El nombre de la base de datos, con mayúsculas preservadas. |
FunctionName |
STRING |
Es el nombre de la función. |
LanguageName |
STRING |
El nombre del idioma. |
Indices
En esta tabla, se proporciona información sobre los índices.
Columna | Tipo | Descripción |
---|---|---|
DatabaseName |
STRING |
El nombre de la base de datos, convertido en minúsculas. |
DatabaseNameOriginal |
STRING |
El nombre de la base de datos, con mayúsculas preservadas. |
TableName |
STRING |
El nombre de la tabla, convertido en minúsculas. |
TableNameOriginal |
STRING |
El nombre de la tabla con el caso preservado. |
IndexName |
STRING |
Es el nombre del índice. |
ColumnName |
STRING |
El nombre de la columna, convertido en minúsculas. |
ColumnNameOriginal |
STRING |
El nombre de la columna con el caso preservado. |
OrdinalPosition |
INTEGER |
Es la posición de la columna. |
UniqueFlag |
BOOLEAN |
Indica si el índice aplica la unicidad. |
Queries
En esta tabla, se proporciona información sobre las consultas extraídas.
Columna | Tipo | Descripción |
---|---|---|
QueryHash |
STRING |
El hash de la consulta. |
QueryText |
STRING |
Es el texto de la consulta. |
QueryLogs
Esta tabla proporciona algunas estadísticas de ejecución sobre las consultas extraídas.
Columna | Tipo | Descripción |
---|---|---|
QueryText |
STRING |
Es el texto de la consulta. |
QueryHash |
STRING |
El hash de la consulta. |
QueryId |
STRING |
El ID de la consulta. |
QueryType |
STRING |
Es el tipo de consulta, ya sea Query o DDL. |
UserId |
BYTES |
El ID del usuario que ejecutó la consulta. |
UserName |
STRING |
El nombre del usuario que ejecutó la consulta. |
StartTime |
TIMESTAMP |
Es la marca de tiempo del momento en que se envió la consulta. |
Duration |
STRING |
Es la duración de la consulta, expresada en milisegundos. |
AppId |
STRING |
El ID de la aplicación que ejecutó la consulta. |
ProxyUser |
STRING |
Es el usuario del proxy cuando se usa a través de un nivel intermedio. |
ProxyRole |
STRING |
Es el rol del proxy cuando se usa a través de un nivel intermedio. |
QueryTypeStatistics
En esta tabla, se proporcionan estadísticas sobre los tipos de consultas.
Columna | Tipo | Descripción |
---|---|---|
QueryHash |
STRING |
El hash de la consulta. |
QueryType |
STRING |
El tipo de consulta. |
UpdatedTable |
STRING |
Es la tabla que actualizó la consulta, si la hubiera. |
QueriedTables |
ARRAY<STRING> |
Es una lista de las tablas que se consultaron. |
ResUsageScpu
En esta tabla, se proporciona información sobre el uso de recursos de la CPU.
Columna | Tipo | Descripción |
---|---|---|
EventTime |
TIMESTAMP |
Es la hora del evento. |
NodeId |
INTEGER |
ID de nodo |
CabinetId |
INTEGER |
Es el número de gabinete físico del nodo. |
ModuleId |
INTEGER |
Es el número de módulo físico del nodo. |
NodeType |
STRING |
Es el tipo de nodo. |
CpuId |
INTEGER |
Es el ID de la CPU dentro de este nodo. |
MeasurementPeriod |
INTEGER |
Es el período de la medición expresado en centésimas de segundo. |
SummaryFlag |
STRING |
S: fila de resumen, N: fila que no es de resumen |
CpuFrequency |
FLOAT |
Es la frecuencia de la CPU en MHz. |
CpuIdle |
FLOAT |
Es el tiempo que la CPU está inactiva, expresado en centésimas de segundo. |
CpuIoWait |
FLOAT |
Es el tiempo que la CPU espera a la E/S, expresado en centésimas de segundo. |
CpuUServ |
FLOAT |
Es el tiempo que la CPU dedica a ejecutar el código del usuario, expresado en centésimas de segundo. |
CpuUExec |
FLOAT |
Es el tiempo que la CPU dedica a ejecutar el código de servicio, expresado en centésimas de segundo. |
Roles
En esta tabla, se proporciona información sobre los roles.
Columna | Tipo | Descripción |
---|---|---|
RoleName |
STRING |
El nombre del rol. |
Grantor |
STRING |
El nombre de la base de datos que otorgó el rol. |
Grantee |
STRING |
El usuario al que se le otorga el rol. |
WhenGranted |
TIMESTAMP |
Cuándo se otorgó el rol. |
WithAdmin |
BOOLEAN |
Es la opción de administrador establecida para el rol otorgado. |
Conversión de esquemas
En esta tabla, se proporciona información sobre las conversiones de esquema relacionadas con el agrupamiento en clústeres y la partición.
Nombre de la columna | Tipo de columna | Descripción |
---|---|---|
DatabaseName |
STRING |
El nombre de la base de datos de origen para la que se realiza la sugerencia. Una base de datos se asigna a un conjunto de datos en BigQuery. |
TableName |
STRING |
El nombre de la tabla para la que se realiza la sugerencia. |
PartitioningColumnName |
STRING |
El nombre de la columna de partición sugerida en BigQuery. |
ClusteringColumnNames |
ARRAY |
Los nombres de las columnas de agrupamiento en clústeres sugeridas en BigQuery. |
CreateTableDDL |
STRING |
El CREATE TABLE statement para crear la tabla en BigQuery. |
TableInfo
En esta tabla, se proporciona información sobre las tablas.
Columna | Tipo | Descripción |
---|---|---|
DatabaseName |
STRING |
El nombre de la base de datos, convertido en minúsculas. |
DatabaseNameOriginal |
STRING |
El nombre de la base de datos, con mayúsculas preservadas. |
TableName |
STRING |
El nombre de la tabla, convertido en minúsculas. |
TableNameOriginal |
STRING |
El nombre de la tabla con el caso preservado. |
LastAccessTimestamp |
TIMESTAMP |
Es la última vez que se accedió a la tabla. |
LastAlterTimestamp |
TIMESTAMP |
Es la última vez que se modificó la tabla. |
TableKind |
STRING |
El tipo de tabla. |
TableRelations
En esta tabla, se proporciona información sobre las tablas.
Columna | Tipo | Descripción |
---|---|---|
QueryHash |
STRING |
Es el hash de la consulta que estableció la relación. |
DatabaseName1 |
STRING |
Es el nombre de la primera base de datos. |
TableName1 |
STRING |
Es el nombre de la primera tabla. |
DatabaseName2 |
STRING |
Es el nombre de la segunda base de datos. |
TableName2 |
STRING |
El nombre de la segunda tabla. |
Relation |
STRING |
Es el tipo de relación entre las dos tablas. |
TableSizes
En esta tabla, se proporciona información sobre los tamaños de las tablas.
Columna | Tipo | Descripción |
---|---|---|
DatabaseName |
STRING |
El nombre de la base de datos, convertido en minúsculas. |
DatabaseNameOriginal |
STRING |
El nombre de la base de datos, con mayúsculas preservadas. |
TableName |
STRING |
El nombre de la tabla, convertido en minúsculas. |
TableNameOriginal |
STRING |
El nombre de la tabla con el caso preservado. |
TableSizeInBytes |
INTEGER |
Es el tamaño de la tabla en bytes. |
Users
En esta tabla, se proporciona información sobre los usuarios.
Columna | Tipo | Descripción |
---|---|---|
UserName |
STRING |
Es el nombre del usuario. |
CreatorName |
STRING |
Es el nombre de la entidad que creó este usuario. |
CreateTimestamp |
TIMESTAMP |
Es la marca de tiempo de la creación de este usuario. |
LastAccessTimestamp |
TIMESTAMP |
Es la marca de tiempo de la última vez que este usuario accedió a una base de datos. |
Amazon Redshift
Columns
La tabla Columns
proviene de una de las siguientes tablas:SVV_COLUMNS, INFORMATION_SCHEMA.COLUMNS oPG_TABLE_DEF, ordenadas por prioridad. La herramienta intenta cargar primero los datos desde la tabla de prioridad más alta. Si esto falla, intenta cargar datos de la siguiente tabla de prioridad más alta. Consulta la documentación de Amazon Redshift o PostgreSQL para obtener más detalles sobre el esquema y el uso.
Columna | Tipo | Descripción |
---|---|---|
DatabaseName |
STRING |
Es el nombre de la base de datos. |
SchemaName |
STRING |
Es el nombre del esquema. |
TableName |
STRING |
Es el nombre de la tabla. |
ColumnName |
STRING |
Es el nombre de la columna |
DefaultValue |
STRING |
Es el valor predeterminado, si está disponible. |
Nullable |
BOOLEAN |
Indica si una columna puede tener un valor nulo. |
ColumnType |
STRING |
El tipo de la columna, como VARCHAR . |
ColumnLength |
INTEGER |
Es el tamaño de la columna, como 30 para un VARCHAR(30) . |
CreateAndDropStatistic
En esta tabla, se proporciona información sobre cómo crear y borrar tablas.
Columna | Tipo | Descripción |
---|---|---|
QueryHash |
STRING |
El hash de la consulta. |
DefaultDatabase |
STRING |
La base de datos predeterminada. |
EntityType |
STRING |
El tipo de entidad, por ejemplo, TABLA. |
EntityName |
STRING |
Es el nombre de la entidad. |
Operation |
STRING |
La operación: CREATE o DROP. |
Databases
Esta tabla proviene de la tabla PG_DATABASE_INFO directamente de Amazon Redshift. Los nombres de campo originales de la tabla PG se incluyen con las descripciones. Consulta la documentación de Amazon Redshift y PostgreSQL para obtener más detalles sobre el esquema y el uso.
Columna | Tipo | Descripción |
---|---|---|
DatabaseName |
STRING |
Es el nombre de la base de datos. Nombre de la fuente: datname |
Owner |
STRING |
El propietario de la base de datos. Por ejemplo, el usuario que creó la base de datos. Nombre de la fuente: datdba |
ExternalColumns
Esta tabla contiene información de la tabla SVV_EXTERNAL_COLUMNS directamente desde Amazon Redshift. Consulta la documentación de Amazon Redshift para obtener más detalles sobre el esquema y el uso.
Columna | Tipo | Descripción |
---|---|---|
SchemaName |
STRING |
Es el nombre del esquema externo. |
TableName |
STRING |
Es el nombre de la tabla externa. |
ColumnName |
STRING |
Es el nombre de la columna externa. |
ColumnType |
STRING |
Es el tipo de la columna. |
Nullable |
BOOLEAN |
Indica si una columna puede tener un valor nulo. |
ExternalDatabases
Esta tabla contiene información de la tabla SVV_EXTERNAL_DATABASES directamente desde Amazon Redshift. Consulta la documentación de Amazon Redshift para obtener más detalles sobre el esquema y el uso.
Columna | Tipo | Descripción |
---|---|---|
DatabaseName |
STRING |
Es el nombre de la base de datos externa. |
Location |
STRING |
La ubicación de la base de datos. |
ExternalPartitions
Esta tabla contiene información de la tabla SVV_EXTERNAL_PARTITIONS de Amazon Redshift directamente. Consulta la documentación de Amazon Redshift para obtener más detalles sobre el esquema y el uso.
Columna | Tipo | Descripción |
---|---|---|
SchemaName |
STRING |
Es el nombre del esquema externo. |
TableName |
STRING |
Es el nombre de la tabla externa. |
Location |
STRING |
Es la ubicación de la partición. El tamaño de la columna se limita a 128 caracteres. Los valores más largos se truncan. |
ExternalSchemas
Esta tabla contiene información de la tabla SVV_EXTERNAL_SCHEMAS de Amazon Redshift directamente. Consulta la documentación de Amazon Redshift para obtener más detalles sobre el esquema y el uso.
Columna | Tipo | Descripción |
---|---|---|
SchemaName |
STRING |
Es el nombre del esquema externo. |
DatabaseName |
STRING |
Es el nombre de la base de datos externa. |
ExternalTables
Esta tabla contiene información de la tabla SVV_EXTERNAL_TABLES directamente desde Amazon Redshift. Consulta la documentación de Amazon Redshift para obtener más detalles sobre el esquema y el uso.
Columna | Tipo | Descripción |
---|---|---|
SchemaName |
STRING |
Es el nombre del esquema externo. |
TableName |
STRING |
Es el nombre de la tabla externa. |
Functions
Esta tabla contiene información de la tabla PG_PROC de Amazon Redshift directamente. Consulta la documentación de Amazon Redshift y PostgreSQL para obtener más detalles sobre el esquema y el uso.
Columna | Tipo | Descripción |
---|---|---|
SchemaName |
STRING |
Es el nombre del esquema. |
FunctionName |
STRING |
Es el nombre de la función. |
LanguageName |
STRING |
El lenguaje de implementación o la interfaz de llamada de esta función. |
Queries
Esta tabla se genera con la información de la tabla QueryLogs
. A diferencia de la tabla QueryLogs
, cada fila de la tabla de consultas contiene solo una declaración de consulta almacenada en la columna QueryText. En esta tabla, se proporcionan los datos de origen para generar las tablas de estadísticas y los resultados de traducción.
Columna | Tipo | Descripción |
---|---|---|
QueryText |
STRING |
Es el texto de la consulta. |
QueryHash |
STRING |
El hash de la consulta. |
QueryLogs
En esta tabla, se proporciona información sobre la ejecución de consultas.
Columna | Tipo | Descripción |
---|---|---|
QueryText |
STRING |
Es el texto de la consulta. |
QueryHash |
STRING |
El hash de la consulta. |
QueryID |
STRING |
El ID de la consulta. |
UserID |
STRING |
El ID del usuario |
StartTime |
TIMESTAMP |
La hora de inicio. |
Duration |
INTEGER |
Duración en milisegundos. |
QueryTypeStatistics
Columna | Tipo | Descripción |
---|---|---|
QueryHash |
STRING |
El hash de la consulta. |
DefaultDatabase |
STRING |
La base de datos predeterminada. |
QueryType |
STRING |
El tipo de consulta. |
UpdatedTable |
STRING |
La tabla actualizada. |
QueriedTables |
ARRAY<STRING> |
Las tablas consultadas. |
TableInfo
Esta tabla contiene información extraída de la tabla SVV_TABLE_INFO en Amazon Redshift.
Columna | Tipo | Descripción |
---|---|---|
DatabaseName |
STRING |
Es el nombre de la base de datos. |
SchemaName |
STRING |
Es el nombre del esquema. |
TableId |
INTEGER |
El ID de la tabla |
TableName |
STRING |
Es el nombre de la tabla. |
SortKey1 |
STRING |
Primera columna de la clave de orden. |
SortKeyNum |
INTEGER |
Cantidad de columnas definidas como claves de ordenamiento. |
MaxVarchar |
INTEGER |
Es el tamaño de la columna más grande que usa un tipo de datos VARCHAR . |
Size |
INTEGER |
Tamaño de la tabla, en bloques de datos de 1 MB |
TblRows |
INTEGER |
Cantidad total de filas en la tabla. |
TableRelations
Columna | Tipo | Descripción |
---|---|---|
QueryHash |
STRING |
Es el hash de la consulta que estableció la relación (por ejemplo, una consulta JOIN). |
DefaultDatabase |
STRING |
La base de datos predeterminada. |
TableName1 |
STRING |
La primera tabla de la relación. |
TableName2 |
STRING |
La segunda tabla de la relación. |
Relation |
STRING |
El tipo de relación. Toma uno de los siguientes valores: COMMA_JOIN , CROSS_JOIN , FULL_OUTER_JOIN , INNER_JOIN , LEFT_OUTER_JOIN , RIGHT_OUTER_JOIN , CREATED_FROM o INSERT_INTO . |
Count |
INTEGER |
Con qué frecuencia se observó esta relación. |
TableSizes
En esta tabla, se proporciona información sobre los tamaños de las tablas.
Columna | Tipo | Descripción |
---|---|---|
DatabaseName |
STRING |
Es el nombre de la base de datos. |
SchemaName |
STRING |
Es el nombre del esquema. |
TableName |
STRING |
Es el nombre de la tabla. |
TableSizeInBytes |
INTEGER |
Es el tamaño de la tabla en bytes. |
Tables
Esta tabla contiene información extraída de la tabla SVV_TABLES en Amazon Redshift. Consulta la documentación de Amazon Redshift para obtener más detalles sobre el esquema y el uso.
Columna | Tipo | Descripción |
---|---|---|
DatabaseName |
STRING |
Es el nombre de la base de datos. |
SchemaName |
STRING |
Es el nombre del esquema. |
TableName |
STRING |
Es el nombre de la tabla. |
TableType |
STRING |
El tipo de tabla. |
TranslatedQueries
En esta tabla, se proporcionan traducciones de consultas.
Columna | Tipo | Descripción |
---|---|---|
QueryHash |
STRING |
El hash de la consulta. |
TranslatedQueryText |
STRING |
Resultado de la traducción del dialecto de origen a GoogleSQL. |
TranslationErrors
En esta tabla, se proporciona información sobre los errores de traducción de consultas.
Columna | Tipo | Descripción |
---|---|---|
QueryHash |
STRING |
El hash de la consulta. |
Severity |
STRING |
La gravedad del error, como ERROR . |
Category |
STRING |
La categoría del error, como AttributeNotFound . |
Message |
STRING |
El mensaje con los detalles sobre el error. |
LocationOffset |
INTEGER |
La posición del carácter de la ubicación del error. |
LocationLine |
INTEGER |
El número de línea del error. |
LocationColumn |
INTEGER |
El número de columna del error. |
LocationLength |
INTEGER |
La longitud de caracteres de la ubicación del error. |
UserTableRelations
Columna | Tipo | Descripción |
---|---|---|
UserID |
STRING |
El ID de usuario. |
TableName |
STRING |
Es el nombre de la tabla. |
Relation |
STRING |
La relación. |
Count |
INTEGER |
El recuento |
Users
Esta tabla contiene información extraída de la tabla PG_USER en Amazon Redshift. Consulta la documentación de PostgreSQL para obtener más detalles sobre el esquema y el uso.
Columna | Tipo | Descripción | |
---|---|---|---|
UserName |
STRING |
Es el nombre del usuario. | |
UserId |
STRING |
El ID de usuario. |
Apache Hive
Columns
En esta tabla, se proporciona información sobre las columnas:
Columna | Tipo | Descripción |
---|---|---|
DatabaseName |
STRING |
El nombre de la base de datos, con mayúsculas preservadas. |
TableName |
STRING |
El nombre de la tabla con el caso preservado. |
ColumnName |
STRING |
El nombre de la columna con el caso preservado. |
ColumnType |
STRING |
El tipo de BigQuery de la columna, como STRING . |
OriginalColumnType |
STRING |
El tipo original de la columna, como VARCHAR . |
CreateAndDropStatistic
En esta tabla, se proporciona información sobre cómo crear y borrar tablas:
Columna | Tipo | Descripción |
---|---|---|
QueryHash |
STRING |
El hash de la consulta. |
DefaultDatabase |
STRING |
La base de datos predeterminada. |
EntityType |
STRING |
El tipo de entidad, por ejemplo, TABLE . |
EntityName |
STRING |
Es el nombre de la entidad. |
Operation |
STRING |
Es la operación realizada en la tabla (CREATE o DROP ). |
Databases
En esta tabla, se proporciona información sobre las columnas:
Columna | Tipo | Descripción |
---|---|---|
DatabaseName |
STRING |
El nombre de la base de datos, con mayúsculas preservadas. |
Owner |
STRING |
El propietario de la base de datos. Por ejemplo, el usuario que creó la base de datos. |
Location |
STRING |
Ubicación de la base de datos en el sistema de archivos. |
Functions
En esta tabla, se proporciona información sobre las funciones:
Columna | Tipo | Descripción |
---|---|---|
DatabaseName |
STRING |
El nombre de la base de datos, con mayúsculas preservadas. |
FunctionName |
STRING |
Es el nombre de la función. |
LanguageName |
STRING |
El nombre del idioma. |
ClassName |
STRING |
El nombre de clase de la función. |
ObjectReferences
En esta tabla, se proporciona información sobre los objetos a los que se hace referencia en las consultas:
Columna | Tipo | Descripción |
---|---|---|
QueryHash |
STRING |
El hash de la consulta. |
DefaultDatabase |
STRING |
La base de datos predeterminada. |
Clause |
STRING |
La cláusula donde aparece el objeto. Por ejemplo, SELECT . |
ObjectName |
STRING |
El nombre del objeto. |
Type |
STRING |
Es el tipo de objeto. |
Subtype |
STRING |
El subtipo del objeto. |
ParititionKeys
En esta tabla, se proporciona información sobre las claves de partición:
Columna | Tipo | Descripción |
---|---|---|
DatabaseName |
STRING |
El nombre de la base de datos, con mayúsculas preservadas. |
TableName |
STRING |
El nombre de la tabla con el caso preservado. |
ColumnName |
STRING |
El nombre de la columna con el caso preservado. |
ColumnType |
STRING |
El tipo de BigQuery de la columna, como STRING . |
Parititions
En esta tabla, se proporciona información sobre las particiones de tablas:
Columna | Tipo | Descripción |
---|---|---|
DatabaseName |
STRING |
El nombre de la base de datos, con mayúsculas preservadas. |
TableName |
STRING |
El nombre de la tabla con el caso preservado. |
PartitionName |
STRING |
El nombre de la partición. |
CreateTimestamp |
TIMESTAMP |
Es la marca de tiempo de la creación de este usuario. |
LastAccessTimestamp |
TIMESTAMP |
La marca de tiempo de la última vez que se accedió a esta partición. |
LastDdlTimestamp |
TIMESTAMP |
Es la marca de tiempo de la última modificación de esta partición. |
TotalSize |
INTEGER |
El tamaño comprimido de la partición en bytes. |
Queries
Esta tabla se genera con la información de la tabla QueryLogs
. A diferencia de la tabla QueryLogs
, cada fila de la tabla de consultas contiene solo una instrucción de consulta almacenada en la columna QueryText
. En esta tabla, se proporcionan los datos de origen para generar las tablas de estadísticas y los resultados de traducción:
Columna | Tipo | Descripción |
---|---|---|
QueryHash |
STRING |
El hash de la consulta. |
QueryText |
STRING |
Es el texto de la consulta. |
QueryLogs
Esta tabla proporciona algunas estadísticas de ejecución sobre las consultas extraídas:
Columna | Tipo | Descripción |
---|---|---|
QueryText |
STRING |
Es el texto de la consulta. |
QueryHash |
STRING |
El hash de la consulta. |
QueryId |
STRING |
El ID de la consulta. |
QueryType |
STRING |
Es el tipo de consulta, ya sea Query o DDL . |
UserName |
STRING |
El nombre del usuario que ejecutó la consulta. |
StartTime |
TIMESTAMP |
Es la marca de tiempo del momento en que se envió la consulta. |
Duration |
STRING |
La duración de la consulta en milisegundos. |
QueryTypeStatistics
En esta tabla, se proporcionan estadísticas sobre los tipos de consultas:
Columna | Tipo | Descripción |
---|---|---|
QueryHash |
STRING |
El hash de la consulta. |
QueryType |
STRING |
El tipo de consulta. |
UpdatedTable |
STRING |
Es la tabla que actualizó la consulta, si la hubiera. |
QueriedTables |
ARRAY<STRING> |
Es una lista de las tablas que se consultaron. |
QueryTypes
En esta tabla, se proporcionan estadísticas sobre los tipos de consultas:
Columna | Tipo | Descripción |
---|---|---|
QueryHash |
STRING |
El hash de la consulta. |
Category |
STRING |
La categoría de la consulta. |
Type |
STRING |
El tipo de consulta. |
Subtype |
STRING |
El subtipo de la consulta. |
Conversión de esquemas
En esta tabla, se proporciona información sobre las conversiones de esquema relacionadas con el agrupamiento en clústeres y la partición:
Nombre de la columna | Tipo de columna | Descripción |
---|---|---|
DatabaseName |
STRING |
El nombre de la base de datos de origen para la que se realiza la sugerencia. Una base de datos se asigna a un conjunto de datos en BigQuery. |
TableName |
STRING |
El nombre de la tabla para la que se realiza la sugerencia. |
PartitioningColumnName |
STRING |
El nombre de la columna de partición sugerida en BigQuery. |
ClusteringColumnNames |
ARRAY |
Los nombres de las columnas de agrupamiento en clústeres sugeridas en BigQuery. |
CreateTableDDL |
STRING |
El CREATE TABLE statement para crear la tabla en BigQuery. |
TableRelations
En esta tabla, se proporciona información sobre las tablas:
Columna | Tipo | Descripción |
---|---|---|
QueryHash |
STRING |
Es el hash de la consulta que estableció la relación. |
DatabaseName1 |
STRING |
Es el nombre de la primera base de datos. |
TableName1 |
STRING |
Es el nombre de la primera tabla. |
DatabaseName2 |
STRING |
Es el nombre de la segunda base de datos. |
TableName2 |
STRING |
El nombre de la segunda tabla. |
Relation |
STRING |
Es el tipo de relación entre las dos tablas. |
TableSizes
En esta tabla, se proporciona información sobre los tamaños de las tablas:
Columna | Tipo | Descripción |
---|---|---|
DatabaseName |
STRING |
El nombre de la base de datos, con mayúsculas preservadas. |
TableName |
STRING |
El nombre de la tabla con el caso preservado. |
TotalSize |
INTEGER |
Es el tamaño de la tabla en bytes. |
Tables
En esta tabla, se proporciona información sobre las tablas:
Columna | Tipo | Descripción |
---|---|---|
DatabaseName |
STRING |
El nombre de la base de datos, con mayúsculas preservadas. |
TableName |
STRING |
El nombre de la tabla con el caso preservado. |
Type |
STRING |
El tipo de tabla. |
TranslatedQueries
En esta tabla, se proporcionan traducciones de consultas:
Columna | Tipo | Descripción |
---|---|---|
QueryHash |
STRING |
El hash de la consulta. |
TranslatedQueryText |
STRING |
Resultado de la traducción del dialecto de origen a GoogleSQL. |
TranslationErrors
En esta tabla, se proporciona información sobre los errores de traducción de consultas:
Columna | Tipo | Descripción |
---|---|---|
QueryHash |
STRING |
El hash de la consulta. |
Severity |
STRING |
La gravedad del error, como ERROR . |
Category |
STRING |
La categoría del error, como AttributeNotFound . |
Message |
STRING |
El mensaje con los detalles sobre el error. |
LocationOffset |
INTEGER |
La posición del carácter de la ubicación del error. |
LocationLine |
INTEGER |
El número de línea del error. |
LocationColumn |
INTEGER |
El número de columna del error. |
LocationLength |
INTEGER |
La longitud de caracteres de la ubicación del error. |
UserTableRelations
Columna | Tipo | Descripción |
---|---|---|
UserID |
STRING |
El ID de usuario. |
TableName |
STRING |
Es el nombre de la tabla. |
Relation |
STRING |
La relación. |
Count |
INTEGER |
El recuento |
Snowflake
Warehouses
Columna | Tipo | Descripción | Presencia |
---|---|---|---|
WarehouseName |
STRING |
El nombre del almacén | Siempre |
State |
STRING |
El estado del almacén. Valores posibles: STARTED , SUSPENDED , RESIZING . |
Siempre |
Type |
STRING |
Tipo de almacén. Valores posibles: STANDARD , SNOWPARK-OPTIMIZED . |
Siempre |
Size |
STRING |
Tamaño del almacén. Valores posibles: X-Small , Small , Medium , Large , X-Large , 2X-Large … 6X-Large . |
Siempre |
Databases
Columna | Tipo | Descripción | Presencia |
---|---|---|---|
DatabaseNameOriginal |
STRING |
El nombre de la base de datos, con el caso de mayúsculas preservado. | Siempre |
DatabaseName |
STRING |
El nombre de la base de datos, convertido en minúsculas. | Siempre |
Schemata
Columna | Tipo | Descripción | Presencia |
---|---|---|---|
DatabaseNameOriginal |
STRING |
El nombre de la base de datos a la que pertenece el esquema, con el caso de mayúsculas preservado. | Siempre |
DatabaseName |
STRING |
El nombre de la base de datos a la que pertenece el esquema, convertido en minúsculas. | Siempre |
SchemaNameOriginal |
STRING |
El nombre del esquema, con el caso de mayúsculas preservado. | Siempre |
SchemaName |
STRING |
El nombre del esquema, convertido en minúsculas. | Siempre |
Tables
Columna | Tipo | Descripción | Presencia |
---|---|---|---|
DatabaseNameOriginal |
STRING |
El nombre de la base de datos a la que pertenece la tabla, con el caso de mayúsculas preservado. | Siempre |
DatabaseName |
STRING |
El nombre de la base de datos a la que pertenece la tabla, convertida en minúsculas. | Siempre |
SchemaNameOriginal |
STRING |
El nombre del esquema al que pertenece la tabla, con el caso de mayúsculas preservado. | Siempre |
SchemaName |
STRING |
El nombre del esquema al que pertenece la tabla, convertido en minúsculas. | Siempre |
TableNameOriginal |
STRING |
El nombre de la tabla, con mayúsculas y minúsculas conservadas. | Siempre |
TableName |
STRING |
El nombre de la tabla, convertido en minúsculas. | Siempre |
TableType |
STRING |
Tipo de tabla (vista / vista materializada / tabla base). | Siempre |
RowCount |
BIGNUMERIC |
Cantidad de filas en la tabla. | Siempre |
Columns
Columna | Tipo | Descripción | Presencia |
---|---|---|---|
DatabaseName |
STRING |
El nombre de la base de datos, convertido en minúsculas. | Siempre |
DatabaseNameOriginal |
STRING |
El nombre de la base de datos, con el caso de mayúsculas preservado. | Siempre |
SchemaName |
STRING |
El nombre del esquema, convertido en minúsculas. | Siempre |
SchemaNameOriginal |
STRING |
El nombre del esquema, con el caso de mayúsculas preservado. | Siempre |
TableName |
STRING |
El nombre de la tabla, convertido en minúsculas. | Siempre |
TableNameOriginal |
STRING |
El nombre de la tabla con el caso preservado. | Siempre |
ColumnName |
STRING |
El nombre de la columna, convertido en minúsculas. | Siempre |
ColumnNameOriginal |
STRING |
El nombre de la columna con el caso preservado. | Siempre |
ColumnType |
STRING |
Es el tipo de la columna. | Siempre |
CreateAndDropStatistics
Columna | Tipo | Descripción | Presencia |
---|---|---|---|
QueryHash |
STRING |
El hash de la consulta. | Siempre |
DefaultDatabase |
STRING |
La base de datos predeterminada. | Siempre |
EntityType |
STRING |
El tipo de entidad, por ejemplo, TABLE . |
Siempre |
EntityName |
STRING |
Es el nombre de la entidad. | Siempre |
Operation |
STRING |
La operación: CREATE o DROP . |
Siempre |
Queries
Columna | Tipo | Descripción | Presencia |
---|---|---|---|
QueryText |
STRING |
Es el texto de la consulta. | Siempre |
QueryHash |
STRING |
El hash de la consulta. | Siempre |
QueryLogs
Columna | Tipo | Descripción | Presencia |
---|---|---|---|
QueryText |
STRING |
Es el texto de la consulta. | Siempre |
QueryHash |
STRING |
El hash de la consulta. | Siempre |
QueryID |
STRING |
El ID de la consulta. | Siempre |
UserID |
STRING |
El ID del usuario | Siempre |
StartTime |
TIMESTAMP |
La hora de inicio. | Siempre |
Duration |
INTEGER |
Duración en milisegundos. | Siempre |
QueryTypeStatistics
Columna | Tipo | Descripción | Presencia |
---|---|---|---|
QueryHash |
STRING |
El hash de la consulta. | Siempre |
DefaultDatabase |
STRING |
La base de datos predeterminada. | Siempre |
QueryType |
STRING |
El tipo de consulta. | Siempre |
UpdatedTable |
STRING |
La tabla actualizada. | Siempre |
QueriedTables |
REPEATED STRING |
Las tablas consultadas. | Siempre |
TableRelations
Columna | Tipo | Descripción | Presencia |
---|---|---|---|
QueryHash |
STRING |
El hash de la consulta que estableció la relación (por ejemplo, una consulta de JOIN ). |
Siempre |
DefaultDatabase |
STRING |
La base de datos predeterminada. | Siempre |
TableName1 |
STRING |
La primera tabla de la relación. | Siempre |
TableName2 |
STRING |
La segunda tabla de la relación. | Siempre |
Relation |
STRING |
El tipo de relación. | Siempre |
Count |
INTEGER |
Con qué frecuencia se observó esta relación. | Siempre |
TranslatedQueries
Columna | Tipo | Descripción | Presencia |
---|---|---|---|
QueryHash |
STRING |
El hash de la consulta. | Siempre |
TranslatedQueryText |
STRING |
Resultado de la traducción del dialecto de origen a BigQuery SQL. | Siempre |
TranslationErrors
Columna | Tipo | Descripción | Presencia |
---|---|---|---|
QueryHash |
STRING |
El hash de la consulta. | Siempre |
Severity |
STRING |
La gravedad del error, por ejemplo, ERROR . |
Siempre |
Category |
STRING |
La categoría del error, por ejemplo, AttributeNotFound . |
Siempre |
Message |
STRING |
El mensaje con los detalles sobre el error. | Siempre |
LocationOffset |
INTEGER |
La posición del carácter de la ubicación del error. | Siempre |
LocationLine |
INTEGER |
El número de línea del error. | Siempre |
LocationColumn |
INTEGER |
El número de columna del error. | Siempre |
LocationLength |
INTEGER |
La longitud de caracteres de la ubicación del error. | Siempre |
UserTableRelations
Columna | Tipo | Descripción | Presencia |
---|---|---|---|
UserID |
STRING |
ID de usuario | Siempre |
TableName |
STRING |
Es el nombre de la tabla. | Siempre |
Relation |
STRING |
La relación. | Siempre |
Count |
INTEGER |
El recuento | Siempre |
Soluciona problemas
En esta sección, se explican algunos problemas habituales y técnicas de solución de problemas para migrar tu almacén de datos a BigQuery.
Errores de la herramienta dwh-migration-dumper
Para solucionar problemas de errores y advertencias en el resultado de la terminal de la herramienta dwh-migration-dumper
que se produjeron durante la extracción de metadatos o registros de consultas, consulta Cómo solucionar problemas de generación de metadatos.
Errores de migración de Hive
En esta sección, se describen problemas comunes con los que puedes encontrarte cuando planeas migrar tu almacén de datos de Hive a BigQuery.
El hook de registro escribe mensajes de registro de depuración en tus registros hive-server2
. Si tienes algún problema, revisa los registros de depuración del hook de registro, que contiene la string MigrationAssessmentLoggingHook
.
Soluciona el error ClassNotFoundException
El error puede deberse a la pérdida incorrecta del archivo hook de registro. Asegúrate de haber agregado el archivo JAR a la carpeta uxlib en el clúster de Hive. Como alternativa, puedes especificar la ruta de acceso completa al archivo JAR en la propiedad hive.aux.jars.path
, por ejemplo, file://
.
Las subcarpetas no aparecen en la carpeta configurada
Este problema puede deberse a problemas de configuración o durante la inicialización del hook de registro.
Busca tus registros de depuración hive-server2
para los siguientes mensajes de hook de registro:
Unable to initialize logger, logging disabled
Log dir configuration key 'dwhassessment.hook.base-directory' is not set, logging disabled.
Error while trying to set permission
Revisa los detalles del problema y verifica si hay algo que necesites corregir para solucionarlo.
Los archivos no aparecen en la carpeta
Este problema puede deberse a los problemas que se encontraron durante el procesamiento de un evento o mientras se escribió en un archivo.
Busca en tus registros de depuración hive-server2
los siguientes mensajes de hook de registro:
Failed to close writer for file
Got exception while processing event
Error writing record for query
Revisa los detalles del problema y verifica si hay algo que necesites corregir para solucionarlo.
Faltan algunos eventos de consulta
Este problema puede deberse a la desbordamiento de la cola de subprocesos de hook de registro.
Busca en tus registros de depuración hive-server2
el siguiente mensaje de hook de registro:
Writer queue is full. Ignoring event
Si hay esos mensajes, considera aumentar el parámetro dwhassessment.hook.queue.capacity
.
¿Qué sigue?
Para obtener más información sobre la herramienta de dwh-migration-dumper
, consulta
dwh-migration-tools.
También puedes obtener más información sobre los siguientes pasos en la migración de almacenes de datos:
- Descripción general de la migración
- Descripción general de transferencia de datos y esquemas
- Canalizaciones de datos
- Traducción de SQL por lotes
- Traducción de SQL interactiva
- Seguridad y administración de los datos
- Herramienta de validación de datos