Descripción general de la replicación

La replicación de Cloud Data Fusion te permite crear copias de tus datos de forma continua y en tiempo real desde los almacenes de datos operativos, como SQL Server y MySQL, en BigQuery.

Para usar la replicación, elige una de las siguientes opciones:

  • Crea una instancia nueva de Cloud Data Fusion y agrega la app de replicación.
  • Agrega la app de Replication a una instancia existente.

Estos son algunos de los beneficios:

  • Identificación de incompatibilidades de esquemas, problemas de conectividad y faltantes atributos antes de iniciar la replicación y, luego, proporciona medidas correctivas.

  • Usar los datos operativos más recientes en tiempo real para su análisis en en BigQuery. Puedes usar la replicación basada en registros directamente en BigQuery desde Microsoft SQL Server (con la CDC de SQL Server) y MySQL (con el registro binario de MySQL).

  • La captura de datos modificados (CDC) proporciona una representación de los datos que cambiaron en una transmisión, lo que permite que los cálculos y el procesamiento se enfoquen solo en los registros modificados más recientemente. Esto minimiza los cargos por datos salientes en en sistemas de producción sensibles.

  • Escalabilidad empresarial compatible con bases de datos transaccionales de alto volumen. Las cargas iniciales de datos a BigQuery son compatibles con la replicación de instantáneas sin tiempo de inactividad para que el almacén de datos esté listo para consumir cambios de forma continua. Una vez que se completa la instantánea inicial, comienza la replicación continua de cambios de alta productividad en tiempo real.

  • Los paneles que te ayudan a obtener estadísticas en tiempo real sobre el rendimiento de la replicación Es útil para identificar cuellos de botella y supervisar los ANS de entrega de datos.

  • Incluye compatibilidad con residencia de datos y claves de encriptación administradas por el cliente (CMEK) y Controles del servicio de VPC. La integración de Cloud Data Fusion en Google Cloud garantiza que se observen los niveles más altos de seguridad y privacidad empresarial, a la vez que se ponen a disposición los datos más recientes en tu almacén de datos para las estadísticas.

Cuando se ejecuta la replicación, se te cobra por el clúster de Dataproc y se incurren en costos de procesamiento de BigQuery. Para optimizar estos costos, te recomendamos que uses las versiones precios de tarifas.

Para obtener más información, consulta Cloud Data Fusion Precios.

Entidades de replicación

Entity Descripción
Replicación La replicación es una función de Cloud Data Fusion que permite replicar datos de forma continua con baja latencia desde almacenes de datos operativos a almacenes de datos analíticos. Crea un el trabajo de replicación mediante la configuración fuente y destino con transformaciones opcionales.
Fuente Lee eventos de cambio de base de datos, tabla o columna y los hace disponibles para un procesamiento adicional en una tarea de replicación. R el trabajo de replicación una fuente, que se basa en una solución de captura de cambios para proporcionar los cambios. Puede haber múltiples fuentes para una base de datos, cada una con una solución de captura de cambios diferente. Una fuente es un módulo conectable compilado con el complemento. de la CDAP. Si no hay una fuente disponible que satisfaga tus necesidades, puedes implementar la interfaz de la fuente y compilar tu propia fuente. Luego, súbela a CDAP o Cloud Data Fusion.
Target Escribe en un destino los cambios recibidos de una fuente en la base de datos. Un trabajo de replicación contiene un objetivo. Un destino es un módulo conectable compilado con el complemento de la CDAP. Si un objetivo no está disponible para satisfacer tus necesidades, puedes crear la tuya implementando la interfaz de destino subirlo a CDAP o Cloud Data Fusion.
Propiedades fuente Configura la fuente, incluidos los detalles de la conexión, nombres de tablas y base de datos de origen, credenciales y otras propiedades.
Propiedades de destino Configura el destino, incluidos los detalles de la conexión, los nombres de la base de datos y la tabla de destino, las credenciales y otras propiedades.
Propiedades del trabajo de replicación Configura el trabajo de replicación, incluidos los umbrales de fallas, las áreas de etapa de pruebas, las notificaciones y la configuración de validación.
Borrador Un trabajo de replicación guardado y parcialmente completado. Cuando del trabajo de replicación, se completa y se puede iniciar.
Eventos Cambia los eventos en la fuente para que se repliquen en el destino. Eventos incluyen inserciones, actualizaciones, eliminaciones y DDL (lenguaje de definición de datos) cambios.
Insertar Adición de registros nuevos en la fuente.
Actualizar Actualiza los registros existentes en la fuente.
Borrar Eliminación de registros existentes en la fuente
Cambio de DDL Un evento que contiene un cambio de esquema, como un cambio en el tipo o el nombre de los datos.
Registros Los registros operativos de un trabajo de replicación.
Detalles del trabajo de replicación Una página de detalles con información del trabajo de replicación, como su estado actual, métricas operativas, vista histórica a lo largo del tiempo, validación los resultados y su configuración.
Panel Una página que enumera el estado de todas las actividades de captura de datos modificados incluidos la capacidad de procesamiento, la latencia, las tasas de fallas y la resultados.

Acciones

Acciones Descripción
Implementar Crear un trabajo de replicación nuevo siguiendo un flujo de interfaz web para especificar una fuente, un destino y su configuración
Guardar Guardar un trabajo de replicación creado parcialmente para reanudar la creación más adelante
Borrar Borrar un trabajo de replicación existente Solo se pueden borrar las canalizaciones detenidas.
Iniciar Comenzar un trabajo de replicación. Si hay cambios que procesado, el trabajo de replicación entra al estado “activo”; de lo contrario, entra en el estado `esperando`.
Detener Detener un trabajo de replicación El trabajo de replicación deja de procesar cambios de la fuente.
Ver registros Visualiza registros de un trabajo de replicación para depuración o algún otro análisis.
Buscar Buscar un trabajo de replicación por su nombre, descripción, o a otros metadatos de trabajos de replicación.
Evaluación Evaluar el impacto de la replicación antes de iniciarla La evaluación de un trabajo de replicación genera un informe de evaluación que marca incompatibilidades de esquema y atributos faltantes.

Supervisión

Estados del replicador Descripción
Implementado Se implementó el trabajo de replicación, pero no se inició. En este estado, un trabajo de replicación no replica eventos.
Iniciando El trabajo de replicación se está inicializando y no listas para replicar los cambios.
En ejecución Se inició el trabajo de replicación y se está replicando cambios.
Deteniendo Se detendrá el trabajo de replicación.
Detenida Se detiene el trabajo de replicación.
Con errores El trabajo de replicación falló debido a errores fatales.

Estados de la tabla

Concepto Descripción
Captura de instantáneas El trabajo de replicación toma una instantánea estado de la tabla antes de replicar los cambios.
Con replicación El trabajo de replicación replica los cambios de la tabla de origen en la tabla de destino.
Falló El trabajo de replicación no puede replicar los cambios de la tabla fuente debido a un error.

Métricas

Concepto Descripción
Inserciones La cantidad de inserciones aplicadas al objetivo en el tiempo seleccionado período.
Actualizaciones Es la cantidad de actualizaciones aplicadas al objetivo en el período seleccionado.
Eliminaciones La cantidad de eliminaciones aplicadas al objetivo en el tiempo seleccionado período.
DDL La cantidad de cambios de DDL aplicados al objetivo en el momento seleccionado período.
Capacidad de procesamiento La cantidad de eventos y la cantidad de bytes replicados en el destino en el período seleccionado.
Latencia La latencia con la que los datos se replican en el destino en la zona seleccionada durante un período de tiempo.

Componentes

Componente Descripción
Servicio Supervisa la organización de extremo a extremo de los trabajos de replicación. y brinda capacidades para diseñar, implementar, gestionar y y supervisar trabajos de replicación. Se ejecuta en el Proyecto de usuario de Cloud Data Fusion (el proyecto de usuario está oculto) del usuario). Su estado se muestra en la página **Administrador del sistema** de la interfaz web de Cloud Data Fusion.
Administración de estado El servicio administra el estado de cada trabajo de replicación en un bucket de Cloud Storage en el proyecto del cliente. El bucket puede ser cuando se crea el trabajo de replicación. Almacena las las compensaciones actuales y el estado de replicación de cada una el trabajo de replicación.
Ejecución Los clústeres de Dataproc proporcionan el entorno de ejecución de los trabajos de replicación, que se ejecutan en tu proyecto. que los trabajos de replicación se ejecutan Trabajadores de CDAP. El tamaño y las características de la ejecución se configuran con perfiles de Compute Engine.
Base de datos de origen Tu base de datos operativa de producción que se replica en tu base de datos de destino Esta base de datos se puede ubicar de forma local o en Google Cloud. Cloud Data Fusion La replicación admite MySQL, Microsoft SQL Server y Oracle.
Solución de seguimiento de cambios En lugar de ejecutarse en un agente que se ejecuta en la base de datos de origen, Cloud Data Fusion se basa en una solución de seguimiento de cambios para leer los cambios en la base de datos de origen. La solución puede ser un componente la base de datos de origen o un servicio de terceros de Google Cloud. En el último caso, la solución de seguimiento de cambios se ejecuta de forma local, junto con la base de datos de origen, o en Google Cloud. Cada fuente debe estar asociada con una solución de seguimiento de cambios.
  1. SQL Server
    • Solución compatible: CDC de SQL Server (tablas de seguimiento de cambios)
    • Software adicional: No
    • Licencia/costo: N/A
    • Comentarios: Disponible en SQL Server 2016 y versiones posteriores
  2. MySQL
  3. Oracle
Base de datos objetivo Es la ubicación de destino para la replicación y el análisis. Cloud Data Fusion admite BigQuery en la base de datos de destino.
Authentication Los mecanismos de autenticación varían según la base de datos de origen o el software de seguimiento de cambios. Cuando se usan las funciones integradas de las bases de datos de origen, como SQL Server y MySQL, los accesos a la base de datos se usan para la autenticación. Cuando se usa software de seguimiento de cambios, se usa el mecanismo de autenticación del software.

Conectividad

En la siguiente tabla, se describen las conexiones de red requeridas para la replicación y los mecanismos de seguridad que usan.

Desde Hasta Opcional Protocolo Red Seguridad de autenticación Objetivo
Servicio (proyecto de usuario) BD de origen Depende de la fuente de replicación. JDBC para la conexión directa a la base de datos Intercambio de tráfico + reglas de firewall + VPN/Interconnect + router Acceso a la base de datos Se necesita en el momento del diseño, no de la ejecución. Funciones: Lista de tablas, evaluación (pasos opcionales; la replicación puede continuar sin ellos)
Servicio (proyecto de usuario) Cloud Storage No API de Cloud VPC‑SC IAM Administración de estado: Desplazamientos y estados de replicación
Dataproc (tu proyecto) BD de origen No Depende de la fuente. JDBC para la conexión directa a BD. Intercambio de tráfico + reglas de firewall + VPN/interconexión + router Acceso a la base de datos Es necesario en el momento de la ejecución para leer los cambios de la base de datos de origen y replicarlos en el destino.
Dataproc (tu proyecto) Cloud Storage No API de Cloud VPC‑SC IAM Administración de estado: Desplazamientos y estados de replicación
Dataproc (tu proyecto) BigQuery No API de Cloud VPC‑SC IAM Es necesario en el momento de la ejecución para aplicar los cambios de la base de datos de origen a la de destino.

¿Qué sigue?