Se usó la API de Cloud Translation para traducir esta página.

Migra desde HBase alojado en Google Cloud

En esta página, se describen las consideraciones y los procesos para migrar a Bigtable desde un clúster de Apache HBase alojado en unGoogle Cloud servicio, como Dataproc o Compute Engine.

Para obtener orientación sobre la migración sin conexión de un entorno de Apache HBase externo a Bigtable, consulta Migra datos de HBase a Bigtable sin conexión. Para la migración en línea, consulta Replica de HBase a Bigtable.

Por qué migrar de HBase en Google Cloud a Bigtable

Estos son algunos de los motivos por los que podrías elegir esta ruta de migración:

Puedes dejar tu aplicación cliente donde está implementada actualmente y cambiar solo la configuración de conexión.
Tus datos permanecen en el ecosistema de Google Cloud .
Si lo deseas, puedes seguir usando la API de HBase. El cliente de HBase de Cloud Bigtable para Java es una extensión totalmente compatible de la biblioteca de Apache HBase para Java.
Quieres aprovechar los beneficios de usar un servicio administrado para almacenar tus datos.

Consideraciones

En esta sección, se sugieren algunos aspectos que se deben revisar y considerar antes de comenzar la migración.

Diseño de esquema de Bigtable

En la mayoría de los casos, puedes usar el mismo diseño de esquema en Bigtable que en HBase. Si deseas cambiar tu esquema o si tu caso de uso está cambiando, revisa los conceptos presentados en Diseña tu esquema antes de migrar tus datos.

Preparación y pruebas

Antes de migrar tus datos, asegúrate de comprender las diferencias entre HBase y Bigtable. Deberías dedicar tiempo a aprender a configurar tu conexión para conectar tu aplicación a Bigtable. Además, es posible que desees realizar pruebas funcionales y del sistema antes de la migración para validar la aplicación o el servicio.

Pasos para la migración

Para migrar tus datos de HBase a Bigtable, debes tomar una instantánea de HBase y, luego, importar los datos directamente del clúster de HBase a Bigtable. Estos pasos son para un solo clúster de HBase y se describen en detalle en las siguientes secciones.

Deja de enviar operaciones de escritura a HBase.
Crea tablas de destino en Bigtable.
Toma instantáneas de HBase y, luego, impórtalas a Bigtable.
Valida los datos importados.
Actualiza la aplicación para enviar lecturas y escrituras a Bigtable.

imagen

Antes de comenzar

Instala Google Cloud CLI o usa Cloud Shell.
Crea un bucket de Cloud Storage para almacenar los datos de salida de la validación. Crea el bucket en la misma ubicación en la que planeas ejecutar tu trabajo de Dataproc.
Identifica el clúster de Hadoop desde el que migras. Debes ejecutar los trabajos para tu migración en un clúster de Dataproc 1.x que tenga conectividad de red con el Namenode y los Datanodes del clúster de HBase. Anota la dirección del quórum de ZooKeeper y el URI de NameNode del clúster de HBase, que son necesarios para las secuencias de comandos de migración.
Crea un clúster de Dataproc versión 1.x en la misma red que el clúster de HBase de origen. Usas este clúster para ejecutar los trabajos de importación y validación.
Crea una instancia de Bigtable para almacenar tus tablas nuevas. Al menos un clúster de la instancia de Bigtable también debe estar en la misma región que el clúster de Dataproc. Ejemplo: us-central1
Obtén la herramienta de traducción de esquema:
```
wget BIGTABLE_HBASE_TOOLS_URL
```
Reemplaza BIGTABLE_HBASE_TOOLS_URL por la URL de JAR with dependencies más reciente disponible en el repositorio de Maven de la herramienta. El nombre del archivo es similar a https://repo1.maven.org/maven2/com/google/cloud/bigtable/bigtable-hbase-1.x-tools/2.6.0/bigtable-hbase-1.x-tools-2.6.0-jar-with-dependencies.jar.

Para encontrar la URL o descargar el archivo JAR de forma manual, haz lo siguiente:
1. Ir al repositorio.
2. Haz clic en Explorar para ver los archivos del repositorio.
3. Haz clic en el número de versión más reciente.
4. Identifica JAR with dependencies file (por lo general, en la parte superior).
5. Haz clic con el botón derecho y copia la URL, o haz clic para descargar el archivo.
Obtén la herramienta de MapReduce, que usarás para los trabajos de importación y validación:
```
wget BIGTABLE_MAPREDUCE_URL
```
Reemplaza BIGTABLE_MAPREDUCE_URL por la URL de shaded-byo JAR más reciente disponible en el repositorio de Maven de la herramienta. El nombre del archivo es similar a https://repo1.maven.org/maven2/com/google/cloud/bigtable/bigtable-hbase-1.x-mapreduce/2.6.0/bigtable-hbase-1.x-mapreduce-2.6.0-shaded-byo-hadoop.jar.

Para encontrar la URL o descargar el archivo JAR de forma manual, haz lo siguiente:
1. Ir al repositorio.
2. Haz clic en el número de versión más reciente.
3. Presiona Descargas.
4. Mueve el mouse sobre shaded-byo-hadoop.jar.
5. Haz clic con el botón derecho y copia la URL, o haz clic para descargar el archivo.
Configura las siguientes variables de entorno:
```
#Google Cloud

export PROJECT_ID=PROJECT_ID
export REGION=REGION

##Cloud Bigtable

export BIGTABLE_INSTANCE_ID=BIGTABLE_INSTANCE_ID

##Dataproc

export DATAPROC_CLUSTER_ID=DATAPROC_CLUSTER_NAME

#Cloud Storage

export BUCKET_NAME="gs://BUCKET_NAME"
export STORAGE_DIRECTORY="$BUCKET_NAME/hbase-migration"

#HBase

export ZOOKEEPER_QUORUM=ZOOKEPER_QUORUM
export ZOOKEEPER_PORT=2181
export ZOOKEEPER_QUORUM_AND_PORT="$ZOOKEEPER_QUORUM:$ZOOKEEPER_PORT"
export MIGRATION_SOURCE_NAMENODE_URI=MIGRATION_SOURCE_NAMENODE_URI
export MIGRATION_SOURCE_TMP_DIRECTORY=${MIGRATION_SOURCE_NAMENODE_URI}/tmp
export MIGRATION_SOURCE_DIRECTORY=${MIGRATION_SOURCE_NAMENODE_URI}/hbase

#JAR files

export TRANSLATE_JAR=TRANSLATE_JAR
export MAPREDUCE_JAR=MAPREDUCE_JAR
```
Reemplaza los marcadores de posición por los valores de tu migración.

Google Cloud:
- PROJECT_ID: El Google Cloud proyecto en el que se encuentra tu instancia de Bigtable
- REGION: Es la región que contiene el clúster de Dataproc que ejecutará los trabajos de importación y validación.
Bigtable:
- BIGTABLE_INSTANCE_ID: el identificador de la instancia de Bigtable a la que deseas importar tus datos
Dataproc:
- DATAPROC_CLUSTER_ID: Es el ID del clúster de Dataproc que ejecutará los trabajos de importación y validación.
Cloud Storage:
- BUCKET_NAME: Es el nombre del bucket de Cloud Storage en el que almacenas las instantáneas.
HBase:
- ZOOKEEPER_QUORUM: El host de ZooKeeper al que se conectará la herramienta, en el formato host1.myownpersonaldomain.com
- MIGRATION_SOURCE_NAMENODE_URI: Es el URI del NameNode de tu clúster de HBase, en el formato hdfs://host1.myownpersonaldomain.com:8020.
Archivos JAR
- TRANSLATE_JAR: el nombre y el número de versión del archivo JAR bigtable hbase tools que descargaste de Maven. El valor debe ser similar a bigtable-hbase-1.x-tools-2.6.0-jar-with-dependencies.jar.
- MAPREDUCE_JAR: el nombre y el número de versión del archivo JAR bigtable hbase mapreduce que descargaste de Maven. El valor debe ser similar a bigtable-hbase-1.x-mapreduce-2.6.0-shaded-byo-hadoop.jar.
Si deseas confirmar que las variables se configuraron de forma correcta, ejecuta el comando printenv para ver todas las variables de entorno (opcional).

Deja de enviar operaciones de escritura a HBase

Antes de tomar instantáneas de las tablas de HBase, deja de enviar operaciones de escritura al clúster de HBase.

Crea tablas de destino en Bigtable

El siguiente paso consiste en crear una tabla de destino en tu instancia de Bigtable para cada tabla de HBase que migres. Usa una cuenta que tenga permiso bigtable.tables.create para la instancia.

En esta guía, se usa la herramienta de traducción de esquemas de Bigtable, que crea la tabla de forma automática. Sin embargo, si no quieres que tu esquema de Bigtable coincida con exactitud con el esquema de HBase, puedes crear una tabla con la CLI de cbt o la consola de Google Cloud .

La herramienta de traducción de esquemas de Bigtable captura el esquema de la tabla de HBase, incluidos el nombre de la tabla, las familias de columnas, las políticas de recolección de elementos no utilizados y las divisiones. Luego, crea una tabla similar en Bigtable.

En cada tabla que desees importar, ejecuta el siguiente comando para copiar el esquema de HBase en Bigtable.

java \
 -Dgoogle.bigtable.project.id=$PROJECT_ID \
 -Dgoogle.bigtable.instance.id=$BIGTABLE_INSTANCE_ID \
 -Dgoogle.bigtable.table.filter=TABLE_NAME \
 -Dhbase.zookeeper.quorum=$ZOOKEEPER_QUORUM \
 -Dhbase.zookeeper.property.clientPort=$ZOOKEEPER_PORT \
 -jar $TRANSLATE_JAR

Reemplaza TABLE_NAME por el nombre de la tabla de HBase que deseas importar. La herramienta de traducción de esquemas usa este nombre para tu nueva tabla de Bigtable.

De manera opcional, también puedes reemplazar TABLE_NAME por una expresión regular, como ".*", que capture todas las tablas que deseas crear y, luego, ejecutar el comando solo una vez.

Toma instantáneas de tablas de HBase y las importa a Bigtable

Completa los siguientes pasos para cada tabla que planees migrar a Bigtable.

Ejecuta el siguiente comando:
```
echo "snapshot 'HBASE_TABLE_NAME', 'HBASE_SNAPSHOT_NAME'" | hbase shell -n
```
Reemplaza lo siguiente:
- HBASE_TABLE_NAME: Es el nombre de la tabla de HBase que migrarás a Bigtable.
- HBASE_SNAPSHOT_NAME: Es el nombre único de la instantánea nueva.
Para importar la instantánea, ejecuta el siguiente comando:
```
gcloud dataproc jobs submit hadoop \
    --cluster $DATAPROC_CLUSTER_ID \
    --region $REGION \
    --project $PROJECT_ID \
    --jar $MAPREDUCE_JAR \
    -- \
    import-snapshot \
    -Dgoogle.bigtable.project.id=$PROJECT_ID \
    -Dgoogle.bigtable.instance.id=$BIGTABLE_INSTANCE_ID \
    HBASE_SNAPSHOT_NAME \
    $MIGRATION_SOURCE_DIRECTORY \
    BIGTABLE_TABLE_NAME \
    $MIGRATION_SOURCE_TMP_DIRECTORY
```
Reemplaza lo siguiente:
- HBASE_SNAPSHOT_NAME: el nombre que asignaste a la instantánea de la tabla que deseas importar.
- BIGTABLE_TABLE_NAME: Es el nombre de la tabla de Bigtable a la que deseas importar.
Después de ejecutar el comando, la herramienta restablece la instantánea de HBase en el clúster de origen y, luego, la importa. El proceso de restablecimiento de la instantánea puede tomar varios minutos en completarse según el tamaño de la instantánea.

Las siguientes opciones adicionales están disponibles cuando importas los datos:

Establece tiempos de espera basados en el cliente para las solicitudes del mutador almacenado en búfer (el valor predeterminado es de 600,000 ms). Consulta el siguiente ejemplo:
```
-Dgoogle.bigtable.rpc.use.timeouts=true
-Dgoogle.bigtable.mutate.rpc.timeout.ms=600000
```
Considera la limitación basada en la latencia, que puede reducir el impacto que el trabajo por lotes de importación podría tener en otras cargas de trabajo. Se debe probar la limitación para tu caso de uso de migración. Consulta el siguiente ejemplo:
```
-Dgoogle.bigtable.buffered.mutator.throttling.enable=true
-Dgoogle.bigtable.buffered.mutator.throttling.threshold.ms=100
```
Modifica la cantidad de tareas de mapa que leen una sola región de HBase (el valor predeterminado es 2 tareas de mapa por región). Consulta el siguiente ejemplo:
```
-Dgoogle.bigtable.import.snapshot.splits.per.region=3
```

Establece configuraciones adicionales de MapReduce como propiedades. Consulta el siguiente ejemplo:

-Dmapreduce.map.maxattempts=4
-Dmapreduce.map.speculative=false
-Dhbase.snapshot.thread.pool.max=20

Ten en cuenta las siguientes sugerencias cuando importes:

Para mejorar el rendimiento de la carga de datos, asegúrate de tener suficientes trabajadores del clúster de Dataproc para ejecutar tareas de importación de mapas en paralelo. De forma predeterminada, un trabajador de Dataproc n1-standard-8 ejecutará ocho tareas de importación. Tener suficientes trabajadores garantiza que el trabajo de importación tenga suficiente capacidad de procesamiento para completarse en un período razonable, pero no tanta capacidad como para sobrecargar la instancia de Bigtable.
- Si no usas la instancia de Bigtable para otra carga de trabajo, multiplica la cantidad de nodos en tu instancia de Bigtable por 3 y, luego, divide el resultado por 8 (con un trabajador de Dataproc n1-standard-8). Usa el resultado como la cantidad de trabajadores de Dataproc.
- Si usas la instancia para otra carga de trabajo al mismo tiempo que importas tus datos de HBase, reduce el valor de los trabajadores de Dataproc o aumenta la cantidad de nodos de Bigtable para satisfacer los requisitos de las cargas de trabajo.
Durante la importación, debes supervisar el uso de la CPU de la instancia de Bigtable. Si el uso de CPU en la instancia de Bigtable es demasiado alto, es posible que debas agregar nodos adicionales. Agregar nodos mejora el uso de la CPU de inmediato, pero el clúster puede tardar hasta 20 minutos en alcanzar un rendimiento óptimo después de que se agregan los nodos.

Para obtener más información sobre la supervisión de la instancia de Bigtable, consulta Supervisión de una instancia de Bigtable.

Valida los datos importados en Bigtable

A continuación, valida la migración de datos realizando una comparación de hash entre la tabla de origen y la de destino para asegurarte de la integridad de los datos migrados. Primero, ejecuta el trabajo hash-table para generar hashes de los rangos de filas en la tabla de origen. Luego, completa la validación ejecutando el trabajo sync-table para calcular y hacer coincidir los hashes de Bigtable con la fuente.

Para crear hashes que se usarán en la validación, ejecuta el siguiente comando para cada tabla que migres:

gcloud dataproc jobs submit hadoop \
  --project $PROJECT_ID \
  --cluster $DATAPROC_CLUSTER_ID \
  --region $REGION \
  --jar $MAPREDUCE_JAR \
  -- \
  hash-table \
  -Dhbase.zookeeper.quorum=$ZOOKEEPER_QUORUM_AND_PORT \
  HBASE_TABLE_NAME \
  $STORAGE_DIRECTORY/HBASE_TABLE_NAME/hash-output/

Reemplaza HBASE_TABLE_NAME por el nombre de la tabla de HBase para la que creaste la instantánea.

Ejecuta lo siguiente en el shell de comandos:

gcloud dataproc jobs submit hadoop \
  --project $PROJECT_ID \
  --cluster $DATAPROC_CLUSTER_ID \
  --region $REGION \
 --jar $MAPREDUCE_JAR \
 -- \
 sync-table \
 --sourcezkcluster=$ZOOKEEPER_QUORUM_AND_PORT:/hbase \
 --targetbigtableproject=$PROJECT_ID \
 --targetbigtableinstance=$BIGTABLE_INSTANCE_ID \
 $STORAGE_DIRECTORY/HBASE_TABLE_NAME/hash-output/ \
 HBASE_TABLE_NAME \
 BIGTABLE_TABLE_NAME

Reemplaza lo siguiente:

HBASE_TABLE_NAME: el nombre de la tabla de HBase desde la que importas
BIGTABLE_TABLE_NAME: el nombre de la tabla de Bigtable a la que deseas importar

Opcionalmente, puedes agregar --dryrun=false al comando si deseas habilitar la sincronización entre la fuente y el destino para los rangos de hash divergentes.

Cuando se completa el trabajo sync-table, los contadores del trabajo se muestran en la consola Google Cloud en la que se ejecutó el trabajo. Si el trabajo de importación importa con éxito todos los datos, el valor de HASHES_MATCHED tiene un valor y el valor de HASHES_NOT_MATCHED es 0.

Si HASHES_NOT_MATCHED muestra un valor, puedes volver a ejecutar sync-table en modo de depuración para emitir los rangos divergentes y los detalles a nivel de la celda, como Source missing cell, Target missing cell o Different values. Para habilitar el modo de depuración, configura --properties mapreduce.map.log.level=DEBUG. Después de que se ejecute el trabajo, usa Cloud Logging y busca la expresión jsonPayload.class="org.apache.hadoop.hbase.mapreduce.SyncTable" para revisar las celdas divergentes.

Puedes volver a intentar el trabajo de importación o usar SyncTable para sincronizar las tablas de origen y destino configurando dryrun=false. Revisa HBase SyncTable y las opciones de configuración adicionales antes de continuar.

Resultados de SyncTable en Cloud Logging

Actualiza la aplicación para enviar lecturas y escrituras a Bigtable

Después de validar los datos de cada tabla del clúster, puedes configurar tus aplicaciones para enrutar todo su tráfico a Bigtable y, luego, dar de baja el clúster de HBase.

Cuando se complete la migración, puedes borrar las instantáneas.

¿Qué sigue?

Replica de HBase a Bigtable