Dataplex dejará de ser compatible con Explorar. En este documento, se describen los pasos para migrar recursos de Dataplex Explore a BigQuery Studio. Puedes migrar Spark SQL y notebook de JupyterLab contenido a BigQuery Studio, una herramienta de exploración plataforma.
Funciones obsoletas
- Workbench de SQL de Spark
- IDE de Notebook
- Todos los recursos de contenido
- Todos los entornos
- Todas las sesiones
- Funciones de tareas que programan con los notebooks o las secuencias de comandos de Spark SQL creada en Explorar
Si tienes preguntas o necesitas más información, comunícate con el equipo de Explorar en dataplex-explore-support@google.com.
Antes de comenzar
-
Enable the BigQuery and BigQuery Studio APIs.
Contenido del notebook
Si tienes notebooks en Explorar que se ejecutan en una instancia de JupyterLab sin servidor, después de la migración, tendrás la misma experiencia en BigQuery Studio.
BigQuery Studio ofrece una interfaz de notebook con la tecnología de Colab Enterprise, que ofrece varias ventajas sobre Notebooks de JupyterLab. Aún puedes escribir, guardar y ejecutar tus notebooks en un entorno sin servidores en BigQuery Studio. Además, puedes beneficiarte del entorno de nube integrado de Colab Enterprise con GPUs y TPU potentes, colaboración en tiempo real, control de acceso y uso compartido a través de Google Drive, guardado automático, bibliotecas preinstaladas, uso gratuito con cuotas, widgets y extensiones integrados, y la integración con otros servicios de Google, como BigQuery y Cloud Storage.
Contenido de Spark SQL
Dataplex Discovery registra las tablas descubiertas en BigQuery y Dataproc Metastore. Según dónde se registren las tablas, usa una de las siguientes opciones de migración.
- Las tablas se registran tanto en Dataproc Metastore BigQuery: si la secuencia de comandos de Spark SQL interactúa con Tablas descubiertas por Dataplex a través de Dataproc Metastore puedes consultar directamente esas tablas desde BigQuery
- Las tablas se registran solo en Dataproc Metastore: si Spark SQL interactúa con tablas que no están disponibles en BigQuery y, luego, debes configurar la integración de BigQuery Studio Dataproc Metastore. Dataproc Metastore proporciona dos tipos de extremos: de segunda mano y gRPC. Para obtener más información sobre cómo encontrar el protocolo del extremo, consulta Busca el valor de URI de tu extremo. Luego, configura la integración de BigQuery Studio con los pasos de los siguientes pasos: secciones.
Conéctate a Dataproc Metastore basado en Thrift
Un extremo basado en Thrift comienza con thrift://
. Para conectarte a un Dataproc Metastore basado en Thrift, pasa el URI del extremo de Thrift en la configuración de SparkSession
, como en el siguiente ejemplo:
from pyspark.sql import SparkSession
spark = (
SparkSession.builder.appName("Dataproc Metastore Connection")
.config(
"spark.hadoop.hive.metastore.uris",
"thrift://IP_ADDRESS:9083",
)
.enableHiveSupport()
.getOrCreate()
)
Conéctate a un extremo basado en gRPC
Un extremo basado en gRPC comienza con https://
. Spark no puede conectarse directamente a extremos que no sean de Thrift. En su lugar, debes ejecutar un servicio de proxy que convierta las solicitudes de Thrift a gRPC. Para conectarse a una red de VPC basada
Dataproc Metastore, sigue estos pasos en tu
Notebook de BigQuery Studio:
Ejecuta el siguiente comando en el notebook para descargar la versión más reciente del archivo JAR del proxy de Hive Metastore (HMS) en el entorno de ejecución del notebook:
# Download the latest HMS Proxy jar file. !gcloud storage cp gs://metastore-init-actions/metastore-grpc-proxy/hms-proxy-3.1.2-v0.0.46.jar
Inicia el proxy de HMS.
%%bash # Metastore store URI including the port number but without "https://" prefix. METASTORE_URI=METASTORE_URI # HMS Proxy JAR path. JAR_PATH=JAR_PATH # DPMS Supported Hive Version. HIVE_VERSION=3.1.2 # Start the HMS Proxy. java -jar ${JAR_PATH} --conf proxy.mode=thrift proxy.uri=${METASTORE_URI} thrift.listening.port=9083 hive.version=${HIVE_VERSION} google.credentials.applicationdefault.enabled=true proxy.grpc.ssl.upstream.enabled=true > /tmp/hms.logs 2>&1 &
Conecta la sesión de Spark a un proxy de HMS local.
from pyspark.sql import SparkSession spark = ( SparkSession.builder.appName("Dataproc Metastore Connection") .config( "spark.hadoop.hive.metastore.uris", "thrift://localhost:9083", ) .enableHiveSupport() .getOrCreate() )
Recursos de la sesión
Un recurso de sesión hace referencia a una sesión activa específica del usuario. No se admite la migración de recursos de sesión.
Recursos del entorno
Un entorno proporciona recursos de procesamiento sin servidores para que tus consultas y notebooks de Spark SQL se ejecuten en un lago. Debido a que BigQuery Studio proporciona un entorno sin servidores para ejecutar consultas en SQL y notebooks, migración de los recursos del entorno no son compatibles.
Programa una tarea con recursos de contenido
Puedes programar consultas en BigQuery Studio.