Migra la exploración de Dataplex a BigQuery Studio

Dataplex dejará de ser compatible con Explorar. En este documento, se describen los pasos para migrar recursos de Dataplex Explore a BigQuery Studio. Puedes migrar Spark SQL y notebook de JupyterLab contenido a BigQuery Studio, una herramienta de exploración plataforma.

Funciones obsoletas

Si tienes preguntas o necesitas más información, comunícate con el equipo de Explorar en dataplex-explore-support@google.com.

Antes de comenzar

  • Enable the BigQuery and BigQuery Studio APIs.

    Enable the APIs

Contenido del notebook

Si tienes notebooks en Explorar que se ejecutan en una instancia de JupyterLab sin servidor, después de la migración, tendrás la misma experiencia en BigQuery Studio.

BigQuery Studio ofrece una interfaz de notebook con la tecnología de Colab Enterprise, que ofrece varias ventajas sobre Notebooks de JupyterLab. Aún puedes escribir, guardar y ejecutar tus notebooks en un entorno sin servidores en BigQuery Studio. Además, puedes beneficiarte del entorno de nube integrado de Colab Enterprise con GPUs y TPU potentes, colaboración en tiempo real, control de acceso y uso compartido a través de Google Drive, guardado automático, bibliotecas preinstaladas, uso gratuito con cuotas, widgets y extensiones integrados, y la integración con otros servicios de Google, como BigQuery y Cloud Storage.

Contenido de Spark SQL

Dataplex Discovery registra las tablas descubiertas en BigQuery y Dataproc Metastore. Según dónde se registren las tablas, usa una de las siguientes opciones de migración.

  • Las tablas se registran tanto en Dataproc Metastore BigQuery: si la secuencia de comandos de Spark SQL interactúa con Tablas descubiertas por Dataplex a través de Dataproc Metastore puedes consultar directamente esas tablas desde BigQuery
  • Las tablas se registran solo en Dataproc Metastore: si Spark SQL interactúa con tablas que no están disponibles en BigQuery y, luego, debes configurar la integración de BigQuery Studio Dataproc Metastore. Dataproc Metastore proporciona dos tipos de extremos: de segunda mano y gRPC. Para obtener más información sobre cómo encontrar el protocolo del extremo, consulta Busca el valor de URI de tu extremo. Luego, configura la integración de BigQuery Studio con los pasos de los siguientes pasos: secciones.

Conéctate a Dataproc Metastore basado en Thrift

Un extremo basado en Thrift comienza con thrift://. Para conectarte a un Dataproc Metastore basado en Thrift, pasa el URI del extremo de Thrift en la configuración de SparkSession, como en el siguiente ejemplo:

from pyspark.sql import SparkSession

spark = (
    SparkSession.builder.appName("Dataproc Metastore Connection")
    .config(
        "spark.hadoop.hive.metastore.uris",
        "thrift://IP_ADDRESS:9083",
    )
    .enableHiveSupport()
    .getOrCreate()
)

Conéctate a un extremo basado en gRPC

Un extremo basado en gRPC comienza con https://. Spark no puede conectarse directamente a extremos que no sean de Thrift. En su lugar, debes ejecutar un servicio de proxy que convierta las solicitudes de Thrift a gRPC. Para conectarse a una red de VPC basada Dataproc Metastore, sigue estos pasos en tu Notebook de BigQuery Studio:

  1. Ejecuta el siguiente comando en el notebook para descargar la versión más reciente del archivo JAR del proxy de Hive Metastore (HMS) en el entorno de ejecución del notebook:

    # Download the latest HMS Proxy jar file.
    !gcloud storage cp gs://metastore-init-actions/metastore-grpc-proxy/hms-proxy-3.1.2-v0.0.46.jar
    
  2. Inicia el proxy de HMS.

    %%bash
    # Metastore store URI including the port number but without "https://" prefix.
    METASTORE_URI=METASTORE_URI
    # HMS Proxy JAR path.
    JAR_PATH=JAR_PATH
    # DPMS Supported Hive Version.
    HIVE_VERSION=3.1.2
    
    # Start the HMS Proxy.
    java -jar ${JAR_PATH} --conf proxy.mode=thrift proxy.uri=${METASTORE_URI} thrift.listening.port=9083 hive.version=${HIVE_VERSION} google.credentials.applicationdefault.enabled=true proxy.grpc.ssl.upstream.enabled=true > /tmp/hms.logs 2>&1 &
    
  3. Conecta la sesión de Spark a un proxy de HMS local.

    from pyspark.sql import SparkSession
    
    spark = (
      SparkSession.builder.appName("Dataproc Metastore Connection")
      .config(
          "spark.hadoop.hive.metastore.uris",
          "thrift://localhost:9083",
      )
      .enableHiveSupport()
      .getOrCreate()
    )
    

Recursos de la sesión

Un recurso de sesión hace referencia a una sesión activa específica del usuario. No se admite la migración de recursos de sesión.

Recursos del entorno

Un entorno proporciona recursos de procesamiento sin servidores para que tus consultas y notebooks de Spark SQL se ejecuten en un lago. Debido a que BigQuery Studio proporciona un entorno sin servidores para ejecutar consultas en SQL y notebooks, migración de los recursos del entorno no son compatibles.

Programa una tarea con recursos de contenido

Puedes programar consultas en BigQuery Studio.