Migrar o Dataplex Explore para o BigQuery Studio

O Dataplex vai deixar de oferecer suporte ao Explore. Este documento descreve as etapas para migrar os recursos do Dataplex Explore para o BigQuery Studio. É possível migrar o Spark SQL e o JupyterLab Notebook para o BigQuery Studio, uma ferramenta de análise de plataforma.

Recursos descontinuados

Em caso de dúvidas, entre em contato com a equipe do Explore em dataplex-explore-support@google.com.

Antes de começar

  • Enable the BigQuery and BigQuery Studio APIs.

    Enable the APIs

Conteúdo do notebook

Se você tiver notebooks no recurso Explorar que são executados em uma instância do JupyterLab de forma sem servidor, terá a mesma experiência no BigQuery Studio após a migração.

O BigQuery Studio oferece uma interface de notebook com o Colab Enterprise, que oferece várias vantagens em relação aos notebooks do JupyterLab. Você ainda pode gravar, salvar e executar seus notebooks sem servidor no BigQuery Studio. Além disso, você pode aproveitar o ambiente de nuvem integrado do Colab Enterprise com GPUs e TPUs poderosos, colaboração em tempo real, compartilhamento e controle de acesso pelo Google Drive, salvamento automático, bibliotecas pré-instaladas, uso gratuito com cotas, widgets e extensões integrados e integração com outros serviços do Google, como o BigQuery e o Cloud Storage.

Conteúdo do Spark SQL

O Dataplex Discovery registra as tabelas descobertas no BigQuery e no Dataproc Metastore. Dependendo de onde as tabelas estão registradas, use uma das seguintes opções de migração.

  • As tabelas são registradas no metastore do Dataproc e BigQuery: se o script do Spark SQL interagir com Tabelas descobertas pelo Dataplex por meio do metastore do Dataproc, você poderá consultar essas tabelas diretamente no BigQuery.
  • As tabelas são registradas somente no metastore do Dataproc: se o Spark SQL interage com tabelas não disponíveis no BigQuery e, em seguida, você precisa configurar a integração do BigQuery Studio com Metastore do Dataproc. O metastore do Dataproc fornece dois tipos de endpoints: Thrift e gRPC. Para mais informações sobre como encontrar o protocolo do endpoint, consulte Encontre o valor do URI do endpoint. Em seguida, configure a integração do BigQuery Studio usando as etapas nas seções a seguir.

Conectar-se a um Metastore do Dataproc baseado em Thrift

Um endpoint baseado em Thrift começa com thrift://. Para se conectar a um metastore do Dataproc baseado em Thrift, transmita o URI do endpoint do Thrift na configuração SparkSession, como no exemplo a seguir:

from pyspark.sql import SparkSession

spark = (
    SparkSession.builder.appName("Dataproc Metastore Connection")
    .config(
        "spark.hadoop.hive.metastore.uris",
        "thrift://IP_ADDRESS:9083",
    )
    .enableHiveSupport()
    .getOrCreate()
)

Conectar-se a um endpoint baseado em gRPC

Um endpoint baseado em gRPC começa com https://. O Spark não consegue se conectar a outros provedores baseados em endpoints diretamente. Em vez disso, é preciso executar um serviço de proxy converte solicitações do Thrift para gRPC. Para se conectar a uma instância de serviço Metastore do Dataproc, siga estas etapas em Notebook do BigQuery Studio:

  1. Faça download da versão mais recente do arquivo JAR do proxy Hive Metastore (HMS) no ambiente de execução do notebook executando o seguinte comando nele:

    # Download the latest HMS Proxy jar file.
    !gcloud storage cp gs://metastore-init-actions/metastore-grpc-proxy/hms-proxy-3.1.2-v0.0.46.jar
    
  2. Inicie o proxy do HMS.

    %%bash
    # Metastore store URI including the port number but without "https://" prefix.
    METASTORE_URI=METASTORE_URI
    # HMS Proxy JAR path.
    JAR_PATH=JAR_PATH
    # DPMS Supported Hive Version.
    HIVE_VERSION=3.1.2
    
    # Start the HMS Proxy.
    java -jar ${JAR_PATH} --conf proxy.mode=thrift proxy.uri=${METASTORE_URI} thrift.listening.port=9083 hive.version=${HIVE_VERSION} google.credentials.applicationdefault.enabled=true proxy.grpc.ssl.upstream.enabled=true > /tmp/hms.logs 2>&1 &
    
  3. Conecte a sessão Spark a um proxy HMS local.

    from pyspark.sql import SparkSession
    
    spark = (
      SparkSession.builder.appName("Dataproc Metastore Connection")
      .config(
          "spark.hadoop.hive.metastore.uris",
          "thrift://localhost:9083",
      )
      .enableHiveSupport()
      .getOrCreate()
    )
    

Recursos da sessão

Um recurso de sessão se refere a uma sessão ativa específica do usuário. Migração de recursos de sessão não tem suporte.

Recursos do ambiente

Um ambiente fornece recursos de computação sem servidor para que suas consultas do Spark SQL e notebooks sejam executados em um lago. Como o BigQuery Studio oferece um ambiente sem servidor para executar consultas e notebooks SQL, a migração de recursos de ambiente não é aceita.

Programar uma tarefa com recursos de conteúdo

É possível programar consultas no BigQuery Studio.