Esta página foi traduzida pela API Cloud Translation.

Usar o metastore do BigLake com tabelas no BigQuery

Neste documento, explicamos como usar o metastore do BigLake com tabelas do BigQuery e o Spark.

Com o metastore do BigLake, é possível criar e usar tabelas padrão (integradas), tabelas do BigLake para Apache Iceberg no BigQuery e tabelas externas do Apache Iceberg no BigQuery.

Antes de começar

Ative o faturamento no projeto do Google Cloud . Saiba como verificar se o faturamento está ativado em um projeto.
Ative as APIs BigQuery e Dataproc.

Ativar as APIs
Opcional: entenda como o BigLake Metastore funciona e por que você deve usá-lo.

Funções exigidas

Para ter as permissões necessárias para usar o Spark e o Dataproc com o metastore do BigLake como um repositório de metadados, peça ao administrador para conceder a você os seguintes papéis do IAM:

Crie tabelas do metastore do BigLake no Spark:
- Worker do Dataproc (roles/dataproc.worker) na conta de serviço do Dataproc sem servidor no projeto
- Editor de dados do BigQuery (roles/bigquery.dataEditor) na conta de serviço do Dataproc sem servidor no projeto
- Administrador de objetos do Storage (roles/storage.objectAdmin) na conta de serviço do Dataproc sem servidor no projeto
Consulte as tabelas do metastore do BigLake no BigQuery:
- Leitor de dados do BigQuery (roles/bigquery.dataViewer) no projeto
- Usuário do BigQuery (roles/bigquery.user) no projeto
- Leitor de objetos do Storage (roles/storage.objectViewer) no projeto

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.

Conectar-se a uma tabela

Crie um conjunto de dados no console do Google Cloud .
```
CREATE SCHEMA `PROJECT_ID`.DATASET_NAME;
```
Substitua:
- PROJECT_ID: o ID do projeto Google Cloud para criar o conjunto de dados.
- DATASET_NAME: um nome para o conjunto de dados.
Crie uma conexão de recursos do Cloud.
Crie uma tabela padrão do BigQuery.
```
CREATE TABLE `PROJECT_ID`.DATASET_NAME.TABLE_NAME (name STRING,id INT64);
```
Substitua:
- TABLE_NAME: um nome para a tabela.

Insira dados na tabela padrão do BigQuery.

INSERT INTO `PROJECT_ID`.DATASET_NAME.TABLE_NAME VALUES ('test_name1', 123),('test_name2', 456),('test_name3', 789);

Crie uma tabela do BigLake para Apache Iceberg no BigQuery.

Por exemplo, para criar uma tabela, execute a seguinte instrução CREATE.
```
CREATE TABLE `PROJECT_ID`.DATASET_NAME.ICEBERG_TABLE_NAME(
name STRING,id INT64
)
WITH CONNECTION `CONNECTION_NAME`
OPTIONS (
file_format = 'PARQUET',
table_format = 'ICEBERG',
storage_uri = 'STORAGE_URI');
```
Substitua:
- ICEBERG_TABLE_NAME: um nome para sua tabela do BigLake para Apache Iceberg no BigQuery. Por exemplo, iceberg_managed_table.
- CONNECTION_NAME: o nome da conexão. Você criou isso na etapa anterior. Por exemplo, myproject.us.myconnection.
- STORAGE_URI: um URI totalmente qualificado do Cloud Storage. Por exemplo, gs://mybucket/table.

Insira dados na tabela do BigLake para Apache Iceberg no BigQuery.

INSERT INTO `PROJECT_ID`.DATASET_NAME.ICEBERG_TABLE_NAME VALUES ('test_name1', 123),('test_name2', 456),('test_name3', 789);

Crie uma tabela externa do Apache Iceberg.

Por exemplo, para criar uma tabela externa do Iceberg, execute a seguinte instrução CREATE.
```
CREATE OR REPLACE EXTERNAL TABLE  `PROJECT_ID`.DATASET_NAME.READONLY_ICEBERG_TABLE_NAME
WITH CONNECTION `CONNECTION_NAME`
OPTIONS (
  format = 'ICEBERG',
  uris =
    ['BUCKET_PATH'],
  require_partition_filter = FALSE);
```
Substitua:
- READONLY_ICEBERG_TABLE_NAME: um nome para sua tabela somente leitura.
- BUCKET_PATH: o caminho para o bucket do Cloud Storage que contém os dados da tabela externa, no formato ['gs://bucket_name/[folder_name/]file_name'].

No PySpark, consulte a tabela padrão, a tabela BigLake para Apache Iceberg no BigQuery e a tabela externa do Apache Iceberg.

from pyspark.sql import SparkSession

# Create a spark session
spark = SparkSession.builder \
.appName("BigLake Metastore Iceberg") \
.config("spark.sql.catalog.CATALOG_NAME", "org.apache.iceberg.spark.SparkCatalog") \
.config("spark.sql.catalog.CATALOG_NAME.catalog-impl", "org.apache.iceberg.gcp.bigquery.BigQueryMetastoreCatalog") \
.config("spark.sql.catalog.CATALOG_NAME.gcp_project", "PROJECT_ID") \
.config("spark.sql.catalog.CATALOG_NAME.gcp_location", "LOCATION") \
.config("spark.sql.catalog.CATALOG_NAME.warehouse", "WAREHOUSE_DIRECTORY") \
.getOrCreate()
spark.conf.set("viewsEnabled","true")

# Use the blms_catalog
spark.sql("USE `CATALOG_NAME`;")
spark.sql("USE NAMESPACE DATASET_NAME;")

# Configure spark for temp results
spark.sql("CREATE namespace if not exists MATERIALIZATION_NAMESPACE");
spark.conf.set("materializationDataset","MATERIALIZATION_NAMESPACE")

# List the tables in the dataset
df = spark.sql("SHOW TABLES;")
df.show();

# Query the tables
sql = """SELECT * FROM DATASET_NAME.TABLE_NAME"""
df = spark.read.format("bigquery").load(sql)
df.show()

sql = """SELECT * FROM DATASET_NAME.ICEBERG_TABLE_NAME"""
df = spark.read.format("bigquery").load(sql)
df.show()

sql = """SELECT * FROM DATASET_NAME.READONLY_ICEBERG_TABLE_NAME"""
df = spark.read.format("bigquery").load(sql)
df.show()

Substitua:

WAREHOUSE_DIRECTORY: o URI da pasta do Cloud Storage conectada à tabela do BigLake Iceberg no BigQuery e à tabela externa do Iceberg.
CATALOG_NAME: o nome do catálogo que você está usando.
MATERIALIZATION_NAMESPACE: o namespace para armazenar resultados temporários.

Execute o script PySpark usando o Spark sem servidor.
```
gcloud dataproc batches submit pyspark SCRIPT_PATH \
  --version=2.2 \
  --project=PROJECT_ID \
  --region=REGION \
  --deps-bucket=YOUR_BUCKET \
```
Substitua:
- SCRIPT_PATH: o caminho para o script usado pelo job em lote.
- PROJECT_ID: o ID do Google Cloud projeto em que o job em lote será executado.
- REGION: a região em que sua carga de trabalho é executada.
- YOUR_BUCKET: o local do bucket do Cloud Storage para fazer upload das dependências da carga de trabalho. O prefixo de URI gs:// do bucket não é necessário. É possível especificar o caminho ou o nome do bucket, por exemplo, mybucketname1.

A seguir

Configure os recursos opcionais do metastore do BigLake.