Questa pagina è stata tradotta dall'API Cloud Translation.

Crea tabelle esterne Apache Iceberg

Le tabelle esterne Apache Iceberg consentono di accedere alle tabelle Apache Iceberg con controllo dell'accesso più granulare in un formato di sola lettura. Questa funzionalità è diversa dalle tabelle BigLake per Apache Iceberg in BigQuery, che consente di creare tabelle Iceberg in BigQuery in un formato scrivibile.

Iceberg è un formato di tabella open source che supporta tabelle di dati su scala petabyte. La specifica aperta di Iceberg consente di eseguire più motori di query su una singola copia dei dati archiviati in un archivio di oggetti. Le tabelle esterne Apache Iceberg (di seguito chiamate tabelle esterne Iceberg) supportano la versione 2 della specifica Iceberg, incluso merge-on-read.

In qualità di amministratore BigQuery, puoi applicare controllo dell'accesso a livello di riga e colonna, incluso il mascheramento dei dati nelle tabelle. Per informazioni su come configurare il controllo dell'accesso dell'accesso a livello di tabella, consulta Configurare le policy di controllo dell'accesso dell'accesso. I criteri di accesso alle tabelle vengono applicati anche quando utilizzi l'API BigQuery Storage come origine dati per la tabella in Dataproc e Serverless Spark.

Puoi creare tabelle esterne Iceberg nei seguenti modi:

Con BigLake Metastore (consigliato per Google Cloud). Il metastore BigLake si basa sul catalogo BigQuery e si integra direttamente con BigQuery. Le tabelle nel metastore BigLake sono modificabili da più motori open source e le stesse tabelle possono essere sottoposte a query da BigQuery. Il metastore BigLake supporta anche l'integrazione diretta con Apache Spark. Le tabelle esterne Iceberg che utilizzano il metastore BigLake sono a volte chiamate tabelle BigLake Iceberg.
Con AWS Glue Data Catalog (consigliato per AWS). AWS Glue è il metodo consigliato per AWS perché è un repository di metadati centralizzato in cui definisci la struttura e la posizione dei dati archiviati in vari servizi AWS e fornisce funzionalità come il rilevamento automatico dello schema e l'integrazione con gli strumenti di analisi AWS.
Con i file di metadati JSON Iceberg (consigliato per Azure). Se utilizzi un file JSON con i metadati Iceberg, devi aggiornare manualmente l'ultimo file di metadati ogni volta che vengono apportati aggiornamenti alla tabella. Puoi utilizzare una stored procedure BigQuery per Apache Spark per creare tabelle esterne Iceberg che fanno riferimento a un file di metadati Iceberg.

Per un elenco completo delle limitazioni, consulta Limitazioni.

Prima di iniziare

Enable the BigQuery Connection and BigQuery Reservation APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Se utilizzi una stored procedure per Spark in BigQuery per creare tabelle esterne Iceberg, devi seguire questi passaggi:
1. Crea una connessione Spark.
2. Configura il controllo dell'accesso per la connessione.
Per archiviare i metadati e i file di dati della tabella esterna Iceberg in Cloud Storage, crea un bucket Cloud Storage. Devi connetterti al bucket Cloud Storage per accedere ai file di metadati. Per farlo, segui questi passaggi:
1. Crea una connessione risorsa Cloud.
2. Configura l'accesso per la connessione.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per creare una tabella esterna Iceberg, chiedi all'amministratore di concederti i seguenti ruoli IAM nel progetto:

BigQuery Admin (roles/bigquery.admin)
Storage Object Admin (roles/storage.objectAdmin)

Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Questi ruoli predefiniti contengono le autorizzazioni necessarie per creare una tabella esterna Iceberg. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:

Autorizzazioni obbligatorie

Per creare una tabella esterna Iceberg sono necessarie le seguenti autorizzazioni:

bigquery.tables.create
bigquery.connections.delegate
bigquery.jobs.create

Potresti anche ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.

Crea tabelle con BigLake Metastore

Ti consigliamo di creare tabelle esterne Iceberg con BigLake Metastore. Puoi utilizzare Apache Spark per creare queste tabelle. Un modo pratico per farlo è utilizzare le stored procedure BigQuery. Per un esempio, vedi Creare ed eseguire una stored procedure.

Crea tabelle con un file di metadati

Puoi creare tabelle esterne Iceberg con un file di metadati JSON. Tuttavia, questo non è il metodo consigliato perché devi aggiornare manualmente l'URI del file JSON con i metadati per mantenere aggiornata la tabella esterna Iceberg. Se l'URI non viene aggiornato, le query in BigQuery possono non riuscire o fornire risultati diversi rispetto ad altri motori di query che utilizzano direttamente un catalogo Iceberg.

I file di metadati della tabella Iceberg vengono creati nel bucket Cloud Storage specificato quando crei una tabella Iceberg utilizzando Spark.

Seleziona una delle seguenti opzioni:

SQL

Utilizza l'istruzione CREATE EXTERNAL TABLE. L'esempio seguente crea una tabella esterna Iceberg denominata myexternal-table:

  CREATE EXTERNAL TABLE myexternal-table
  WITH CONNECTION `myproject.us.myconnection`
  OPTIONS (
         format = 'ICEBERG',
         uris = ["gs://mybucket/mydata/mytable/metadata/iceberg.metadata.json"]
   )

Sostituisci il valore uris con l'ultimo file di metadati JSON per uno snapshot specifico della tabella.

Puoi attivare l'opzione Richiedi filtro di partizione impostando il flag require_partition_filter.

bq

In un ambiente a riga di comando, utilizza il comando bq mk --table con il decoratore @connection per specificare la connessione da utilizzare alla fine del parametro --external_table_definition. Per attivare il filtro di partizionamento obbligatorio, utilizza --require_partition_filter.

bq mk 

    --table 

    --external_table_definition=TABLE_FORMAT=URI@projects/CONNECTION_PROJECT_ID/locations/CONNECTION_REGION/connections/CONNECTION_ID 

    PROJECT_ID:DATASET.EXTERNAL_TABLE

Sostituisci quanto segue:

TABLE_FORMAT: il formato della tabella che vuoi creare

In questo caso, ICEBERG.
URI: l'ultimo file di metadati JSON per uno snapshot di tabella specifico.

Ad esempio, gs://mybucket/mydata/mytable/metadata/iceberg.metadata.json.

L'URI può puntare anche a una posizione cloud esterna, ad esempio Amazon S3 o Azure Blob Storage.
- Esempio per AWS: s3://mybucket/iceberg/metadata/1234.metadata.json.
- Esempio per Azure: azure://mystorageaccount.blob.core.windows.net/mycontainer/iceberg/metadata/1234.metadata.json.
CONNECTION_PROJECT_ID: il progetto che contiene la connessione per creare la tabella esterna Iceberg, ad esempio myproject
CONNECTION_REGION: la regione che contiene la connessione per creare la tabella esterna Iceberg, ad esempio us
CONNECTION_ID: l'ID connessione tabella, ad esempio myconnection

Quando visualizzi i dettagli della connessione nella console Google Cloud , l'ID connessione è il valore nell'ultima sezione dell'ID connessione completo mostrato in ID connessione, ad esempio projects/myproject/locations/connection_location/connections/myconnection
DATASET: il nome del set di dati BigQuery in cui vuoi creare una tabella

Ad esempio, mydataset.
EXTERNAL_TABLE: il nome della tabella che vuoi creare

Ad esempio, mytable.

Aggiornamento metadati tabella

Se utilizzi un file di metadati JSON per creare una tabella esterna Iceberg, aggiorna la definizione della tabella con i metadati più recenti. Per aggiornare lo schema o il file di metadati, seleziona una delle seguenti opzioni:

bq

Crea un file di definizione della tabella:

bq mkdef --source_format=ICEBERG \
"URI" > TABLE_DEFINITION_FILE

Utilizza il comando bq update con il flag --autodetect_schema:
```
bq update --autodetect_schema --external_table_definition=TABLE_DEFINITION_FILE
PROJECT_ID:DATASET.TABLE
```
Sostituisci quanto segue:
- URI: l'URI Cloud Storage con l'ultimo file di metadati JSON
  
  Ad esempio, gs://mybucket/us/iceberg/mytable/metadata/1234.metadata.json.
- TABLE_DEFINITION_FILE: il nome del file contenente lo schema della tabella
- PROJECT_ID: l'ID progetto contenente la tabella che vuoi aggiornare
- DATASET: il set di dati contenente la tabella che vuoi aggiornare
- TABLE: la tabella che vuoi aggiornare

API

Utilizza il metodo tables.patch con la proprietà autodetect_schema impostata su true:

PATCH https://bigquery.googleapis.com/bigquery/v2/projects/PROJECT_ID/datasets/DATASET/tables/TABLE?autodetect_schema=true

Sostituisci quanto segue:

PROJECT_ID: l'ID progetto che contiene la tabella che vuoi aggiornare
DATASET: il set di dati contenente la tabella che vuoi aggiornare
TABLE: la tabella che vuoi aggiornare

Nel corpo della richiesta, specifica i valori aggiornati per i seguenti campi:

{
     "externalDataConfiguration": {
      "sourceFormat": "ICEBERG",
      "sourceUris": [
        "URI"
      ]
    },
    "schema": null
  }'

Sostituisci URI con l'ultimo file di metadati Iceberg. Ad esempio, gs://mybucket/us/iceberg/mytable/metadata/1234.metadata.json.

Configura i criteri di controllo dell'accesso

Puoi controllare l'accesso alle tabelle esterne Iceberg tramite sicurezza a livello di colonna, sicurezza a livello di riga e mascheramento dei dati.

Eseguire query sulle tabelle esterne Iceberg

Per maggiori informazioni, consulta Eseguire query sui dati Iceberg.

Eseguire query sui dati storici

Puoi accedere agli snapshot delle tabelle esterne Iceberg conservati nei metadati Iceberg utilizzando la clausola FOR SYSTEM_TIME AS OF.

Le finestre di conservazione dei dati Time Travel e fail-safe non sono supportate per le tabelle esterne.

Mappatura dei dati

BigQuery converte i tipi di dati Iceberg in tipi di dati BigQuery come mostrato nella tabella seguente:

Tipo di dati Iceberg	Tipo di dati BigQuery
`boolean`	`BOOL`
`int`	`INT64`
`long`	`INT64`
`float`	`FLOAT64`
`double`	`FLOAT64`
`Decimal(P/S)`	`NUMERIC or BIG_NUMERIC depending on precision`
`date`	`DATE`
`time`	`TIME`
`timestamp`	`DATETIME`
`timestamptz`	`TIMESTAMP`
`string`	`STRING`
`uuid`	`BYTES`
`fixed(L)`	`BYTES`
`binary`	`BYTES`
`list<Type>`	`ARRAY<Type>`
`struct`	`STRUCT`
`map<KeyType, ValueType>`	`ARRAY<Struct<key KeyType, value ValueType>>`

Limitazioni

Le tabelle esterne Iceberg presentano limitazioni delle tabelle esterne e le seguenti limitazioni:

Le tabelle che utilizzano la funzionalità Merge-on-Read presentano le seguenti limitazioni:
- Ogni file di dati può essere associato a un massimo di 10.000 file di eliminazione.
- A un file di dati non possono essere applicate più di 100.000 eliminazioni per uguaglianza.
- Puoi aggirare queste limitazioni compattando spesso i file di eliminazione o creando una vista sopra la tabella Iceberg che eviti le partizioni modificate di frequente.
BigQuery supporta l'eliminazione dei manifest utilizzando tutte le funzioni di trasformazione delle partizioni Iceberg. Per informazioni su come eliminare le partizioni, consulta Esecuzione di query sulle tabelle partizionate. Le query che fanno riferimento a tabelle esterne Iceberg devono contenere valori letterali nei predicati rispetto alle colonne partizionate.
Sono supportati solo i file di dati Apache Parquet.

Costi di unione in lettura

La fatturazione on demand per i dati di unione in lettura è la somma delle scansioni dei seguenti dati:

Tutti i byte logici letti nel file di dati (incluse le righe contrassegnate come eliminate per posizione ed eliminazioni di uguaglianza).
Byte logici letti durante il caricamento dei file di eliminazione per uguaglianza ed eliminazione per posizione per trovare le righe eliminate in un file di dati.

Richiedi filtro di partizionamento

Puoi richiedere l'utilizzo di filtri di predicato attivando l'opzione Richiedi filtro di partizionamento per la tabella Iceberg. Se abiliti questa opzione, i tentativi di eseguire query sulla tabella senza specificare una clausola WHERE che corrisponda a ogni file manifest produrranno il seguente errore:

Cannot query over table project_id.dataset.table without a
filter that can be used for partition elimination.

Ogni file manifest richiede almeno un predicato adatto all'eliminazione delle partizioni.

Puoi attivare require_partition_filter nei seguenti modi durante la creazione di una tabella Iceberg :

SQL

Utilizza l'istruzione CREATE EXTERNAL TABLE.Il seguente esempio crea una tabella esterna Iceberg denominata TABLE con il filtro di partizionamento obbligatorio abilitato:

  CREATE EXTERNAL TABLE TABLE
  WITH CONNECTION `PROJECT_ID.REGION.CONNECTION_ID`
  OPTIONS (
         format = 'ICEBERG',
         uris = [URI],
         require_partition_filter = true
   )

Sostituisci quanto segue:

TABLE: il nome della tabella che vuoi creare.
PROJECT_ID: l'ID progetto contenente la tabella che vuoi creare.
REGION: la posizione in cui vuoi creare la tabella Iceberg.
CONNECTION_ID: l'ID connessione. Ad esempio: myconnection.
URI: l'URI Cloud Storage con l'ultimo file JSON di metadati.

Ad esempio, gs://mybucket/us/iceberg/mytable/metadata/1234.metadata.json.

L'URI può puntare anche a una posizione cloud esterna, ad esempio Amazon S3 o Azure Blob Storage.
- Esempio per AWS: s3://mybucket/iceberg/metadata/1234.metadata.json.
- Esempio per Azure: azure://mystorageaccount.blob.core.windows.net/mycontainer/iceberg/metadata/1234.metadata.json.

bq

Utilizza il comando bq mk --table con il decoratore @connection per specificare la connessione da utilizzare alla fine del parametro --external_table_definition. Utilizza --require_partition_filter per attivare il filtro di partizionamento obbligatorio. Il seguente esempio crea una tabella esterna Iceberg denominata TABLE con il filtro di partizionamento obbligatorio abilitato:

bq mk \
    --table \
    --external_table_definition=ICEBERG=URI@projects/CONNECTION_PROJECT_ID/locations/CONNECTION_REGION/connections/CONNECTION_ID \
    PROJECT_ID:DATASET.EXTERNAL_TABLE \
    --require_partition_filter

Sostituisci quanto segue:

URI: l'ultimo file di metadati JSON per uno snapshot di tabella specifico

Ad esempio, gs://mybucket/mydata/mytable/metadata/iceberg.metadata.json.

L'URI può puntare anche a una posizione cloud esterna, ad esempio Amazon S3 o Azure Blob Storage.
- Esempio per AWS: s3://mybucket/iceberg/metadata/1234.metadata.json.
- Esempio per Azure: azure://mystorageaccount.blob.core.windows.net/mycontainer/iceberg/metadata/1234.metadata.json.
CONNECTION_PROJECT_ID: il progetto che contiene la connessione per creare la tabella esterna Iceberg, ad esempio myproject
CONNECTION_REGION: la regione che contiene la connessione per creare la tabella esterna Iceberg. Ad esempio: us.
CONNECTION_ID: l'ID connessione. Ad esempio: myconnection.

Quando visualizzi i dettagli della connessione nella console Google Cloud , l'ID connessione è il valore nell'ultima sezione dell'ID connessione completo visualizzato in ID connessione, ad esempio projects/myproject/locations/connection_location/connections/myconnection
DATASET: il nome di BigQuery

il set di dati che contiene la tabella da aggiornare. Ad esempio, mydataset.
EXTERNAL_TABLE: il nome della tabella che vuoi creare

Ad esempio, mytable.

Puoi anche aggiornare la tabella Iceberg per attivare il filtro di partizionamento richiesto.

Se non attivi l'opzione Richiedi filtro di partizione quando crei la tabella partizionata, puoi aggiornarla per aggiungere l'opzione.

bq

Utilizza il comando bq update e fornisci il flag --require_partition_filter.

Ad esempio:

Per aggiornare mypartitionedtable in mydataset nel progetto predefinito, inserisci:

bq update --require_partition_filter PROJECT_ID:DATASET.TABLE

Passaggi successivi

Scopri di più sulla stored procedure per Spark.
Scopri di più sui criteri di controllo dell'accesso.
Scopri di più sull'esecuzione di query in BigQuery.
Scopri di più sulle istruzioni e sui dialetti SQL supportati in BigQuery.