Specifica di uno schema
BigQuery ti consente di specificare lo schema di una tabella quando carichi i dati in una tabella e quando crei una tabella vuota. In alternativa, puoi utilizzare il rilevamento automatico dello schema per i formati di dati supportati.
Quando carichi file di esportazione Avro, Parquet, ORC, Firestore o Datastore, lo schema viene recuperato automaticamente dai dati di origine autodescrittivi.
Puoi specificare lo schema di una tabella nei seguenti modi:
- Utilizza la console Google Cloud .
- Utilizza l'istruzione SQL
CREATE TABLE
. - Inline utilizzando lo strumento a riga di comando bq.
- Crea un file di schema in formato JSON.
- Chiama il metodo
jobs.insert
e configura la proprietàschema
nella configurazione del jobload
. - Chiama il metodo
tables.insert
e configura lo schema nella risorsa tabella utilizzando la proprietàschema
.
Dopo aver caricato i dati o creato una tabella vuota, puoi modificare la definizione dello schema della tabella.
Componenti dello schema
Quando specifichi uno schema della tabella, devi fornire il nome e il tipo di dati di ogni colonna. Puoi anche fornire la descrizione, la modalità e il valore predefinito di una colonna.
Nomi delle colonne
Il nome di una colonna può contenere lettere (a-z, A-Z), numeri (0-9) o trattini bassi (_), e deve iniziare con una lettera o un trattino basso. Se utilizzi nomi delle colonne flessibili, BigQuery supporta l'inizio di un nome di colonna con un numero. Fai attenzione quando inizi le colonne con un numero, poiché l'utilizzo di nomi di colonne flessibili con l'API BigQuery Storage di lettura o l'API BigQuery Storage Write richiede una gestione speciale. Per ulteriori informazioni sul supporto dei nomi delle colonne flessibili, consulta Nomi delle colonne flessibili.
I nomi delle colonne hanno una lunghezza massima di 300 caratteri. I nomi delle colonne non possono utilizzare i seguenti prefissi:
_TABLE_
_FILE_
_PARTITION
_ROW_TIMESTAMP
__ROOT__
_COLIDENTIFIER
Non sono consentiti nomi di colonna duplicati, anche se l'uso delle maiuscole è diverso. Ad esempio, una
colonna denominata Column1
è considerata identica a una colonna denominata column1
. Per
scoprire di più sulle regole di denominazione delle colonne, consulta Nomi
delle colonne nella
guida di riferimento di GoogleSQL.
Se il nome di una tabella (ad esempio test
) è uguale a uno dei nomi delle colonne
(ad esempio test
), l'espressione SELECT
interpreta la colonna test
come
un STRUCT
contenente tutte le altre colonne della tabella. Per evitare questo conflitto, utilizza
uno dei seguenti metodi:
Evita di utilizzare lo stesso nome per una tabella e le relative colonne.
Assegna alla tabella un alias diverso. Ad esempio, la seguente query assegna l'alias di tabella
t
alla tabellaproject1.dataset.test
:SELECT test FROM project1.dataset.test AS t;
Includi il nome della tabella quando fai riferimento a una colonna. Ad esempio:
SELECT test.test FROM project1.dataset.test;
Nomi delle colonne flessibili
Hai maggiore flessibilità nella denominazione delle colonne, incluso l'accesso esteso ai caratteri in lingue diverse dall'inglese, nonché a simboli aggiuntivi.
I nomi delle colonne flessibili supportano i seguenti caratteri:
- Qualsiasi lettera in qualsiasi lingua, come rappresentata dall'espressione regolare Unicode
\p{L}
. - Qualsiasi carattere numerico in qualsiasi lingua rappresentato dall'espressione
regolare Unicode
\p{N}
. - Qualsiasi carattere di punteggiatura del connettore, inclusi i trattini bassi, come rappresentato
dall'espressione regolare Unicode
\p{Pc}
. - Un trattino o una lineetta rappresentati dall'espressione regolare Unicode
\p{Pd}
. - Qualsiasi segno destinato ad accompagnare un altro carattere, come rappresentato dall'espressione regolare Unicode
\p{M}
. Ad esempio, accenti, dieresi o caselle di inclusione. - I seguenti caratteri speciali:
- Una e commerciale (
&
) rappresentata dall'espressione regolare Unicode\u0026
. - Un segno di percentuale (
%
) rappresentato dall'espressione regolare Unicode\u0025
. - Un segno di uguale (
=
) rappresentato dall'espressione regolare Unicode\u003D
. - Un segno più (
+
) rappresentato dall'espressione regolare Unicode\u002B
. - Un segno dei due punti (
:
) rappresentato dall'espressione regolare Unicode\u003A
. - Un apostrofo (
'
) rappresentato dall'espressione regolare Unicode\u0027
. - Un segno di minore (
<
) rappresentato dall'espressione regolare Unicode\u003C
. - Un segno di maggiore (
>
) rappresentato dall'espressione regolare Unicode\u003E
. - Un simbolo di cancelletto (
#
) rappresentato dall'espressione regolare Unicode\u0023
. - Una linea verticale (
|
) rappresentata dall'espressione regolare Unicode\u007c
. - Spazio vuoto.
- Una e commerciale (
I nomi delle colonne flessibili non supportano i seguenti caratteri speciali:
- Un punto esclamativo (
!
) rappresentato dall'espressione regolare Unicode\u0021
. - Un segno di virgolette (
"
) rappresentato dall'espressione regolare Unicode\u0022
. - Un simbolo del dollaro (
$
) rappresentato dall'espressione regolare Unicode\u0024
. - Una parentesi aperta (
(
) rappresentata dall'espressione regolare Unicode\u0028
. - Una parentesi chiusa (
)
) rappresentata dall'espressione regolare Unicode\u0029
. - Un asterisco (
*
) rappresentato dall'espressione regolare Unicode\u002A
. - Una virgola (
,
) rappresentata dall'espressione regolare Unicode\u002C
. - Un punto (
.
) rappresentato dall'espressione regolare Unicode\u002E
. I punti non vengono sostituiti dai trattini bassi nei nomi delle colonne dei file Parquet quando viene utilizzata una mappa dei caratteri dei nomi delle colonne. Per ulteriori informazioni, vedi limitazioni delle colonne flessibili. - Una barra (
/
) rappresentata dall'espressione regolare Unicode\u002F
. - Un punto e virgola (
;
) rappresentato dall'espressione regolare Unicode\u003B
. - Un punto interrogativo (
?
) rappresentato dall'espressione regolare Unicode\u003F
. - Un simbolo @ (
@
) rappresentato dall'espressione regolare Unicode\u0040
. - Una parentesi quadra aperta (
[
) rappresentata dall'espressione regolare Unicode\u005B
. - Una barra rovesciata (
\
) rappresentata dall'espressione regolare Unicode\u005C
. - Una parentesi quadra chiusa (
]
) rappresentata dall'espressione regolare Unicode\u005D
. - Un accento circonflesso (
^
) rappresentato dall'espressione regolare Unicode\u005E
. - Un accento grave (
`
) rappresentato dall'espressione regolare Unicode\u0060
. - Una parentesi graffa aperta {
{
) rappresentata dall'espressione regolare Unicode\u007B
. - Una parentesi graffa chiusa (
}
) rappresentata dall'espressione regolare Unicode\u007D
. - Una tilde (
~
) rappresentata dall'espressione regolare Unicode\u007E
.
Per ulteriori linee guida, vedi Nomi delle colonne.
I caratteri delle colonne espanse sono supportati sia dall'API BigQuery Storage di lettura
sia dall'API BigQuery Storage di scrittura. Per utilizzare l'elenco esteso di caratteri Unicode
con l'API BigQuery Storage di lettura, devi impostare un flag. Puoi utilizzare l'attributo
displayName
per recuperare il nome della colonna. L'esempio seguente
mostra come impostare un flag con il client Python:
from google.cloud.bigquery_storage import types
requested_session = types.ReadSession()
#set avro serialization options for flexible column.
options = types.AvroSerializationOptions()
options.enable_display_name_attribute = True
requested_session.read_options.avro_serialization_options = options
Per utilizzare l'elenco esteso di caratteri Unicode con l'API BigQuery Storage Write,
devi fornire lo schema con la notazione column_name
, a meno che tu non stia utilizzando
l'oggetto writer JsonStreamWriter
. Il seguente esempio mostra come
fornire lo schema:
syntax = "proto2";
package mypackage;
// Source protos located in github.com/googleapis/googleapis
import "google/cloud/bigquery/storage/v1/annotations.proto";
message FlexibleSchema {
optional string item_name_column = 1
[(.google.cloud.bigquery.storage.v1.column_name) = "name-列"];
optional string item_description_column = 2
[(.google.cloud.bigquery.storage.v1.column_name) = "description-列"];
}
In questo esempio, item_name_column
e item_description_column
sono
nomi segnaposto che devono essere conformi alla
convenzione di denominazione dei
buffer di protocollo. Tieni presente che le annotazioni column_name
hanno sempre la precedenza sui
nomi dei segnaposto.
Limitazioni
- I nomi delle colonne flessibili non sono supportati con le tabelle esterne.
Descrizioni delle colonne
Ogni colonna può includere una descrizione facoltativa. La descrizione è una stringa con una lunghezza massima di 1024 caratteri.
Valori predefiniti
Il valore predefinito di una colonna deve essere un valore letterale o una delle seguenti funzioni:
CURRENT_DATE
CURRENT_DATETIME
CURRENT_TIME
CURRENT_TIMESTAMP
GENERATE_UUID
RAND
SESSION_USER
ST_GEOGPOINT
Tipi di dati GoogleSQL
GoogleSQL ti consente di specificare i seguenti tipi di dati nello schema. Il tipo di dati è obbligatorio.
Nome | Tipo di dati | Descrizione |
---|---|---|
Numero intero | INT64 |
Valori numerici senza componenti frazionari |
Punto mobile | FLOAT64 |
Approssimare i valori numerici con componenti frazionari |
Numerico | NUMERIC |
Valori numerici esatti con componenti frazionari |
BigNumeric | BIGNUMERIC |
Valori numerici esatti con componenti frazionari |
Boolean | BOOL |
TRUE o FALSE (senza distinzione tra maiuscole e minuscole) |
Stringa | STRING |
Dati di tipo carattere a lunghezza variabile (Unicode) |
Byte | BYTES |
Dati binari di lunghezza variabile |
Data | DATE |
Una data di calendario logica |
Data/ora | DATETIME |
Anno, mese, giorno, ora, minuto, secondo e subsecondo |
Ora | TIME |
Un orario, indipendentemente da una data specifica |
Timestamp | TIMESTAMP |
Un punto nel tempo assoluto, con una precisione di microsecondi |
Struct (Record) | STRUCT |
Contenitore di campi ordinati, ognuno con un tipo (obbligatorio) e un nome di campo (facoltativo) |
Area geografica | GEOGRAPHY |
Un insieme di punti sulla superficie terrestre (un insieme di punti, linee e poligoni sullo sferoide di riferimento WGS84, con bordi geodetici) |
JSON | JSON |
Rappresenta JSON, un formato di interscambio dati leggero |
RANGE | RANGE |
Un intervallo di valori DATE , DATETIME o TIMESTAMP |
Per saperne di più sui tipi di dati in GoogleSQL, vedi Tipi di dati GoogleSQL.
Puoi anche dichiarare un tipo di array quando esegui query sui dati. Per ulteriori informazioni, vedi Utilizzare gli array.
Modalità
BigQuery supporta le seguenti modalità per le colonne. La modalità è
facoltativa. Se la modalità non è specificata, la colonna assume il valore predefinito NULLABLE
.
Modalità | Descrizione |
---|---|
Ammette valori Null | La colonna consente valori NULL (impostazione predefinita) |
Obbligatorio | I valori NULL non sono consentiti |
Ripetuto | La colonna contiene un array di valori del tipo specificato |
Per ulteriori informazioni sulle modalità, vedi mode
nella TableFieldSchema
.
Modalità di arrotondamento
Quando una colonna è di tipo NUMERIC
o BIGNUMERIC
, puoi impostare l'opzione colonna rounding_mode
, che determina la modalità di arrotondamento dei valori della colonna quando vengono scritti nella tabella. Puoi impostare l'opzione rounding_mode
su una colonna di primo livello o su un campo STRUCT
. Sono supportate le seguenti modalità di arrotondamento:
"ROUND_HALF_AWAY_FROM_ZERO"
: questa modalità (predefinita) arrotonda i casi a metà lontano da zero."ROUND_HALF_EVEN"
: Questa modalità arrotonda i casi a metà verso la cifra pari più vicina.
Non puoi impostare l'opzione rounding_mode
per una colonna che non è di tipo NUMERIC
o BIGNUMERIC
. Per scoprire di più su questi tipi, consulta la sezione
Tipi decimali.
L'esempio seguente crea una tabella e inserisce valori arrotondati in base alla modalità di arrotondamento della colonna:
CREATE TABLE mydataset.mytable ( x NUMERIC(5,2) OPTIONS (rounding_mode='ROUND_HALF_EVEN'), y NUMERIC(5,2) OPTIONS (rounding_mode='ROUND_HALF_AWAY_FROM_ZERO') ); INSERT mydataset.mytable (x, y) VALUES (NUMERIC "1.025", NUMERIC "1.025"), (NUMERIC "1.0251", NUMERIC "1.0251"), (NUMERIC "1.035", NUMERIC "1.035"), (NUMERIC "-1.025", NUMERIC "-1.025");
La tabella mytable
ha il seguente aspetto:
+-------+-------+ | x | y | +-------+-------+ | 1.02 | 1.03 | | 1.03 | 1.03 | | 1.04 | 1.04 | | -1.02 | -1.03 | +-------+-------+
Per ulteriori informazioni, consulta la sezione roundingMode
nella
TableFieldSchema
.
Specifica gli schemi
Quando carichi dati o crei una tabella vuota, puoi specificare lo schema della tabella utilizzando la console Google Cloud o lo strumento a riga di comando bq. La specifica di uno schema è supportata quando carichi file CSV e JSON (delimitati da nuova riga). Quando carichi dati Avro, Parquet, ORC, di esportazione di Firestore o di esportazione di Datastore, lo schema viene recuperato automaticamente dai dati di origine autodescrittivi.
Per specificare uno schema della tabella:
Console
Nella console Google Cloud , puoi specificare uno schema utilizzando l'opzione Aggiungi campo o l'opzione Modifica come testo.
Nella console Google Cloud , apri la pagina BigQuery.
Nel riquadro Spazio di esplorazione, espandi il progetto e seleziona un set di dati.
Espandi l'opzione
Azioni e fai clic su Apri.Nel riquadro dei dettagli, fai clic su Crea tabella
.Nella sezione Origine della pagina Crea tabella, seleziona Tabella vuota.
Nella sezione Destinazione della pagina Crea tabella:
Per Nome set di dati, scegli il set di dati appropriato.
Nel campo Nome tabella, inserisci il nome della tabella che stai creando.
Verifica che Tipo di tabella sia impostato su Tabella nativa.
Nella sezione Schema, inserisci la definizione dello schema.
- Opzione 1: utilizza Aggiungi campo e specifica il nome, il tipo e la modalità di ogni campo.
- Opzione 2: fai clic su Modifica come testo e incolla lo schema sotto forma di array JSON. Quando utilizzi un array JSON, generi lo schema utilizzando lo stesso processo di creazione di un file di schema JSON.
Fai clic su Crea tabella.
SQL
Utilizza l'istruzione
CREATE TABLE
.
Specifica lo schema utilizzando l'opzione
colonna.
L'esempio seguente crea una nuova tabella denominata newtable
con le colonne
x, y, z di tipo integer, stringa e booleano:
Nella console Google Cloud , vai alla pagina BigQuery.
Nell'editor di query, inserisci la seguente istruzione:
CREATE TABLE IF NOT EXISTS mydataset.newtable (x INT64, y STRING, z BOOL) OPTIONS( description = 'My example table');
Fai clic su
Esegui.
Per maggiori informazioni su come eseguire le query, consulta Eseguire una query interattiva.
bq
Fornisci lo schema inline nel formato
field:data_type,field:data_type
utilizzando uno dei
seguenti comandi:
- Se stai caricando dati, utilizza il comando
bq load
. - Se stai creando una tabella vuota, utilizza il comando
bq mk
.
Quando specifichi lo schema nella riga di comando, non puoi includere i tipi
RECORD
(STRUCT
)
o RANGE
,
non puoi includere una descrizione della colonna e non puoi specificare la modalità della colonna. Tutte le modalità sono impostate su NULLABLE
per impostazione predefinita. Per
includere descrizioni, modalità, tipi di RECORD
e tipi di RANGE
, fornisci un
file di schema JSON.
Per caricare i dati in una tabella utilizzando una definizione dello schema incorporata, inserisci il comando load
e specifica il formato dei dati utilizzando il flag --source_format
.
Se carichi dati in una tabella in un progetto diverso da quello predefinito, includi l'ID progetto nel seguente formato:
project_id:dataset.table_name
.
(Facoltativo) Fornisci il flag --location
e imposta il valore sulla tua
posizione.
bq --location=location load \ --source_format=format \ project_id:dataset.table_name \ path_to_source \ schema
Sostituisci quanto segue:
location
: il nome della tua sede. Il flag--location
è facoltativo. Ad esempio, se utilizzi BigQuery nella regione di Tokyo, puoi impostare il valore del flag suasia-northeast1
. Puoi impostare un valore predefinito per la località utilizzando il file.bigqueryrc.format
:NEWLINE_DELIMITED_JSON
oCSV
.project_id
: il tuo ID progetto.dataset
: il set di dati che contiene la tabella in cui carichi i dati.table_name
: il nome della tabella in cui carichi i dati.path_to_source
: la posizione del file di dati CSV o JSON sulla macchina locale o in Cloud Storage.schema
: la definizione dello schema in linea.
Esempio:
Inserisci il comando seguente per caricare i dati da un file CSV locale denominato
myfile.csv
in mydataset.mytable
nel tuo progetto predefinito. Lo schema è
specificato in linea.
bq load \
--source_format=CSV \
mydataset.mytable \
./myfile.csv \
qtr:STRING,sales:FLOAT,year:STRING
Per ulteriori informazioni sul caricamento dei dati in BigQuery, consulta Introduzione al caricamento dei dati.
Per specificare una definizione dello schema inline quando crei una tabella vuota, inserisci
il comando bq mk
con il flag --table
o -t
. Se stai creando
una tabella in un progetto diverso da quello predefinito, aggiungi l'ID progetto al
comando nel seguente formato:
project_id:dataset.table
.
bq mk --table project_id:dataset.table schema
Sostituisci quanto segue:
project_id
: il tuo ID progetto.dataset
: un set di dati nel tuo progetto.table
: il nome della tabella che stai creando.schema
: una definizione di schema in linea.
Ad esempio, il seguente comando crea una tabella vuota denominata mytable
nel tuo progetto predefinito. Lo schema è specificato in linea.
bq mk --table mydataset.mytable qtr:STRING,sales:FLOAT,year:STRING
Per saperne di più sulla creazione di una tabella vuota, vedi Creare una tabella vuota con una definizione dello schema.
C#
Per specificare lo schema di una tabella quando carichi i dati in una tabella:
Prima di provare questo esempio, segui le istruzioni di configurazione di C# nella guida rapida di BigQuery per l'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API BigQuery C#.
Per eseguire l'autenticazione in BigQuery, configura le Credenziali predefinite dell'applicazione. Per saperne di più, vedi Configurare l'autenticazione per le librerie client.
Per specificare uno schema quando crei una tabella vuota:
Vai
Per specificare lo schema di una tabella quando carichi i dati in una tabella:
Prima di provare questo esempio, segui le istruzioni di configurazione di Go nella guida rapida di BigQuery per l'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API BigQuery Go.
Per eseguire l'autenticazione in BigQuery, configura le Credenziali predefinite dell'applicazione. Per saperne di più, vedi Configurare l'autenticazione per le librerie client.
Per specificare uno schema quando crei una tabella vuota:
Java
Per specificare lo schema di una tabella quando carichi i dati in una tabella:
Prima di provare questo esempio, segui le istruzioni di configurazione di Java nella guida rapida di BigQuery per l'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API BigQuery Java.
Per eseguire l'autenticazione in BigQuery, configura le Credenziali predefinite dell'applicazione. Per saperne di più, vedi Configurare l'autenticazione per le librerie client.
Per specificare uno schema quando crei una tabella vuota:
Python
Per specificare lo schema di una tabella quando carichi i dati in una tabella, configura la proprietà LoadJobConfig.schema.
Prima di provare questo esempio, segui le istruzioni di configurazione di Python nella guida rapida di BigQuery per l'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API BigQuery Python.
Per eseguire l'autenticazione in BigQuery, configura le Credenziali predefinite dell'applicazione. Per saperne di più, vedi Configurare l'autenticazione per le librerie client.
Per specificare uno schema quando crei una tabella vuota, configura la proprietà Table.schema.
Specificare un file di schema JSON
Se preferisci, puoi specificare lo schema utilizzando un file JSON anziché una definizione di schema incorporata. Un file di schema JSON è costituito da un array JSON contenente quanto segue:
- Il nome della colonna
- Il tipo di dati della colonna
- (Facoltativo) La modalità della colonna (se non specificata, la modalità predefinita è
NULLABLE
) - (Facoltativo) I campi della colonna se è di tipo
STRUCT
- (Facoltativo) La descrizione della colonna
- (Facoltativo) I tag di policy della colonna, utilizzati per il controllo dell'accesso a livello di campo
- (Facoltativo) La lunghezza massima dei valori della colonna per i tipi
STRING
oBYTES
- (Facoltativo) La precisione della colonna
per i tipi
NUMERIC
oBIGNUMERIC
- (Facoltativo) La scala della colonna
per i tipi
NUMERIC
oBIGNUMERIC
- (Facoltativo) La collation della colonna
per i tipi
STRING
- (Facoltativo) Il valore predefinito della colonna
- (Facoltativo) La modalità di arrotondamento della colonna, se la colonna è di tipo
NUMERIC
oBIGNUMERIC
Creazione di un file di schema JSON
Per creare un file di schema JSON, inserisci un
TableFieldSchema
per ogni colonna. I campi name
e type
sono obbligatori. Tutti gli altri campi sono
facoltativi.
[ { "name": string, "type": string, "mode": string, "fields": [ { object (TableFieldSchema) } ], "description": string, "policyTags": { "names": [ string ] }, "maxLength": string, "precision": string, "scale": string, "collation": string, "defaultValueExpression": string, "roundingMode": string }, { "name": string, "type": string, ... } ]
Se la colonna è di tipo RANGE<T>
, utilizza il campo rangeElementType
per
descrivere T
, dove T
deve essere uno dei seguenti valori: DATE
, DATETIME
o TIMESTAMP
.
[ { "name": "duration", "type": "RANGE", "mode": "NULLABLE", "rangeElementType": { "type": "DATE" } } ]
L'array JSON è indicato dalle parentesi quadre di apertura e chiusura []
. Ogni voce
della colonna deve essere separata da una virgola: },
.
Per scrivere lo schema di una tabella esistente in un file locale:
bq
bq show \ --schema \ --format=prettyjson \ project_id:dataset.table > path_to_file
Sostituisci quanto segue:
project_id
: il tuo ID progetto.dataset
: un set di dati nel tuo progetto.table
: il nome di uno schema di tabella esistente.path_to_file
: la posizione del file locale in cui stai scrivendo lo schema della tabella.
Python
Prima di provare questo esempio, segui le istruzioni di configurazione di Python nella guida rapida di BigQuery per l'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API BigQuery Python.
Per eseguire l'autenticazione in BigQuery, configura le Credenziali predefinite dell'applicazione. Per saperne di più, vedi Configurare l'autenticazione per le librerie client.
Per scrivere un file JSON dello schema da una tabella utilizzando la libreria client Python, chiama il metodo Client.schema_to_json.Puoi utilizzare il file di output come punto di partenza per il tuo file di schema JSON. Se utilizzi questo approccio, assicurati che il file contenga solo l'array JSON che rappresenta lo schema della tabella.
Ad esempio, il seguente array JSON rappresenta uno schema di tabella di base. Questo
schema ha tre colonne: qtr
(REQUIRED
STRING
), rep
(NULLABLE
STRING
)
e sales
(NULLABLE
FLOAT
).
[ { "name": "qtr", "type": "STRING", "mode": "REQUIRED", "description": "quarter" }, { "name": "rep", "type": "STRING", "mode": "NULLABLE", "description": "sales representative" }, { "name": "sales", "type": "FLOAT", "mode": "NULLABLE", "defaultValueExpression": "2.55" } ]
Utilizzo di un file di schema JSON
Dopo aver creato il file dello schema JSON, puoi specificarlo utilizzando lo strumento a riga di comando bq. Non puoi utilizzare un file schema con la console Google Cloud o l'API.
Fornisci il file schema:
- Se stai caricando dati, utilizza il comando
bq load
. - Se stai creando una tabella vuota, utilizza il comando
bq mk
.
Quando fornisci un file dello schema JSON, questo deve essere archiviato in una posizione leggibile localmente. Non puoi specificare un file di schema JSON archiviato in Cloud Storage o Google Drive.
Specificare un file di schema durante il caricamento dei dati
Per caricare i dati in una tabella utilizzando una definizione dello schema JSON:
bq
bq --location=location load \ --source_format=format \ project_id:dataset.table \ path_to_data_file \ path_to_schema_file
Sostituisci quanto segue:
location
: il nome della tua sede. Il flag--location
è facoltativo. Ad esempio, se utilizzi BigQuery nella regione di Tokyo, puoi impostare il valore del flag suasia-northeast1
. Puoi impostare un valore predefinito per la località utilizzando il file.bigqueryrc.format
:NEWLINE_DELIMITED_JSON
oCSV
.project_id
: il tuo ID progetto.dataset
: il set di dati che contiene la tabella in cui carichi i dati.table
: il nome della tabella in cui stai caricando i dati.path_to_data_file
: la posizione del file di dati CSV o JSON sulla macchina locale o in Cloud Storage.path_to_schema_file
: il percorso del file dello schema sulla macchina locale.
Esempio:
Inserisci il comando seguente per caricare i dati da un file CSV locale denominato
myfile.csv
in mydataset.mytable
nel tuo progetto predefinito. Lo schema è
specificato in myschema.json
nella directory attuale.
bq load --source_format=CSV mydataset.mytable ./myfile.csv ./myschema.json
Python
Prima di provare questo esempio, segui le istruzioni di configurazione di Python nella guida rapida di BigQuery per l'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API BigQuery Python.
Per eseguire l'autenticazione in BigQuery, configura le Credenziali predefinite dell'applicazione. Per saperne di più, vedi Configurare l'autenticazione per le librerie client.
Per caricare uno schema di tabella da un file JSON utilizzando la libreria client Python, chiama il metodo schema_from_json.Specifica di un file di schema durante la creazione di una tabella
Per creare una tabella vuota in un set di dati esistente utilizzando un file di schema JSON:
bq
bq mk --table project_id:dataset.table path_to_schema_file
Sostituisci quanto segue:
project_id
: il tuo ID progetto.dataset
: un set di dati nel tuo progetto.table
: il nome della tabella che stai creando.path_to_schema_file
: il percorso del file dello schema sulla macchina locale.
Ad esempio, il seguente comando crea una tabella denominata mytable
in
mydataset
nel tuo progetto predefinito. Lo schema è specificato in myschema.json
nella directory corrente:
bq mk --table mydataset.mytable ./myschema.json
Python
Prima di provare questo esempio, segui le istruzioni di configurazione di Python nella guida rapida di BigQuery per l'utilizzo delle librerie client. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API BigQuery Python.
Per eseguire l'autenticazione in BigQuery, configura le Credenziali predefinite dell'applicazione. Per saperne di più, vedi Configurare l'autenticazione per le librerie client.
Per caricare uno schema di tabella da un file JSON utilizzando la libreria client Python, chiama il metodo schema_from_json.Specifica di uno schema nell'API
Specifica uno schema della tabella utilizzando l'API:
Per specificare uno schema durante il caricamento dei dati, chiama il metodo
jobs.insert
e configura la proprietàschema
nella risorsaJobConfigurationLoad
.Per specificare uno schema quando crei una tabella, chiama il metodo
tables.insert
e configura la proprietàschema
nella risorsaTable
.
La specifica di uno schema utilizzando l'API è simile alla procedura per creare un file di schema JSON.
Sicurezza delle tabelle
Per controllare l'accesso alle tabelle in BigQuery, vedi Controllare l'accesso alle risorse con IAM.
Passaggi successivi
- Scopri come specificare colonne nidificate e ripetute in una definizione dello schema.
- Scopri di più sul rilevamento automatico dello schema.
- Scopri di più sul caricamento dei dati in BigQuery.
- Scopri di più su come creare e utilizzare le tabelle.