Prepara i dati con Gemini

Questo documento descrive come generare e gestire i suggerimenti per il codice SQL per la preparazione dei dati in BigQuery.

Per ulteriori informazioni, vedi Introduzione alla preparazione dei dati di BigQuery.

Prima di iniziare

Apri l'editor di preparazione dei dati in BigQuery

Puoi aprire l'editor di preparazione dei dati in BigQuery creando una nuova preparazione dei dati, creandone una da una tabella o un file Cloud Storage esistente oppure aprendone una esistente. Per saperne di più su cosa succede quando crei una preparazione dei dati, consulta Punti di accesso alla preparazione dei dati.

Nella pagina BigQuery, puoi accedere all'editor di preparazione dei dati nei seguenti modi:

Crea nuovo

Per creare una nuova preparazione dei dati in BigQuery, segui questi passaggi:

  1. Nella console Google Cloud , vai alla pagina BigQuery.
    Vai a BigQuery
  2. Vai all'elenco Crea nuovo e fai clic su Preparazione dei dati. L'editor di preparazione dei dati viene visualizzato in una nuova scheda di preparazione dei dati senza titolo.
  3. Nella barra di ricerca dell'editor, inserisci il nome della tabella o le parole chiave e seleziona una tabella. Si apre l'editor di preparazione dei dati per la tabella, che mostra un'anteprima dei dati nella scheda Dati e un insieme iniziale di suggerimenti per la preparazione dei dati di Gemini.
  4. (Facoltativo) Per semplificare la visualizzazione, attiva la modalità a schermo intero facendo clic su Schermo intero Schermo intero.
  5. (Facoltativo) Per visualizzare i dettagli della preparazione dei dati, la cronologia delle versioni, aggiungere nuovi commenti o rispondere a quelli esistenti, utilizza la barra degli strumenti (Anteprima).
  6. Esplora la barra degli strumenti di preparazione dei dati.

Creare da una tabella

Per creare una nuova preparazione dei dati da una tabella esistente:

  1. Nella console Google Cloud , vai alla pagina BigQuery.
    Vai a BigQuery
  2. Nel riquadro Explorer, tieni il puntatore su una tabella.
  3. Fai clic su more_vert Menu > Query in > Preparazione dei dati. Si apre l'editor di preparazione dei dati per la tabella, che mostra un'anteprima dei dati nella scheda Dati e un insieme iniziale di suggerimenti per la preparazione dei dati di Gemini.
  4. (Facoltativo) Per semplificare la visualizzazione, attiva la modalità a schermo intero facendo clic su Schermo intero Schermo intero.
  5. (Facoltativo) Per visualizzare i dettagli della preparazione dei dati, la cronologia delle versioni, aggiungere nuovi commenti o rispondere a quelli esistenti, utilizza la barra degli strumenti (Anteprima).
  6. Esplora la barra degli strumenti di preparazione dei dati.

Crea da un file Cloud Storage

Per creare una nuova preparazione dei dati da un file in Cloud Storage, segui questi passaggi:

Carica il file

  1. Nella console Google Cloud , vai alla pagina BigQuery.
    Vai a BigQuery
  2. Nell'elenco Crea nuovo, fai clic su Preparazione dei dati. L'editor di preparazione dei dati viene visualizzato in una nuova scheda di preparazione dei dati senza titolo.
  3. Nell'elenco delle origini dati, fai clic su Google Cloud Storage. Si apre la finestra di dialogo Prepara dati.
  4. Nella sezione Origine, seleziona il file da un bucket Cloud Storage o inserisci il percorso dell'origine. Ad esempio, inserisci un percorso del file CSV: STORAGE_BUCKET_NAME/FILE_NAME.csv. Sono supportate le ricerche con caratteri jolly, ad esempio *.csv.

    Il formato del file viene rilevato automaticamente. I formati supportati sono Avro, CSV, JSONL, ORC e Parquet. Altri tipi di file compatibili, come DAT, TSV e TXT, vengono letti come formato CSV.
  5. Definisci la tabella di gestione temporanea esterna in cui caricherai i file. Nella sezione Tabella di gestione temporanea, inserisci i nomi del progetto, del set di dati e della tabella per la nuova tabella.
  6. Nella sezione Schema, rivedi lo schema. Gemini controlla il file per i nomi delle colonne. Se non ne trova, fornisce suggerimenti.

    Per impostazione predefinita, il file di preparazione dei dati carica i dati come stringhe. Puoi definire tipi di dati più specifici quando prepari i dati del file.
  7. (Facoltativo) In Opzioni avanzate, puoi aggiungere ulteriori informazioni, ad esempio il numero di errori consentiti prima che il job non vada a buon fine. Gemini offre opzioni aggiuntive in base ai contenuti del file.
  8. Fai clic su Crea. Si apre l'editor di preparazione dei dati per il file, che mostra un'anteprima dei dati nella scheda Dati e un insieme iniziale di suggerimenti per la preparazione dei dati da Gemini.
  9. (Facoltativo) Per semplificare la visualizzazione, attiva la modalità a schermo intero facendo clic su Schermo intero Schermo intero.
  10. (Facoltativo) Per visualizzare i dettagli della preparazione dei dati, la cronologia delle versioni, aggiungere nuovi commenti o rispondere a quelli esistenti, utilizza la barra degli strumenti (Anteprima).
  11. Esplora la barra degli strumenti di preparazione dei dati.

Prepara il file

Nella visualizzazione dei dati, prepara i dati Cloud Storage di staging che hai caricato seguendo questi passaggi:

  1. (Facoltativo) Definisci tipi di dati più efficaci per le colonne pertinenti sfogliando l'elenco dei suggerimenti per le trasformazioni o selezionando una colonna e generando suggerimenti per questa.
  2. (Facoltativo) Definisci le regole di convalida. Per ulteriori informazioni, vedi Configurare la tabella degli errori e aggiungere una regola di convalida.
  3. Aggiungi una tabella di destinazione.
  4. Per caricare i dati di Cloud Storage nella tabella di destinazione, esegui la preparazione dei dati.
  5. (Facoltativo) Pianifica l'esecuzione della preparazione dei dati.
  6. (Facoltativo) Ottimizza la preparazione dei dati elaborandoli in modo incrementale.

Apri esistente

Per aprire l'editor per una preparazione dei dati esistente:

  1. Nella console Google Cloud , vai alla pagina BigQuery.
    Vai a BigQuery
  2. Nel riquadro Explorer, fai clic sul nome del progetto e su Preparazioni dei dati.
  3. Seleziona la preparazione dei dati esistente. Viene visualizzata la visualizzazione a grafico della pipeline di preparazione dei dati.
  4. Seleziona uno dei nodi nel grafico. Si apre l'editor di preparazione dei dati per la tabella, che mostra un'anteprima dei dati nella scheda Dati e un insieme iniziale di suggerimenti per la preparazione dei dati di Gemini.
  5. (Facoltativo) Per semplificare la visualizzazione, attiva la modalità a schermo intero facendo clic su Schermo intero Schermo intero.
  6. (Facoltativo) Per visualizzare i dettagli della preparazione dei dati, la cronologia delle versioni, aggiungere nuovi commenti o rispondere a quelli esistenti, utilizza la barra degli strumenti (Anteprima).
  7. Esplora la barra degli strumenti di preparazione dei dati.

Aggiungere passaggi di preparazione dei dati

Prepara i dati in più passaggi. Puoi visualizzare l'anteprima o applicare i passaggi suggeriti da Gemini. Puoi anche migliorare i suggerimenti o applicare i tuoi passaggi.

Applicare e migliorare i suggerimenti di Gemini

Quando apri l'editor di preparazione dei dati per la tabella, Gemini esamina i dati e lo schema della tabella caricata e genera suggerimenti per filtri e trasformazioni. I suggerimenti vengono visualizzati sulle schede nell'elenco Passi.

L'immagine seguente mostra dove puoi applicare e migliorare i passaggi suggeriti da Gemini:

Visualizzazione dei dati nell'editor di preparazione dei dati che mostra le opzioni per visualizzare l'anteprima, modificare o applicare i suggerimenti di Gemini.

Per applicare un suggerimento di Gemini come passaggio di preparazione dei dati:

  1. Nella visualizzazione dei dati, fai clic sul nome di una colonna o su una cella specifica. Gemini genera suggerimenti per filtrare e trasformare i dati.
  2. (Facoltativo) Per migliorare i suggerimenti, modifica i valori di una o tre celle della tabella per mostrare l'aspetto dei valori in una colonna. Ad esempio, inserisci una data nel modo in cui vuoi formattare tutte le date. Gemini genera nuovi suggerimenti in base alle modifiche apportate.

    L'immagine seguente mostra come modificare i valori per migliorare i passaggi suggeriti da Gemini:

    Migliora i suggerimenti modificando i valori nelle celle per mostrare l'aspetto che dovrebbero avere i valori nella colonna.

  3. Seleziona una scheda di suggerimento.

    1. (Facoltativo) Per visualizzare l'anteprima del risultato della scheda dei suggerimenti, fai clic su Anteprima.
    2. (Facoltativo) Per modificare la scheda dei suggerimenti utilizzando il linguaggio naturale, fai clic su Modifica.
  4. Fai clic su Applica.

Aggiungere passaggi con linguaggio naturale o espressioni SQL

Se i suggerimenti esistenti non soddisfano le tue esigenze, aggiungi un passaggio. Scegli le colonne o un tipo di passaggio, poi descrivi ciò che vuoi utilizzando il linguaggio naturale.

Aggiungere una trasformazione

  1. Nella visualizzazione dati o schema, scegli l'opzione Trasforma. Puoi anche scegliere colonne o aggiungere esempi per aiutare Gemini a comprendere la trasformazione dei dati.
  2. Nel campo Descrizione, inserisci un prompt, ad esempio Convert the state column to uppercase.
  3. Fai clic su Invia Invia.

    Gemini genera un'espressione SQL e una nuova descrizione in base al prompt.

  4. Nell'elenco Colonna target, seleziona o inserisci un nome di colonna.

  5. (Facoltativo) Per aggiornare l'espressione SQL, rivedi il prompt e fai clic su Invia Invia oppure inserisci manualmente un'espressione SQL.

  6. (Facoltativo) Fai clic su Anteprima ed esamina il passaggio.

  7. Fai clic su Applica.

Appiattisci colonne JSON

Per semplificare l'accesso e l'analisi delle coppie chiave-valore, appiattisci le colonne JSON. Ad esempio, se hai una colonna JSON denominata user_properties che contiene le chiavi country e device_type, l'appiattimento di questa colonna estrae country e device_type in colonne di primo livello separate, in modo da poterle utilizzare direttamente nell'analisi.

Gemini in BigQuery suggerisce operazioni che estraggono campi solo dal livello superiore del JSON. Se questi campi estratti contengono altri oggetti JSON, puoi appiattirli in passaggi aggiuntivi per accedere ai loro contenuti.

  1. Nella visualizzazione dei dati per una tabella di origine JSON, scegli una colonna o delle celle.
  2. Fai clic su Appiattisci per generare i suggerimenti.
  3. (Facoltativo) Per aggiornare l'espressione SQL, puoi inserirla manualmente.
  4. (Facoltativo) Fai clic su Anteprima ed esamina il passaggio.
  5. Fai clic su Applica.

L'appiattimento ha i seguenti comportamenti:

  • L'opzione Appiattisci viene visualizzata nella visualizzazione dei dati dopo aver selezionato celle o colonne contenenti JSON. Non viene visualizzato per impostazione predefinita quando fai clic su Aggiungi passaggio.
  • Se una chiave JSON non è presente nelle righe selezionate, il suggerimento generato non contiene quella chiave. Questo problema potrebbe causare l'esclusione di alcune colonne quando i dati vengono appiattiti.
  • Se i nomi delle colonne sono in conflitto durante l'appiattimento, i nomi delle colonne ripetuti terminano con questo formato: _<i>. Ad esempio, se esiste già una colonna denominata address, il nuovo nome della colonna compressa è address_1.
  • I nomi delle colonne appiattite seguono le convenzioni di denominazione delle colonne di BigQuery.
  • Se lasci vuoto il campo della chiave JSON, il formato predefinito del nome colonna è f<i>_.

Appiattire le colonne RECORD o STRUCT

Per semplificare l'accesso e l'analisi dei campi nidificati, appiattisci le colonne con il tipo di dati RECORD o STRUCT. Ad esempio, se hai un record event_log che contiene i campi timestamp e action, l'appiattimento di questo record estrae timestamp e action nelle rispettive colonne di primo livello, in modo da poterle trasformare direttamente.

Questo processo estrae tutte le colonne nidificate dal record, fino a 10 livelli di profondità, e crea una nuova colonna per ciascuna. I nuovi nomi delle colonne vengono creati combinando il nome della colonna principale con il nome del campo nidificato, separati da un trattino basso (ad esempio, PARENT-COLUMN-NAME_FIELD-NAME). La colonna originale viene eliminata. Per mantenere la colonna originale, puoi eliminare il passaggio Elimina colonna dall'elenco Passaggi applicati.

Per appiattire i record:

  1. Nella visualizzazione dei dati di una tabella di origine, scegli una colonna di record.
  2. Fai clic su Appiattisci per generare i suggerimenti.
  3. (Facoltativo) Per aggiornare l'espressione SQL, puoi inserirla manualmente.
  4. (Facoltativo) Fai clic su Anteprima ed esamina il passaggio.
  5. Fai clic su Applica.

Filtra le righe

Per aggiungere un filtro che rimuove le righe:

  1. Nella visualizzazione dati o schema, scegli l'opzione Filtra. Puoi anche scegliere le colonne per aiutare Gemini a comprendere il filtro dei dati.
  2. Nel campo Descrizione, inserisci un prompt, ad esempio Column ID should not be NULL.
  3. Fai clic su Genera. Gemini genera un'espressione SQL e una nuova descrizione in base al prompt.
  4. (Facoltativo) Per aggiornare l'espressione SQL, rivedi il prompt e fai clic su Invia Invia oppure inserisci manualmente un'espressione SQL.
  5. (Facoltativo) Fai clic su Anteprima ed esamina il passaggio.
  6. Fai clic su Applica.

Formato dell'espressione di filtro

Le espressioni SQL per i filtri conservano le righe che corrispondono alla condizione specificata. Questo equivale a un'istruzione SELECT … WHERE SQL_EXPRESSION.

Ad esempio, per conservare i record in cui la colonna year è maggiore o uguale a 2000, la condizione è year >= 2000.

Le espressioni devono seguire la sintassi SQL di BigQuery per la clausola WHERE.

Deduplicare i dati

Per rimuovere le righe duplicate dai dati:

  1. Nella visualizzazione dati o schema, scegli l'opzione Rimuovi duplicati. Gemini fornisce un suggerimento iniziale per la deduplicazione.
  2. (Facoltativo) Per perfezionare il suggerimento, inserisci una nuova descrizione e fai clic su Invia Invia.
  3. (Facoltativo) Per configurare manualmente il passaggio di deduplicazione, utilizza le seguenti opzioni:
    • Nell'elenco Scelta dei record, seleziona una delle seguenti strategie:
      • Prima: per ogni gruppo di righe con gli stessi valori della chiave di deduplicazione, questa strategia sceglie la prima riga in base all'espressione ORDER BY e rimuove le altre.
      • Ultima: per ogni gruppo di righe con gli stessi valori della chiave di deduplicazione, questa strategia sceglie l'ultima riga in base all'espressione ORDER BY e rimuove le altre.
      • Qualsiasi: per ogni gruppo di righe con gli stessi valori della chiave di deduplicazione, questa strategia sceglie una riga del gruppo e rimuove le altre.
      • Distinct: rimuove tutte le righe duplicate in tutte le colonne della tabella.
    • Nel campo Chiavi di deduplica, scegli una o più colonne o espressioni per identificare le righe duplicate. Questo campo è applicabile quando la strategia di scelta del record è Primo, Ultimo o Qualsiasi.
    • Nel campo Espressione di ordinamento, inserisci un'espressione che definisce l'ordine delle righe. Ad esempio, per scegliere la riga più recente, inserisci datetime DESC. Per scegliere la prima riga in ordine alfabetico per nome, inserisci un nome di colonna come last_name. L'espressione segue le stesse regole della clausola ORDER BY standard in BigQuery. Questo campo è applicabile solo quando la strategia di scelta del record è Primo o Ultimo.
  4. (Facoltativo) Fai clic su Anteprima ed esamina il passaggio.
  5. Fai clic su Applica.

Eliminare una colonna

Per eliminare una o più colonne da una preparazione dei dati:

  1. Nella visualizzazione dei dati o dello schema, seleziona le colonne da eliminare.
  2. Fai clic su Declina. Viene aggiunto un nuovo passaggio applicato per le colonne eliminate.

Aggiungere un'operazione di unione con Gemini

Per aggiungere un passaggio di operazione di unione tra due origini nella preparazione dei dati, segui questi passaggi:

  1. Nella visualizzazione dei dati per un nodo nella preparazione dei dati, vai all'elenco Suggerimenti e fai clic sull'opzione Unisci.
  2. Nella finestra di dialogo Aggiungi unione, fai clic su Sfoglia e poi seleziona l'altra tabella coinvolta nell'operazione di unione (denominata lato destro dell'unione).
  3. (Facoltativo) Seleziona il tipo di operazione di unione che vuoi eseguire, ad esempio Unione interna.
  4. Esamina le informazioni sulla chiave di join generate da Gemini nei seguenti campi:

    • Descrizione del join: la descrizione in linguaggio naturale dell'espressione SQL per l'operazione di join. Quando modifichi questa descrizione e fai clic su Invia Invia, Gemini suggerisce nuove condizioni di join SQL.
    • Condizioni di join: le espressioni SQL all'interno della clausola ON per l'operazione di join. Puoi utilizzare i qualificatori L e R per fare riferimento rispettivamente alle tabelle di origine sinistra e destra. Ad esempio, per unire la colonna customer_id della tabella a sinistra alla colonna customer_id della tabella a destra, inserisci L.customerId = R.customerId. Questi qualificatori non sono sensibili alle maiuscole.

  5. (Facoltativo) Per perfezionare i suggerimenti di Gemini, modifica il campo Descrizione della richiesta e poi fai clic su Invia Invia.

  6. (Facoltativo) Per visualizzare l'anteprima delle impostazioni dell'operazione di unione della preparazione dei dati, fai clic su Anteprima.

  7. Fai clic su Applica.

    Viene creato il passaggio dell'operazione di unione. La tabella di origine selezionata (il lato destro del join) e l'operazione di join vengono visualizzate nell'elenco dei passaggi applicati e nei nodi della visualizzazione a grafico della preparazione dei dati.

Dati aggregati

  1. Nella visualizzazione dati o schema, scegli l'opzione Aggrega.
  2. Nel campo Descrizione, inserisci un prompt, ad esempio Find the total revenue for a region.
  3. Fai clic su Invia.

    Gemini genera chiavi di raggruppamento ed espressioni di aggregazione in base al tuo prompt.

  4. (Facoltativo) Modifica le chiavi di raggruppamento o le espressioni di aggregazione generate, se necessario.

  5. (Facoltativo) Puoi aggiungere manualmente chiavi di raggruppamento ed espressioni di aggregazione.

    • Nel campo Chiavi di raggruppamento, inserisci un nome di colonna o un'espressione. Se lo lasci vuoto, la tabella risultante ha una riga. Se inserisci un'espressione, questa deve avere un alias (una clausola AS), ad esempio EXTRACT(YEAR FROM order_date) AS order_year. Non sono consentiti duplicati.
    • Nel campo Espressioni di aggregazione, inserisci un'espressione di aggregazione che abbia un alias (una clausola AS), ad esempio SUM(quantity) AS total_quantity. Puoi inserire più espressioni separate da virgole. Non sono ammessi duplicati. Per un elenco delle espressioni di aggregazione supportate, vedi Funzioni aggregate.
  6. (Facoltativo) Fai clic su Anteprima ed esamina il passaggio.

  7. Fai clic su Applica.

Configura la tabella degli errori e aggiungi una regola di convalida

Puoi aggiungere un filtro che crea una regola di convalida, che invia gli errori a una tabella degli errori o non riesce a eseguire la preparazione dei dati.

Configurare la tabella degli errori

Per configurare la tabella degli errori:

  1. Nell'editor di preparazione dei dati, vai alla barra degli strumenti e fai clic su Altro > Tabella degli errori.
  2. Fai clic su Abilita tabella degli errori.
  3. Definisci la posizione della tabella.
  4. (Facoltativo) Definisci una durata massima per la conservazione degli errori.
  5. Fai clic su Salva.

Aggiungi una regola di convalida

Per aggiungere una regola di convalida:

  1. Nella visualizzazione dei dati o dello schema, fai clic sull'opzione Filtro. Puoi anche scegliere le colonne per aiutare Gemini a comprendere il filtro dei dati.
  2. Inserisci una descrizione per il passaggio.
  3. Inserisci un'espressione SQL sotto forma di clausola WHERE.
  4. (Facoltativo) Se vuoi che l'espressione SQL funga da regola di convalida, seleziona la casella di controllo Le righe di convalida con errori vengono inviate alla tabella degli errori. Puoi anche modificare un filtro in una convalida nella barra degli strumenti di preparazione dei dati facendo clic su Altro > Tabella degli errori.
  5. (Facoltativo) Fai clic su Anteprima ed esamina il passaggio.
  6. Fai clic su Applica.

Aggiungere o modificare una tabella di destinazione

Per aggiungere o modificare una tabella di destinazione per l'output della preparazione dei dati:

  1. Nella visualizzazione dati o schema, scegli l'opzione Destinazione.
  2. Seleziona il progetto in cui è archiviata la tabella di destinazione.
  3. Seleziona uno dei set di dati o carica un nuovo set di dati.
  4. Inserisci una tabella di destinazione. Se la tabella non esiste, la preparazione dei dati ne crea una nuova alla prima esecuzione. Per ulteriori informazioni, vedi Modalità Scrittura.
  5. Seleziona il tuo set di dati come set di dati di destinazione.
  6. Fai clic su Salva.

Visualizzare il campione di dati e lo schema per un passaggio applicato

Per visualizzare i dettagli del campione e dello schema in un determinato passaggio della preparazione dei dati:

  1. Nell'editor di preparazione dei dati, vai all'elenco Passaggi e fai clic su Passaggi applicati.
  2. Seleziona un passaggio. Vengono visualizzate le schede Dati e Schema, che mostrano il campione di dati e lo schema in questo passaggio specifico.

Modificare un passaggio applicato

Per modificare un passaggio applicato:

  1. Nell'editor di preparazione dei dati, vai all'elenco Passaggi e fai clic su Passaggi applicati.
  2. Seleziona un passaggio.
  3. Accanto al passaggio, fai clic su more_vert Menu > Modifica.
  4. Nella finestra di dialogo Modifica passaggio applicato, puoi eseguire le seguenti operazioni:
    • Modifica la descrizione del passaggio.
    • Ricevi suggerimenti da Gemini modificando la descrizione e facendo clic su Invia Invia.
    • Modifica l'espressione SQL.
  5. Nel campo Colonna target, seleziona una colonna.
  6. (Facoltativo) Fai clic su Anteprima ed esamina il passaggio.
  7. Fai clic su Applica.

Eliminare un passaggio applicato

Per eliminare un passaggio applicato:

  1. Nell'editor di preparazione dei dati, vai all'elenco Passaggi e fai clic su Passaggi applicati.
  2. Seleziona un passaggio.
  3. Fai clic su more_vert Menu > Elimina.

Esegui la preparazione dei dati

Dopo aver aggiunto i passaggi di preparazione dei dati, configurato la destinazione e corretto eventuali errori di convalida, puoi eseguire test su un campione di dati oppure implementare i passaggi e pianificare le esecuzioni della preparazione dei dati. Per saperne di più, consulta Pianificare le preparazioni dei dati.

Aggiornare i campioni di preparazione dei dati

I dati nel campione non vengono aggiornati automaticamente. Se i dati nelle tabelle di origine per la preparazione dei dati sono cambiati, ma le modifiche non vengono riflesse nel campione di dati della preparazione, fai clic su Altro > Aggiorna campione.

Passaggi successivi