Generare approfondimenti sui dati in BigQuery

Gli Approfondimenti dei dati sono un modo automatico per esplorare, comprendere e organizzare i dati. Con gli approfondimenti sui dati, Gemini genera domande in linguaggio naturale e le query SQL per rispondere, in base ai metadati della tabella. Questi approfondimenti ti aiutano a individuare pattern, valutare la qualità dei dati ed eseguire analisi statistiche.

Puoi anche utilizzare gli approfondimenti sui dati per generare descrizioni di tabelle e colonne in base ai metadati delle tabelle (Anteprima). Questa funzionalità ti aiuta a documentare i dati per analisi significative e a migliorare la rilevabilità del set di dati.

Questa pagina descrive le funzionalità principali degli approfondimenti sui dati e la procedura per automatizzare la generazione di query per un'esplorazione approfondita dei dati.

Prima di iniziare

Gli approfondimenti sui dati vengono generati utilizzando Gemini in BigQuery. Per iniziare a generare approfondimenti, devi prima configurare Gemini in BigQuery.

Ruoli obbligatori

Per creare, gestire e recuperare approfondimenti sui dati, chiedi all'amministratore di concederti i seguenti ruoli IAM:

Per ottenere l'accesso di sola lettura ai dati generati, chiedi all'amministratore di concederti il seguente ruolo IAM:

Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite ruoli personalizzati o altri ruoli predefiniti. Per visualizzare le autorizzazioni esatte necessarie per generare approfondimenti, espandi la sezione Autorizzazioni richieste:

Autorizzazioni obbligatorie

  • bigquery.jobs.create
  • bigquery.tables.get
  • bigquery.tables.getData
  • dataplex.datascans.create
  • dataplex.datascans.get
  • dataplex.datascans.getData
  • dataplex.datascans.run

Abilita API

Per utilizzare gli approfondimenti sui dati, abilita le seguenti API nel tuo progetto:

Per saperne di più sull'abilitazione dell'API Gemini for Google Cloud, consulta Abilita l'API Gemini for Google Cloud in un Google Cloud progetto.

Informazioni sugli approfondimenti sui dati

Quando esplorano una nuova tabella sconosciuta, gli analisti di dati si trovano spesso a dover affrontare il problema del cold start. Il problema spesso comporta incertezze sulla struttura dei dati, sui pattern chiave e sugli approfondimenti pertinenti al loro interno, rendendo difficile iniziare a scrivere query.

Gli approfondimenti sui dati risolvono il problema del cold start generando automaticamente query in linguaggio naturale e i relativi equivalenti SQL in base ai metadati di una tabella. Anziché iniziare con un editor di query vuoto, puoi iniziare rapidamente l'esplorazione dei dati con query significative che offrono informazioni preziose. Per approfondire, puoi fare domande aggiuntive nel canvas di dati.

Esempio di esecuzione di Approfondimenti

Considera una tabella denominata telco_churn con i seguenti metadati:

Nome campo Tipo
CustomerID STRING
Genere STRING
Periodo di incarico INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Contratto STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Tasso di abbandono BOOLEAN

Di seguito sono riportate alcune delle query di esempio generate da Approfondimenti dei dati per questa tabella:

  • Identifica i clienti che hanno sottoscritto tutti i servizi premium e sono clienti da più di 50 mesi.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Identifica il servizio internet con il maggior numero di clienti dimissionari.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifica i tassi di abbandono per segmento tra i clienti di alto valore.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Best practice per migliorare gli approfondimenti generati

Per migliorare l'accuratezza delle informazioni generate, segui queste best practice:

Basate le informazioni sui risultati della profilazione dei dati

Nell'AI generativa, il grounding è la capacità di collegare l'output del modello a fonti di informazione verificabili. Puoi basare gli approfondimenti generati sui risultati della profilazione dei dati. La profilazione dei dati analizza le colonne nelle tabelle BigQuery e identifica caratteristiche statistiche comuni, come valori di dati e distribuzione dei dati tipici. Quando crei una scansione di profilazione dei dati per una tabella, puoi scegliere di pubblicare i risultati della scansione nelle pagine del Catalogo universale di BigQuery e Dataplex nella Google Cloud console. BigQuery utilizza i risultati del profiling dei dati per creare query più accurate e pertinenti nel seguente modo:

  1. Analizza i risultati della profilazione dei dati per identificare pattern, tendenze o outlier interessanti nei dati.
  2. Genera query incentrate su questi pattern, tendenze o valori anomali per ricavare informazioni.
  3. Convalida le query generate in base ai risultati della profilazione dei dati per garantire che le query restituiscano risultati significativi.

Senza le analisi della profilazione dei dati, si verificano le seguenti situazioni:

  • Le query generate da Gemini hanno maggiori probabilità di includere clausole imprecise o produrre risultati privi di significato.
  • Le descrizioni delle colonne generate da Gemini si basano solo sul nome della colonna.

Assicurati che la scansione del profilo dati per la tabella sia aggiornata e che i risultati siano pubblicati in BigQuery.

Puoi modificare le impostazioni di profilazione dei dati per aumentare la dimensione del campione e eliminare righe e colonne. Dopo aver eseguito una nuova analisi di profilazione dei dati, rigenera le informazioni.

Aggiungere una descrizione della tabella

Descrizioni dettagliate delle tabelle che descrivono cosa vuoi analizzare nella tabella possono aiutare Gemini in BigQuery a produrre approfondimenti più pertinenti. Dopo aver aggiunto una descrizione della tabella, rigenera gli approfondimenti.

Ad esempio, potresti aggiungere la seguente descrizione alla tabella telco_churn: "Questa tabella monitora i dati sulla sfiducia dei clienti, inclusi i dettagli dell'abbonamento, la durata e l'utilizzo del servizio, per prevedere il comportamento di sfiducia dei clienti".

Se salvi la descrizione della tabella generata da Gemini, Gemini la utilizza per generare approfondimenti futuri.

Aggiungi descrizioni delle colonne

Le descrizioni delle colonne che spiegano cosa sono o come una colonna è correlata a un'altra possono migliorare la qualità degli approfondimenti. Dopo aver aggiornato le descrizioni delle colonne nella tabella, rigenera gli approfondimenti.

Ad esempio, puoi aggiungere le seguenti descrizioni a colonne specifiche della tabella telco_churn:

  • Tenure: "Il numero di mesi in cui il cliente utilizza il servizio".
  • Churn: "Indica se il cliente ha smesso di utilizzare il servizio. TRUE indica che il cliente non utilizza più il servizio, FALSE indica che il cliente è attivo."

Se salvi le descrizioni delle colonne generate da Gemini, Gemini le utilizza per generare approfondimenti futuri.

Generare approfondimenti per una tabella BigQuery

Per generare approfondimenti per una tabella BigQuery, devi accedere alla voce della tabella in BigQuery utilizzando BigQuery Studio.

  1. Nella Google Cloud console, vai a BigQuery Studio.

    Vai a BigQuery Studio

  2. Nel riquadro Explorer, seleziona la tabella per la quale vuoi generare informazioni.

  3. Fai clic sulla scheda Approfondimenti. Se la scheda è vuota, significa che le informazioni per questa tabella non sono ancora state generate.

  4. Per attivare la pipeline di approfondimenti, fai clic su Genera approfondimenti.

    L'inserimento degli approfondimenti richiede alcuni minuti.

    Se sono disponibili risultati della profilazione dei dati pubblicati per la tabella, vengono utilizzati per generare approfondimenti. In caso contrario, gli approfondimenti vengono generati in base ai nomi e alle descrizioni delle colonne.

  5. Nella scheda Approfondimenti, esplora le domande in linguaggio naturale generate.

  6. Per visualizzare la query SQL che risponde a una domanda, fai clic sulla domanda.

  7. Per aprire una query in BigQuery, fai clic su Copia in Query.

  8. Per fare domande successive:

    1. Fai clic su Fai una domanda aggiuntiva. La query si apre in un nuovo canvas di dati.

    2. Fai clic su Esegui, quindi su Esegui query su questi risultati.

    3. Per porre una domanda successiva, inserisci un prompt nel campo prompt Linguaggio naturale o modifica il codice SQL nell'editor query.

  9. Per generare un nuovo insieme di query, fai clic su Genera approfondimenti e attiva nuovamente la pipeline.

Dopo aver generato gli approfondimenti per una tabella, chiunque disponga dell'autorizzazione dataplex.datascans.getData e dell'accesso alla tabella può visualizzarli.

Generare approfondimenti per una tabella esterna BigQuery

Le statistiche dei dati di BigQuery supportano la generazione di approfondimenti per le tabelle esterne di BigQuery con dati in Cloud Storage. Tu e l'account di servizio Dataplex Universal Catalog per il progetto corrente dovete disporre del ruolo Visualizzatore oggetti Storage (roles/storage.objectViewer) per il bucket Cloud Storage contenente i dati. Per ulteriori informazioni, consulta Aggiungere un principale a un criterio a livello di bucket.

Per generare approfondimenti per una tabella esterna BigQuery, segui le istruzioni descritte nella sezione Generare approfondimenti per una tabella BigQuery di questo documento.

Generare approfondimenti per una tabella BigLake

Per generare approfondimenti per una tabella BigLake:

  1. Abilita l'API BigQuery Connection nel tuo progetto.

    Attivare l'API BigQuery Connection

  2. Crea una connessione BigQuery. Per saperne di più, consulta Gestire le connessioni.

  3. Concedi il ruolo IAM Storage Object Viewer (roles/storage.objectViewer) all'account di servizio corrispondente alla connessione BigQuery che hai creato.

    Puoi recuperare l'ID account di servizio dai dettagli della connessione.

  4. Per generare approfondimenti, segui le istruzioni descritte nella sezione Generare approfondimenti per una tabella BigQuery di questo documento.

Genera descrizioni di tabelle e colonne

Gemini genera automaticamente descrizioni di tabelle e colonne quando generi insight sui dati. Puoi modificare queste descrizioni in base alle esigenze, quindi salvarle nei metadati della tabella. Gemini utilizza le descrizioni salvate per generare approfondimenti futuri.

Per generare descrizioni di tabelle e colonne:

  1. Genera approfondimenti seguendo le istruzioni descritte nella sezione pertinente di questo documento:

  2. Nella scheda Approfondimenti, fai clic su Visualizza descrizioni delle colonne.

    Vengono visualizzate la descrizione della tabella e le descrizioni delle colonne generate da Gemini.

  3. Per modificare e salvare la descrizione della tabella, fai clic su Salva nei dettagli. Modifica la descrizione della tabella in base alle tue esigenze e poi fai clic su Salva.

  4. Per modificare e salvare le descrizioni delle colonne, fai clic su Salva nello schema. Modifica le descrizioni delle colonne se necessario e poi fai clic su Salva.

Prezzi

Per informazioni dettagliate sui prezzi di questa funzionalità, consulta la panoramica dei prezzi di Gemini in BigQuery.

Quote e limiti

Per informazioni su quote e limiti per questa funzionalità, consulta Quote per Gemini in BigQuery.

Limitazioni

  • Le statistiche dei dati sono disponibili per le tabelle BigQuery, le tabelle BigLake, le tabelle esterne e le viste.
  • Per i clienti multicloud, i dati di altri cloud non sono disponibili.
  • Approfondimenti dei dati non supporta i tipi di colonne Geo o JSON.
  • Le esecuzioni degli approfondimenti non garantiscono la presentazione delle query ogni volta. Per aumentare la probabilità di generare query più coinvolgenti, riavvia la pipeline di insight.
  • Per le tabelle con controllo dell'accesso a livello di colonna (ACL) e autorizzazioni utente limitate, puoi generare approfondimenti se disponi dell'accesso in lettura a tutte le colonne della tabella. Per eseguire le query generate, devi disporre di autorizzazioni sufficienti.
  • Gemini genera descrizioni delle colonne per un massimo di 350 colonne in una tabella.

Località

Puoi utilizzare gli approfondimenti sui dati in tutte le località BigQuery. Gemini in BigQuery opera a livello globale, pertanto non puoi limitare l'elaborazione dei dati a una regione specifica. Per scoprire di più sulle località in cui Gemini in BigQuery elabora i dati, consulta Località di pubblicazione di Gemini.

Passaggi successivi