Ottenere approfondimenti sui dati da un modello di analisi del contributo utilizzando una metrica sommabile

In questo tutorial utilizzi un modello di analisi del contributo per analizzare le variazioni delle vendite tra il 2020 e il 2021 nel set di dati sulle vendite di alcolici nell'Iowa. Questo tutorial ti guida nell'esecuzione delle seguenti attività:

  • Crea una tabella di input basata sui dati sui liquori dell'Iowa disponibili pubblicamente.
  • Crea un modello di analisi del contributo che utilizzi una metrica sommabile. Questo tipo di modello riassume una determinata metrica per una combinazione di una o più dimensioni nei dati, per determinare il contributo di queste dimensioni al valore della metrica.
  • Ottieni informazioni sulle metriche del modello utilizzando la funzione ML.GET_INSIGHTS.

Prima di iniziare questo tutorial, devi conoscere il caso d'uso dell'analisi dei contributi.

Autorizzazioni obbligatorie

  • Per creare il set di dati, devi disporre dell'autorizzazione bigquery.datasets.create Identity and Access Management (IAM).

  • Per creare il modello, devi disporre delle seguenti autorizzazioni:

    • bigquery.jobs.create
    • bigquery.models.create
    • bigquery.models.getData
    • bigquery.models.updateData
  • Per eseguire l'inferenza, devi disporre delle seguenti autorizzazioni:

    • bigquery.models.getData
    • bigquery.jobs.create

Costi

In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:

  • BigQuery ML: You incur costs for the data that you process in BigQuery.

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi Google Cloud utenti potrebbero avere diritto a una prova gratuita.

Per ulteriori informazioni sui prezzi di BigQuery, consulta la sezione Prezzi di BigQuery della documentazione di BigQuery.

Prima di iniziare

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Make sure that billing is enabled for your Google Cloud project.

  3. Enable the BigQuery API.

    Enable the API

Crea un set di dati

Crea un set di dati BigQuery per archiviare il tuo modello ML.

Console

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai alla pagina BigQuery

  2. Nel riquadro Explorer, fai clic sul nome del progetto.

  3. Fai clic su Visualizza azioni > Crea set di dati.

    L'opzione di menu Crea set di dati.

  4. Nella pagina Crea set di dati:

    • In ID set di dati, inserisci bqml_tutorial.

    • Per Tipo di località, seleziona Più regioni e poi Stati Uniti (più regioni negli Stati Uniti).

    • Lascia invariate le restanti impostazioni predefinite e fai clic su Crea set di dati.

bq

Per creare un nuovo set di dati, utilizza il comando bq mk con il flag --location. Per un elenco completo dei possibili parametri, consulta la documentazione di riferimento del comando bq mk --dataset.

  1. Crea un set di dati denominato bqml_tutorial con la posizione dei dati impostata su US e una descrizione di BigQuery ML tutorial dataset:

    bq --location=US mk -d \
     --description "BigQuery ML tutorial dataset." \
     bqml_tutorial

    Anziché utilizzare il flag --dataset, il comando utilizza la scorciatoia -d. Se ometti -d e --dataset, il comando crea per impostazione predefinita un set di dati.

  2. Verifica che il set di dati sia stato creato:

    bq ls

API

Chiama il metodo datasets.insert con una risorsa set di dati definita.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

Crea una tabella di dati di input

Crea una tabella contenente i dati di test e di controllo da analizzare. La tabella di test contiene i dati sul liquore del 2021 e la tabella di controllo contiene i dati sul liquore del 2020. La seguente query combina i dati di test e di controllo in un'unica tabella di input:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nell'editor di query, esegui la seguente istruzione:

    CREATE OR REPLACE TABLE bqml_tutorial.iowa_liquor_sales_sum_data AS (
      (SELECT
        store_name,
        city,
        vendor_name,
        category_name,
        item_description,
        SUM(sale_dollars) AS total_sales,
        FALSE AS is_test
      FROM `bigquery-public-data.iowa_liquor_sales.sales`
      WHERE EXTRACT(YEAR from date) = 2020
      GROUP BY store_name, city, vendor_name, category_name, item_description, is_test)
      UNION ALL
      (SELECT
        store_name,
        city,
        vendor_name,
        category_name,
        item_description,
        SUM(sale_dollars) AS total_sales,
        TRUE AS is_test
      FROM `bigquery-public-data.iowa_liquor_sales.sales`
      WHERE EXTRACT (YEAR FROM date) = 2021
      GROUP BY store_name, city, vendor_name, category_name, item_description, is_test)
    );

Crea il modello

Crea un modello di analisi dei contributi:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nell'editor di query, esegui la seguente istruzione:

    CREATE OR REPLACE MODEL bqml_tutorial.iowa_liquor_sales_sum_model
      OPTIONS(
        model_type='CONTRIBUTION_ANALYSIS',
        contribution_metric = 'sum(total_sales)',
        dimension_id_cols = ['store_name', 'city', 'vendor_name', 'category_name',
          'item_description'],
        is_test_col = 'is_test',
        min_apriori_support=0.05
      ) AS
    SELECT * FROM bqml_tutorial.iowa_liquor_sales_sum_data;

Il completamento della query richiede circa 60 secondi, dopodiché il modelloiowa_liquor_sales_sum_model viene visualizzato nel set di dati bqml_tutorial nel riquadro Esplorazione. Poiché la query utilizza un'istruzione CREATE MODEL per creare un modello, non ci sono risultati della query.

Ottenere approfondimenti dal modello

Ottieni approfondimenti generati dal modello di analisi dei contributi utilizzando la funzione ML.GET_INSIGHTS.

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nell'editor di query, esegui la seguente istruzione per selezionare le colonne dall'output per un modello di analisi del contributo delle metriche sommabili:

    SELECT
      contributors,
      metric_test,
      metric_control,
      difference,
      relative_difference,
      unexpected_difference,
      relative_unexpected_difference,
      apriori_support,
      contribution
    FROM
      ML.GET_INSIGHTS(
        MODEL `bqml_tutorial.iowa_liquor_sales_sum_model`);

Le prime righe dell'output dovrebbero essere simili alle seguenti. I valori vengono troncati per migliorare la leggibilità.

di lingua russa. metric_test metric_control differenza relative_difference unexpected_difference relative_unexpected_difference apriori_support contributo
tutte 428068179 396472956 31595222 0,079 31595222 0,079 1.0 31595222
vendor_name=SAZERAC COMPANY INC 52327307 38864734 13462573 0,346 11491923 0,281 0,122 13462573
city=DES MOINES 49521322 41746773 7774549 0,186 4971158 0,111 0,115 7774549
vendor_name=DIAGEO AMERICAS 84681073 77259259 7421814 0,096 1571126 0,018 0,197 7421814
category_name=100% AGAVE TEQUILA 23915100 17252174 6662926 0,386 5528662 0,3 0,055 6662926

L'output viene ordinato automaticamente in base al contributo, ovvero a ABS(difference), in ordine decrescente. Nella riga all, la colonna difference mostra che dal 2020 al 2021 le vendite totali sono aumentate di 31.595.222 $, ovvero del 7,9% come indicato dalla colonna relative_difference. Nella seconda riga, con vendor_name=SAZERAC COMPANY INC, è stato registrato un unexpected_difference di 11.491.923 $, il che significa che questo segmento di dati è cresciuto del 28% in più rispetto alla crescita dei dati nel loro complesso, come si vede dalla colonna relative_unexpected_difference. Per ulteriori informazioni, consulta le colonne di output delle metriche sommabili.

Esegui la pulizia

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.