Questa pagina è stata tradotta dall'API Cloud Translation.

Prevedere una singola serie temporale con un modello univariato ARIMA_PLUS

Questo tutorial ti insegna a utilizzare un ARIMA_PLUS modello di serie temporale univariata per prevedere il valore futuro di una determinata colonna in base ai valori storici di quella colonna.

Questo tutorial prevede una singola serie temporale. I valori previsti vengono calcolati una volta per ogni punto temporale nei dati di input.

Questo tutorial utilizza i dati della tabella di esempio pubblica bigquery-public-data.google_analytics_sample.ga_sessions. Questa tabella contiene dati di e-commerce offuscati provenienti dal Google Merchandise Store.

Crea un set di dati

Crea un set di dati BigQuery per archiviare il tuo modello ML.

Console

Nella console Google Cloud , vai alla pagina BigQuery.

Vai alla pagina BigQuery
Nel riquadro Explorer, fai clic sul nome del progetto.
Fai clic su Visualizza azioni > Crea set di dati.
Nella pagina Crea set di dati:
- In ID set di dati, inserisci bqml_tutorial.
- Per Tipo di località, seleziona Multi-regione e poi Stati Uniti (più regioni negli Stati Uniti).
- Lascia invariate le restanti impostazioni predefinite e fai clic su Crea set di dati.

bq

Per creare un nuovo set di dati, utilizza il comando bq mk con il flag --location. Per un elenco completo dei possibili parametri, consulta la documentazione di riferimento del comando bq mk --dataset.

Crea un set di dati denominato bqml_tutorial con la località dei dati impostata su US e una descrizione di BigQuery ML tutorial dataset:
```
bq --location=US mk -d \
 --description "BigQuery ML tutorial dataset." \
 bqml_tutorial
```
Anziché utilizzare il flag --dataset, il comando utilizza la scorciatoia -d. Se ometti -d e --dataset, il comando crea per impostazione predefinita un dataset.
Verifica che il set di dati sia stato creato:
```
bq ls
```

API

Chiama il metodo datasets.insert con una risorsa dataset definita.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

BigQuery DataFrames

Prima di provare questo esempio, segui le istruzioni di configurazione di BigQuery DataFrames nella guida rapida di BigQuery che utilizza BigQuery DataFrames. Per ulteriori informazioni, consulta la documentazione di riferimento di BigQuery DataFrames.

Per eseguire l'autenticazione in BigQuery, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, vedi Configurare ADC per un ambiente di sviluppo locale.

import google.cloud.bigquery

bqclient = google.cloud.bigquery.Client()
bqclient.create_dataset("bqml_tutorial", exists_ok=True)

Visualizzare i dati di input

Prima di creare il modello, puoi visualizzare facoltativamente i dati delle serie temporali di input per farti un'idea della distribuzione. Puoi farlo utilizzando Looker Studio.

Segui questi passaggi per visualizzare i dati delle serie temporali:

SQL

Nella seguente query GoogleSQL, l'istruzione SELECT analizza la colonna date della tabella di input nel tipo TIMESTAMP, la rinomina in parsed_date e utilizza le clausole SUM(...) e GROUP BY date per creare un valore totals.visits giornaliero.

Nella console Google Cloud , vai alla pagina BigQuery.

Vai a BigQuery
Nell'editor di query, incolla la seguente query e fai clic su Esegui:
```
SELECT
PARSE_TIMESTAMP("%Y%m%d", date) AS parsed_date,
SUM(totals.visits) AS total_visits
FROM
`bigquery-public-data.google_analytics_sample.ga_sessions_*`
GROUP BY date;
```
1. Al termine della query, fai clic su Esplora i dati > Esplora con Looker Studio. Looker Studio si apre in una nuova scheda. Completa i seguenti passaggi nella nuova scheda.
2. In Looker Studio, fai clic su Inserisci > Grafico delle serie temporali.
3. Nel riquadro Grafico, scegli la scheda Configurazione.
4. Nella sezione Metrica, aggiungi il campo total_visits e rimuovi la metrica predefinita Conteggio record. Il grafico risultante è simile al seguente:
  
  Osservando il grafico, puoi notare che la serie temporale di input ha un pattern stagionale settimanale.
  
  Nota: per ulteriori informazioni sull'assistenza di Looker Studio, consulta Integrazioni dell'assistenza Looker con Google Cloud.

BigQuery DataFrames

Per eseguire l'autenticazione in BigQuery, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, vedi Configurare ADC per un ambiente di sviluppo locale.

import bigframes.pandas as bpd

# Start by loading the historical data from BigQuerythat you want to analyze and forecast.
# This clause indicates that you are querying the ga_sessions_* tables in the google_analytics_sample dataset.
# Read and visualize the time series you want to forecast.
df = bpd.read_gbq("bigquery-public-data.google_analytics_sample.ga_sessions_*")
parsed_date = bpd.to_datetime(df.date, format="%Y%m%d", utc=True)
parsed_date.name = "parsed_date"
visits = df["totals"].struct.field("visits")
visits.name = "total_visits"
total_visits = visits.groupby(parsed_date).sum()

# Expected output: total_visits.head()
# parsed_date
# 2016-08-01 00:00:00+00:00    1711
# 2016-08-02 00:00:00+00:00    2140
# 2016-08-03 00:00:00+00:00    2890
# 2016-08-04 00:00:00+00:00    3161
# 2016-08-05 00:00:00+00:00    2702
# Name: total_visits, dtype: Int64

total_visits.plot.line()

Il risultato è simile al seguente: Result_visualization

Crea il modello di serie temporali

Crea un modello di serie temporale per prevedere le visite totali al sito rappresentate dalla colonna totals.visits e addestralo sui dati di Google Analytics 360.

SQL

Nella seguente query, la clausola OPTIONS(model_type='ARIMA_PLUS', time_series_timestamp_col='date', ...) indica che stai creando un modello di serie temporale basato su ARIMA. L'opzione auto_arima dell'istruzione CREATE MODEL è impostata su TRUE per impostazione predefinita, quindi l'algoritmo auto.ARIMA ottimizza automaticamente gli iperparametri nel modello. L'algoritmo adatta decine di modelli candidati e sceglie il migliore, ovvero quello con il criterio di informazione di Akaike (AIC) più basso. L'opzione data_frequency delle istruzioni CREATE MODEL è impostata su AUTO_FREQUENCY per impostazione predefinita, pertanto il processo di addestramento deduce automaticamente la frequenza dei dati della serie temporale di input. L'opzione decompose_time_series dell'istruzione CREATE MODEL è impostata su TRUE per impostazione predefinita, in modo che le informazioni sui dati delle serie temporali vengano restituite quando valuti il modello nel passaggio successivo.

Per creare il modello:

Nella console Google Cloud , vai alla pagina BigQuery.

Vai a BigQuery

Nell'editor di query, incolla la seguente query e fai clic su Esegui:

CREATE OR REPLACE MODEL `bqml_tutorial.ga_arima_model`
OPTIONS
(model_type = 'ARIMA_PLUS',
 time_series_timestamp_col = 'parsed_date',
 time_series_data_col = 'total_visits',
 auto_arima = TRUE,
 data_frequency = 'AUTO_FREQUENCY',
 decompose_time_series = TRUE
) AS
SELECT
PARSE_TIMESTAMP("%Y%m%d", date) AS parsed_date,
SUM(totals.visits) AS total_visits
FROM
`bigquery-public-data.google_analytics_sample.ga_sessions_*`
GROUP BY date;

Il completamento della query richiede circa 4 secondi, dopodiché puoi accedere al modello ga_arima_model. Poiché la query utilizza un'istruzione CREATE MODEL per creare un modello, non vengono visualizzati i risultati della query.

BigQuery DataFrames

Per eseguire l'autenticazione in BigQuery, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, vedi Configurare ADC per un ambiente di sviluppo locale.

from bigframes.ml import forecasting
import bigframes.pandas as bpd

# Create a time series model to forecast total site visits:
# The auto_arima option defaults to True, so the auto.ARIMA algorithm automatically
# tunes the hyperparameters in the model.
# The data_frequency option defaults to 'auto_frequency so the training
# process automatically infers the data frequency of the input time series.
# The decompose_time_series option defaults to True, so that information about
# the time series data is returned when you evaluate the model in the next step.
model = forecasting.ARIMAPlus()
model.auto_arima = True
model.data_frequency = "auto_frequency"
model.decompose_time_series = True

# Use the data loaded in the previous step to fit the model
training_data = total_visits.to_frame().reset_index(drop=False)

X = training_data[["parsed_date"]]
y = training_data[["total_visits"]]

model.fit(X, y)

Valutare i modelli candidati

SQL

Valuta i modelli di serie temporali utilizzando la funzione ML.ARIMA_EVALUATE. La funzione ML.ARIMA_EVALUATE mostra le metriche di valutazione di tutti i modelli candidati valutati durante il processo di tuning automatico degli iperparametri.

Per valutare il modello:

Nella console Google Cloud , vai alla pagina BigQuery.

Vai a BigQuery
Nell'editor di query, incolla la seguente query e fai clic su Esegui:
```
SELECT
*
FROM
ML.ARIMA_EVALUATE(MODEL `bqml_tutorial.ga_arima_model`);
```
I risultati dovrebbero essere simili ai seguenti:

BigQuery DataFrames

Per eseguire l'autenticazione in BigQuery, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, vedi Configurare ADC per un ambiente di sviluppo locale.

# Evaluate the time series models by using the summary() function. The summary()
# function shows you the evaluation metrics of all the candidate models evaluated
# during the process of automatic hyperparameter tuning.
summary = model.summary(
    show_all_candidate_models=True,
)
print(summary.peek())

# Expected output:
# row   non_seasonal_p	non_seasonal_d	non_seasonal_q	has_drift	log_likelihood	AIC	variance	seasonal_periods	has_holiday_effect	has_spikes_and_dips	has_step_changes	error_message
#  0	      0	              1	               3	      True	     -2464.255656	4938.511313	     42772.506055	        ['WEEKLY']	            False	        False	            True
#  1	      2	              1	               0	      False	     -2473.141651	4952.283303	     44942.416463	        ['WEEKLY']	            False	        False	            True
#  2	      1	              1	               0 	      False	     -2479.880885	4963.76177	     46642.953433	        ['WEEKLY']	            False	        False	            True
#  3	      0	              1	               1	      False	     -2470.632377	4945.264753	     44319.379307	        ['WEEKLY']	            False	        False	            True
#  4	      2	              1	               1	      True	     -2463.671247	4937.342493	     42633.299513	        ['WEEKLY']	            False	        False	            True

Le colonne di output non_seasonal_p, non_seasonal_d, non_seasonal_q e has_drift definiscono un modello ARIMA nella pipeline di addestramento. Le colonne di output log_likelihood, AIC e variance sono pertinenti per la procedura di adattamento del modello ARIMA.

L'algoritmo auto.ARIMA utilizza il test KPSS per determinare il valore migliore per non_seasonal_d, che in questo caso è 1. Quando non_seasonal_d è 1, l'algoritmo auto.ARIMA addestra 42 diversi modelli ARIMA candidati in parallelo. In questo esempio, tutti i 42 modelli candidati sono validi, quindi l'output contiene 42 righe, una per ogni modello ARIMA candidato; nei casi in cui alcuni modelli non sono validi, vengono esclusi dall'output. Questi modelli candidati vengono restituiti in ordine crescente in base all'AIC. Il modello nella prima riga ha l'AIC più basso ed è considerato il migliore. Il modello migliore viene salvato come modello finale e viene utilizzato quando chiami funzioni come ML.FORECAST sul modello

La colonna seasonal_periods contiene informazioni sul pattern stagionale identificato nei dati delle serie temporali. Non ha nulla a che fare con la modellazione ARIMA, pertanto ha lo stesso valore in tutte le righe di output. Mostra un pattern settimanale, che corrisponde ai risultati visualizzati se hai scelto di visualizzare i dati di input.

Le colonne has_holiday_effect, has_spikes_and_dips e has_step_changes vengono compilate solo quando decompose_time_series=TRUE. Queste colonne riflettono anche informazioni sui dati delle serie temporali di input e non sono correlate alla modellazione ARIMA. Queste colonne hanno anche gli stessi valori in tutte le righe di output.

La colonna error_message mostra gli eventuali errori riscontrati durante il processo di adattamento auto.ARIMA. Uno dei possibili motivi degli errori è che le colonne non_seasonal_p, non_seasonal_d, non_seasonal_q e has_drift selezionate non sono in grado di stabilizzare la serie temporale. Per recuperare il messaggio di errore di tutti i modelli candidati, imposta l'opzione show_all_candidate_models su TRUE quando crei il modello.

Per ulteriori informazioni sulle colonne di output, consulta la funzione ML.ARIMA_EVALUATE.

Ispezionare i coefficienti del modello

SQL

Esamina i coefficienti del modello di serie temporale utilizzando la funzione ML.ARIMA_COEFFICIENTS.

Per recuperare i coefficienti del modello:

Nella console Google Cloud , vai alla pagina BigQuery.

Vai a BigQuery

Nell'editor di query, incolla la seguente query e fai clic su Esegui:

SELECT
*
FROM
ML.ARIMA_COEFFICIENTS(MODEL `bqml_tutorial.ga_arima_model`);

La colonna di output ar_coefficients mostra i coefficienti del modello della parte autoregressiva (AR) del modello ARIMA. Analogamente, la colonna di output ma_coefficients mostra i coefficienti del modello della parte di media mobile (MA) del modello ARIMA. Entrambe queste colonne contengono valori di array, le cui lunghezze sono uguali a non_seasonal_p e non_seasonal_q, rispettivamente. Nell'output della funzione ML.ARIMA_EVALUATE hai visto che il modello migliore ha un valore non_seasonal_p pari a 2 e un valore non_seasonal_q pari a 3. Pertanto, nell'output ML.ARIMA_COEFFICIENTS, il valore ar_coefficients è un array di 2 elementi e il valore ma_coefficients è un array di 3 elementi. Il valore intercept_or_drift è il termine costante nel modello ARIMA.

Per ulteriori informazioni sulle colonne di output, consulta la funzione ML.ARIMA_COEFFICIENTS.

BigQuery DataFrames

Esamina i coefficienti del modello di serie temporale utilizzando la funzione coef_.

Per eseguire l'autenticazione in BigQuery, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, vedi Configurare ADC per un ambiente di sviluppo locale.

coef = model.coef_
print(coef.peek())

# Expected output:
#       ar_coefficients   ma_coefficients   intercept_or_drift
#   0	 [0.40944762]	   [-0.81168198]	      0.0

Utilizzare il modello per prevedere i dati

SQL

Prevedi i valori futuri delle serie temporali utilizzando la funzione ML.FORECAST.

Nella seguente query GoogleSQL, la clausola STRUCT(30 AS horizon, 0.8 AS confidence_level) indica che la query prevede 30 punti temporali futuri e genera un intervallo di previsione con un livello di confidenza dell'80%.

Per prevedere i dati con il modello:

Nella console Google Cloud , vai alla pagina BigQuery.

Vai a BigQuery

Nell'editor di query, incolla la seguente query e fai clic su Esegui:

SELECT
*
FROM
ML.FORECAST(MODEL `bqml_tutorial.ga_arima_model`,
          STRUCT(30 AS horizon, 0.8 AS confidence_level));

I risultati dovrebbero essere simili ai seguenti:

Output di ML.FORECAST.

BigQuery DataFrames

Prevedi i valori futuri delle serie temporali utilizzando la funzione predict.

Per eseguire l'autenticazione in BigQuery, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, vedi Configurare ADC per un ambiente di sviluppo locale.

prediction = model.predict(horizon=30, confidence_level=0.8)

print(prediction.peek())
# Expected output:
#           forecast_timestamp	   forecast_value	standard_error	confidence_level	prediction_interval_lower_bound	    prediction_interval_upper_bound	    confidence_interval_lower_bound	    confidence_interval_upper_bound
# 11	2017-08-13 00:00:00+00:00	1845.439732	      328.060405	      0.8	                 1424.772257	                      2266.107208	                     1424.772257	                     2266.107208
# 29	2017-08-31 00:00:00+00:00	2615.993932	      431.286628	      0.8	                 2062.960849	                      3169.027015	                     2062.960849	                     3169.027015
# 7	    2017-08-09 00:00:00+00:00	2639.285993	      300.301186	      0.8	                 2254.213792	                      3024.358193	                     2254.213792	                     3024.358193
# 25	2017-08-27 00:00:00+00:00	1853.735689	      410.596551	      0.8	                 1327.233216	                      2380.238162	                     1327.233216	                     2380.238162
# 1	    2017-08-03 00:00:00+00:00	2621.33159	      241.093355	      0.8	                 2312.180802	                      2930.482379	                     2312.180802	                     2930.482379

Le righe di output sono in ordine cronologico in base al valore della colonna forecast_timestamp. Nella previsione delle serie temporali, l'intervallo di previsione, rappresentato dai valori delle colonne prediction_interval_lower_bound e prediction_interval_upper_bound, è importante quanto il valore della colonna forecast_value. Il valore forecast_value è il punto medio dell'intervallo di previsione. L'intervallo di previsione dipende dai valori delle colonne standard_error e confidence_level.

Per ulteriori informazioni sulle colonne di output, consulta la funzione ML.FORECAST.

Spiegare i risultati delle previsioni

SQL

Puoi ottenere metriche di interpretabilità oltre ai dati di previsione utilizzando la funzione ML.EXPLAIN_FORECAST. La funzione ML.EXPLAIN_FORECAST prevede i valori futuri delle serie temporali e restituisce anche tutti i componenti separati delle serie temporali.

Analogamente alla funzione ML.FORECAST, la clausola STRUCT(30 AS horizon, 0.8 AS confidence_level) utilizzata nella funzione ML.EXPLAIN_FORECAST indica che la query prevede 30 punti temporali futuri e genera un intervallo di previsione con un livello di confidenza dell'80%.

Per spiegare i risultati del modello:

Nella console Google Cloud , vai alla pagina BigQuery.

Vai a BigQuery
Nell'editor di query, incolla la seguente query e fai clic su Esegui:
```
SELECT
*
FROM
ML.EXPLAIN_FORECAST(MODEL `bqml_tutorial.ga_arima_model`,
 STRUCT(30 AS horizon, 0.8 AS confidence_level));
```
I risultati dovrebbero essere simili ai seguenti:

Le righe di output sono ordinate cronologicamente in base al valore della colonna time_series_timestamp.

Per ulteriori informazioni sulle colonne di output, consulta la funzione ML.EXPLAIN_FORECAST.

BigQuery DataFrames

Puoi ottenere metriche di interpretabilità oltre ai dati di previsione utilizzando la funzione predict_explain. La funzione predict_explain prevede i valori futuri delle serie temporali e restituisce anche tutti i componenti separati delle serie temporali.

Analogamente alla funzione predict, la clausola horizon=30, confidence_level=0.8 utilizzata nella funzione predict_explain indica che la query prevede 30 punti temporali futuri e genera un intervallo di previsione con un livello di confidenza dell'80%.

Per eseguire l'autenticazione in BigQuery, configura le Credenziali predefinite dell'applicazione. Per maggiori informazioni, vedi Configurare ADC per un ambiente di sviluppo locale.

ex_pred = model.predict_explain(horizon=30, confidence_level=0.8)

print(ex_pred.head(4))
# Expected output:
#       time_series_timestamp	  time_series_type	    time_series_data	time_series_adjusted_data	 standard_error	   confidence_level	   prediction_interval_lower_bound	   prediction_interval_upper_bound	  trend	   seasonal_period_yearly	  seasonal_period_quarterly	    seasonal_period_monthly	   seasonal_period_weekly	  seasonal_period_daily	    holiday_effect	   spikes_and_dips	   step_changes	   residual
# 0	  2016-08-01 00:00:00+00:00	      history	             1711.0	               505.716474	           206.939556	         <NA>	                    <NA>	                            <NA>	               0.0	           <NA>	                        <NA>	                     <NA>	                 169.611938	                  <NA>	                <NA>	            <NA>	       1205.283526	   336.104536
# 1	  2016-08-02 00:00:00+00:00	      history	             2140.0	               623.137701	           206.939556	         <NA>	                    <NA>	                            <NA>	            336.104428	       <NA>	                        <NA>	                     <NA>	                 287.033273	                  <NA>	                <NA>	            <NA>	       1205.283526	   311.578773
# 2	  2016-08-03 00:00:00+00:00	      history	             2890.0	               1008.655091	           206.939556	         <NA>	                    <NA>	                            <NA>	            563.514213	       <NA>	                        <NA>	                     <NA>	                 445.140878	                  <NA>	                <NA>	            <NA>	       1205.283526	   676.061383
# 3	  2016-08-04 00:00:00+00:00	      history	             3161.0	               1389.40959	           206.939556	         <NA>	                    <NA>	                            <NA>	            986.317236	       <NA>	                        <NA>	                     <NA>	                 403.092354	                  <NA>	                <NA>	            <NA>	       1205.283526	   566.306884
# 4	  2016-08-05 00:00:00+00:00	      history	             2702.0	               1394.395741	           206.939556	         <NA>	                    <NA>	                            <NA>	            1248.707386	       <NA>	                        <NA>	                     <NA>	                 145.688355	                  <NA>	                <NA>	            <NA>	       1205.283526	   102.320733
# 5	  2016-08-06 00:00:00+00:00	      history	             1663.0	               437.09243	           206.939556	         <NA>	                    <NA>	                            <NA>	            1188.59004	       <NA>	                        <NA>	                     <NA>	                 -751.49761	                  <NA>	                <NA>	            <NA>	       1205.283526	    20.624044

Se vuoi visualizzare i risultati, puoi utilizzare Looker Studio come descritto nella sezione Visualizzare i dati di input per creare un grafico utilizzando le seguenti colonne come metriche:

time_series_data
prediction_interval_lower_bound
prediction_interval_upper_bound
trend
seasonal_period_weekly
step_changes