Utilizzare le viste materializzate
Questo documento fornisce ulteriori informazioni sulle viste materializzate e su come utilizzarle. Prima di leggere questo documento, familiarizza con Introduzione alle viste materializzate e Creare viste materializzate.
Esegui query sulle viste materializzate
Puoi eseguire query direttamente sulle viste materializzate, allo stesso modo in cui esegui query su una tabella normale o una vista standard. Le query sulle viste materializzate sono sempre coerenti con le query sulle tabelle di base della vista, anche se queste tabelle sono cambiate dall'ultima volta che la vista materializzata è stata aggiornata. L'esecuzione di query non attiva automaticamente un aggiornamento materializzato.
Ruoli obbligatori
Per ottenere le autorizzazioni
necessarie per eseguire query su una vista materializzata,
chiedi all'amministratore di concederti
il ruolo IAM Visualizzatore dati BigQuery (roles/bigquery.dataViewer
)
nella tabella di base della vista materializzata e nella vista materializzata stessa.
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Questo ruolo predefinito contiene le autorizzazioni necessarie per eseguire query su una vista materializzata. Per vedere quali sono esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie:
Autorizzazioni obbligatorie
Per eseguire query su una vista materializzata sono necessarie le seguenti autorizzazioni:
-
bigquery.tables.get
-
bigquery.tables.getData
Potresti anche ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.
Queste autorizzazioni sono necessarie per le query per usufruire dell'ottimizzazione intelligente.
Per saperne di più sui ruoli IAM in BigQuery, consulta Introduzione a IAM.
Aggiornamenti incrementali
Gli aggiornamenti incrementali si verificano quando BigQuery combina i dati della vista memorizzata nella cache con i nuovi dati per fornire risultati delle query coerenti utilizzando comunque la vista materializzata. Per le viste materializzate a una sola tabella, ciò è possibile se la tabella di base è rimasta invariata dall'ultimo aggiornamento o se sono stati aggiunti solo nuovi dati. Per le visualizzazioni JOIN
, solo le tabelle sul lato sinistro di JOIN
possono avere
dati aggiunti. Se una delle tabelle sul lato destro di un JOIN
è stata modificata,
la visualizzazione non può essere aggiornata in modo incrementale.
Se la tabella di base è stata aggiornata o sono state eliminate righe dall'ultimo aggiornamento oppure se le tabelle di base della vista materializzata sul lato destro di JOIN
sono cambiate, BigQuery non utilizza gli aggiornamenti incrementali e ripristina automaticamente la query originale. Per ulteriori informazioni sui join
e sulle viste materializzate, consulta la sezione
Join. Di seguito sono riportati
esempi di azioni di console, strumento a riga di comando bq e API Google Cloud che possono causare un
aggiornamento o un'eliminazione:
- Istruzioni DML (Data Manipulation Language)
UPDATE
,MERGE
oDELETE
- Troncamento
- Scadenza partizione
Anche le seguenti operazioni sui metadati impediscono l'aggiornamento incrementale di una vista materializzata:
- Modificare la scadenza della partizione
- Aggiornamento o eliminazione di una colonna
Se una vista materializzata non può essere aggiornata in modo incrementale, i dati memorizzati nella cache non vengono utilizzati dalle query finché la vista non viene aggiornata automaticamente o manualmente. Per informazioni dettagliate sul motivo per cui un job non ha utilizzato i dati della vista materializzata, consulta Informazioni sul motivo per cui le viste materializzate sono state rifiutate. Inoltre, le viste materializzate non possono essere aggiornate in modo incrementale se la tabella di base ha accumulato modifiche non elaborate per un periodo di tempo superiore all'intervallo di time travel della tabella.
Allineamento delle partizioni
Se una vista materializzata è partizionata, BigQuery assicura che le relative partizioni siano allineate alle partizioni della colonna di partizionamento della tabella di base. Allineato significa che i dati di una determinata partizione della
tabella di base contribuiscono alla stessa partizione della vista materializzata. Ad esempio, una riga della partizione 20220101
della tabella di base contribuirebbe solo alla partizione 20220101
della vista materializzata.
Quando una vista materializzata viene partizionata, il comportamento descritto in Aggiornamenti incrementali si verifica per ogni singola partizione in modo indipendente. Ad esempio, se i dati vengono eliminati in una partizione della tabella di base, BigQuery può comunque utilizzare le altre partizioni della visualizzazione materializzata senza richiedere un aggiornamento completo dell'intervista materializzataata.
Le viste materializzate con inner join possono essere allineate solo a una delle tabelle di base. Se una delle tabelle base non allineate cambia, l'intera visualizzazione viene interessata.
Ottimizzazione intelligente
BigQuery riscrive automaticamente le query per utilizzare le viste materializzate ogni volta che è possibile. La riscrittura automatica migliora le prestazioni delle query e riduce i costi senza modificare i risultati delle query. L'esecuzione di query non attiva automaticamente un aggiornamento materializzato. Affinché una query venga riscritta utilizzando l'ottimizzazione intelligente, la vista materializzata deve soddisfare le seguenti condizioni:
- Appartenere allo stesso progetto di una delle tabelle di base o al progetto in cui viene eseguita la query.
- Utilizza lo stesso insieme di tabelle di base della query.
- Includi tutte le colonne lette.
- Includi tutte le righe lette.
La sintonizzazione intelligente non è supportata per quanto segue:
- Viste materializzate che fanno riferimento a viste logiche.
- Viste materializzate con union all o left outer join.
- Viste materializzate non incrementali.
- Viste materializzate che fanno riferimento a tabelle con Change Data Capture abilitato.
Esempi di ottimizzazione intelligente
Considera il seguente esempio di query della vista materializzata:
SELECT store_id, CAST(sold_datetime AS DATE) AS sold_date SUM(net_profit) AS sum_profit FROM dataset.store_sales WHERE CAST(sold_datetime AS DATE) >= '2021-01-01' AND promo_id IS NOT NULL GROUP BY 1, 2
I seguenti esempi mostrano query e perché queste query vengono o non vengono riscritte automaticamente utilizzando questa visualizzazione:
Query | Riscrivere? | Motivo |
---|---|---|
SELECT SUM(net_paid) AS sum_paid, SUM(net_profit) AS sum_profit FROM dataset.store_sales WHERE CAST(sold_datetime AS DATE) >= '2021-01-01' AND promo_id IS NOT NULL |
No | La visualizzazione deve includere tutte le colonne in lettura. La visualizzazione non include "SUM(net_paid)". |
SELECT SUM(net_profit) AS sum_profit FROM dataset.store_sales WHERE CAST(sold_datetime AS DATE) >= '2021-01-01' AND promo_id IS NOT NULL |
Sì | |
SELECT SUM(net_profit) AS sum_profit FROM dataset.store_sales WHERE CAST(sold_datetime AS DATE) >= '2021-01-01' AND promo_id IS NOT NULL AND customer_id = 12345 |
No | La visualizzazione deve includere tutte le colonne in lettura. La visualizzazione non include "cliente". |
SELECT SUM(net_profit) AS sum_profit FROM dataset.store_sales WHERE sold_datetime= '2021-01-01' AND promo_id IS NOT NULL |
No | La visualizzazione deve includere tutte le colonne in lettura. "sold_datetime" non è un output (ma "CAST(sold_datetime AS DATE)" lo è). |
SELECT SUM(net_profit) AS sum_profit FROM dataset.store_sales WHERE CAST(sold_datetime AS DATE) >= '2021-01-01' AND promo_id IS NOT NULL AND store_id = 12345 |
Sì | |
SELECT SUM(net_profit) AS sum_profit FROM dataset.store_sales WHERE CAST(sold_datetime AS DATE) >= '2021-01-01' AND promo_id = 12345 |
No | La visualizzazione deve includere tutte le righe lette. "promo_id" non è un output, quindi il filtro più restrittivo non può essere applicato alla visualizzazione. |
SELECT SUM(net_profit) AS sum_profit FROM dataset.store_sales WHERE CAST(sold_datetime AS DATE) >= '2020-01-01' |
No | La visualizzazione deve includere tutte le righe lette. Il filtro della vista per le date del 2021 e successive, ma la query legge le date del 2020. |
SELECT SUM(net_profit) AS sum_profit FROM dataset.store_sales WHERE CAST(sold_datetime AS DATE) >= '2022-01-01' AND promo_id IS NOT NULL |
Sì |
Scopri se una query è stata riscritta
Per capire se una query è stata riscritta dalla regolazione intelligente per utilizzare una vista materializzata, esamina il piano di query. Se la
query è stata riscritta, il piano di query contiene un passaggio READ my_materialized_view
, dove my_materialized_view
è il nome della vista materializzata utilizzata. Per
capire perché una query non ha utilizzato una vista materializzata, consulta Capire perché
le viste materializzate sono state rifiutate.
Perché le viste materializzate sono state rifiutate
Se hai disattivato l'aggiornamento automatico per la vista materializzata e la tabella contiene modifiche non elaborate, la query potrebbe essere più veloce per diversi giorni, ma poi tornare alla query originale, con conseguente velocità di elaborazione più lenta. Per usufruire delle viste materializzate, attiva l'aggiornamento automatico o aggiorna manualmente regolarmente e monitora i job di aggiornamento dellevista materializzatae per verificare che vengano completati.
I passaggi per capire perché una vista materializzata è stata rifiutata dipendono dal tipo di query che hai utilizzato:
- Query diretta della vista materializzata
- Query indiretta in cui l'ottimizzazione intelligente potrebbe scegliere di utilizzare la vista materializzata
Le sezioni seguenti forniscono i passaggi per aiutarti a capire perché una vista materializzata è stata rifiutata.
Query diretta delle viste materializzate
Le query dirette delle viste materializzate potrebbero non utilizzare i dati memorizzati nella cache in determinate circostanze. I seguenti passaggi possono aiutarti a capire perché i dati della vista materializzata non sono stati utilizzati:
- Segui i passaggi descritti in Monitorare l'utilizzo della vista materializzata e trova la vista materializzata di destinazione nel campo
materialized_view_statistics
per la query. - Se
chosen
è presente nelle statistiche e il suo valore èTRUE
, la query utilizza la vista materializzata. - Controlla il campo
rejected_reason
per trovare i passaggi successivi. Nella maggior parte dei casi, puoi aggiornare manualmente la vista materializzata o attendere il successivo aggiornamento automatico.
Query con ottimizzazione intelligente
- Segui i passaggi descritti in Monitorare l'utilizzo
della vista materializzata
e trova la vista materializzata di destinazione in
materialized_view_statistics
per la query. - Consulta la
rejected_reason
per i passaggi successivi. Ad esempio, se il valore direjected_reason
èCOST
, l'ottimizzazione intelligente ha identificato origini dati più efficienti per costi e rendimento. - Se la vista materializzata non è presente, prova una query diretta della vista materializzata e segui i passaggi descritti in Query diretta delle viste materializzate.
- Se la query diretta non utilizza la vista materializzata, la forma della vista materializzata non corrisponde alla query. Per saperne di più sull'ottimizzazione intelligente e su come le query vengono riscritte utilizzando le viste materializzate, consulta Esempi di ottimizzazione intelligente.
Domande frequenti
Quando dovrei utilizzare le query pianificate anziché le viste materializzate?
Le query pianificate sono un modo pratico per eseguire periodicamente calcoli arbitrariamente complessi. Ogni volta che viene eseguita, la query viene eseguita completamente, senza alcun vantaggio derivante dai risultati precedenti, e paghi l'intero costo di calcolo per la query. Le query pianificate sono ideali quando non hai bisogno dei dati più recenti e hai un'elevata tolleranza per l'obsolescenza dei dati.
Le viste materializzate sono più adatte quando devi eseguire query sui dati più recenti
con latenza e costi ridotti riutilizzando il risultato calcolato in precedenza.
Puoi utilizzare le viste materializzate come pseudo-indici, accelerando le query alla
tabella di base senza aggiornare i flussi di lavoro esistenti. L'opzione --max_staleness
ti consente di definire l'obsolescenza accettabile per le tue viste materializzate, fornendo
prestazioni elevate e coerenti con costi controllati durante l'elaborazione
di set di dati di grandi dimensioni e in continua evoluzione.
Come linea guida generale, utilizza le viste materializzate quando possibile e se non esegui calcoli arbitrariamente complessi.
Alcune query sulle viste materializzate sono più lente delle stesse query sulle tabelle materializzate manualmente. Perché?
In generale, una query su una vista materializzata non è sempre efficiente come una query sulla tabella materializzata equivalente. Il motivo è che le viste materializzate restituiscono sempre risultati aggiornati e devono tenere conto delle modifiche apportate alle tabelle di base dall'ultimo aggiornamento della vista.
Considera questo scenario:
CREATE MATERIALIZED VIEW my_dataset.my_mv AS SELECT date, customer_id, region, SUM(net_paid) as total_paid FROM my_dataset.sales GROUP BY 1, 2, 3; CREATE TABLE my_dataset.my_materialized_table AS SELECT date, customer_id, region, SUM(net_paid) as total_paid FROM my_dataset.sales GROUP BY 1, 2, 3;
Ad esempio, questa query:
SELECT * FROM my_dataset.my_mv LIMIT 10
SELECT * FROM my_dataset.my_materialized_table LIMIT 10
D'altra parte, le aggregazioni sulle viste materializzate sono in genere veloci come le query sulla tabella materializzata. Ad esempio:
SELECT SUM(total_paid) FROM my_dataset.my_mv WHERE date > '2020-12-01'
SELECT SUM(total_paid) FROM my_dataset.my_materialized_table WHERE date > '2020-12-01'