Gestire gli indici di ricerca
Un indice di ricerca è una struttura di dati progettata per consentire una ricerca molto efficiente con la funzione SEARCH
. Un indice di ricerca può anche ottimizzare alcune query che utilizzano funzioni e operatori supportati.
Molto simile all'indice che trovi nella parte posteriore di un libro, un indice di ricerca per una colonna di dati di stringa agisce come una tabella ausiliaria con una colonna per le parole univoche e un'altra per la posizione in cui queste parole si verificano nei dati.
Creare un indice di ricerca
Per creare un indice di ricerca, utilizza l'istruzione DDL
CREATE SEARCH INDEX
. Per specificare i tipi di dati primitivi da indicizzare, consulta
Creare un indice di ricerca e specificare le colonne e i tipi di dati. Se
non specifichi alcun tipo di dati, per impostazione predefinita BigQuery
indicizza le colonne dei seguenti tipi che contengono dati STRING
:
STRING
ARRAY<STRING>
STRUCT
contenente almeno un campo nidificato di tipoSTRING
oARRAY<STRING>
JSON
Quando crei un indice di ricerca, puoi specificare il tipo di strumento di analisi del testo da utilizzare. L'analizzatore di testo controlla la tokenizzazione dei dati per l'indicizzazione e la ricerca. Il valore predefinito è LOG_ANALYZER
. Questo analizzatore è ideale per i log generati dalle macchine e dispone di regole speciali per i token comunemente presenti nei dati di osservabilità, come indirizzi IP o email. Utilizza NO_OP_ANALYZER
quando hai dati pre-elaborati che vuoi associare esattamente.
PATTERN_ANALYZER
estrae i token dal testo utilizzando un'espressione regolare.
Creare un indice di ricerca con l'analizzatore di testo predefinito
Nell'esempio seguente, viene creato un indice di ricerca nelle colonne a
e c
di
simple_table
e per impostazione predefinita viene utilizzato l'analizzatore di testo LOG_ANALYZER
:
CREATE TABLE dataset.simple_table(a STRING, b INT64, c JSON); CREATE SEARCH INDEX my_index ON dataset.simple_table(a, c);
Crea un indice di ricerca per tutte le colonne con l'analizzatore NO_OP_ANALYZER
Quando crei un indice di ricerca su ALL COLUMNS
, tutti i dati STRING
o JSON
nella tabella vengono indicizzati. Se la tabella non contiene dati di questo tipo, ad esempio se tutte le colonne contengono numeri interi, la creazione dell'indice non va a buon fine. Quando specifichi una colonna STRUCT
da indicizzare, vengono indicizzati tutti i sottocampi nidificati.
Nell'esempio seguente viene creato un indice di ricerca su a
, c.e
e c.f.g
e viene utilizzato l'analizzatore di testo NO_OP_ANALYZER
:
CREATE TABLE dataset.my_table( a STRING, b INT64, c STRUCT <d INT64, e ARRAY<STRING>, f STRUCT<g STRING, h INT64>>) AS SELECT 'hello' AS a, 10 AS b, (20, ['x', 'y'], ('z', 30)) AS c; CREATE SEARCH INDEX my_index ON dataset.my_table(ALL COLUMNS) OPTIONS (analyzer = 'NO_OP_ANALYZER');
Poiché l'indice di ricerca è stato creato il giorno ALL COLUMNS
, tutte le colonne aggiunte alla tabella vengono indicizzate automaticamente se contengono dati STRING
.
Crea un indice di ricerca e specifica le colonne e i tipi di dati
Quando crei un indice di ricerca, puoi specificare i tipi di dati da utilizzare. I tipi di dati controllano i tipi di colonne e sottocampi delle colonne JSON
e STRUCT
per l'indicizzazione. Il tipo di dati predefinito per l'indicizzazione è STRING
. Per creare un indice di ricerca con più tipi di dati (ad es. tipi numerici), utilizza l'istruzione CREATE SEARCH INDEX
con l'opzione data_types
inclusa.
Nell'esempio seguente viene creato un indice di ricerca per le colonne a
, b
, c
e
d
di una tabella denominata simple_table
. I tipi di dati delle colonne supportati sono
STRING
, INT64
e TIMESTAMP
.
CREATE TABLE dataset.simple_table(a STRING, b INT64, c JSON, d TIMESTAMP); CREATE SEARCH INDEX my_index ON dataset.simple_table(a, b, c, d) OPTIONS ( data_types = ['STRING', 'INT64', 'TIMESTAMP']);
Crea un indice di ricerca in tutte le colonne e specifica i tipi di dati
Quando crei un indice di ricerca su ALL COLUMNS
con l'opzione data_types
specificata, viene indicizzata qualsiasi colonna che corrisponda a uno dei tipi di dati specificati.
Per le colonne JSON
e STRUCT
, viene indicizzato qualsiasi sottocampo nidificato che corrisponde a uno dei tipi di dati specificati.
Nell'esempio seguente viene creato un indice di ricerca su ALL COLUMNS
con i tipi di dati specificati. Le colonne a
, b
, c
, d.e
, d.f
, d.g.h
, d.g.i
di una tabella denominata my_table
sono indicizzate:
CREATE TABLE dataset.my_table( a STRING, b INT64, c TIMESTAMP, d STRUCT <e INT64, f ARRAY<STRING>, g STRUCT<h STRING, i INT64>>) AS ( SELECT 'hello' AS a, 10 AS b, TIMESTAMP('2008-12-25 15:30:00 UTC') AS c, (20, ['x', 'y'], ('z', 30)) AS d; ) CREATE SEARCH INDEX my_index ON dataset.my_table(ALL COLUMNS) OPTIONS ( data_types = ['STRING', 'INT64', 'TIMESTAMP']);
Poiché l'indice di ricerca è stato creato il giorno ALL COLUMNS
, tutte le colonne aggiunte alla tabella vengono indicizzate automaticamente se corrispondono a uno dei tipi di dati specificati.
Informazioni sull'aggiornamento dell'indice
Gli indici di ricerca sono completamente gestiti da BigQuery e aggiornati automaticamente quando la tabella cambia. Le seguenti modifiche allo schema della tabella possono attivare un aggiornamento completo:
- A una tabella con un indice di ricerca su
ALL COLUMNS
viene aggiunta una nuova colonna indicizzata. - Una colonna indicizzata viene aggiornata a causa di una modifica dello schema della tabella.
Se elimini l'unica colonna indicizzata di una tabella o rinomini la tabella stessa, l'indice di ricerca viene eliminato automaticamente.
Gli indici di ricerca sono progettati per tabelle di grandi dimensioni. Se crei un indice di ricerca su
una tabella di dimensioni inferiori a 10 GB, l'indice non viene compilato. Analogamente, se elimini i dati da una tabella indicizzata e le dimensioni della tabella scendono al di sotto di 10 GB, l'indice viene disattivato temporaneamente. In questo caso, le query di ricerca non
utilizzano l'indice e il
codice IndexUnusedReason
è BASE_TABLE_TOO_SMALL
. Questo accade indipendentemente dal fatto che tu utilizzi o meno la tua prenotazione per i job di gestione dell'indice. Quando le dimensioni di una tabella indicizzata superano i 10 GB, l'indice viene compilato automaticamente. Non ti viene addebitato alcun costo per lo spazio di archiviazione
fino a quando
l'indice di ricerca non è compilato e attivo. Le query che utilizzano la funzioneSEARCH
restituiscono sempre risultati corretti anche se alcuni dati non sono ancora indicizzati.
Ricevere informazioni sugli indici di ricerca
Puoi verificare l'esistenza e l'idoneità di un indice di ricerca eseguendo una query su
INFORMATION_SCHEMA
. Esistono due visualizzazioni che contengono metadati negli indici di ricerca. La visualizzazione INFORMATION_SCHEMA.SEARCH_INDEXES
contiene informazioni su ogni indice di ricerca creato in un set di dati. La
visualizzazione INFORMATION_SCHEMA.SEARCH_INDEX_COLUMNS
contiene informazioni sulle colonne di ogni tabella del set di dati sottoposte a indicizzazione.
L'esempio seguente mostra tutti gli indici di ricerca attivi nelle tabelle del set di datimy_dataset
, nel progetto my_project
. Sono inclusi i nomi, le istruzioni DDL utilizzate per crearli, la percentuale di copertura e l'analizza del testo. Se una tabella di base indicizzata è inferiore a 10 GB, il relativo indice non viene compilato, nel qual caso coverage_percentage
è 0.
SELECT table_name, index_name, ddl, coverage_percentage, analyzer
FROM my_project.my_dataset.INFORMATION_SCHEMA.SEARCH_INDEXES
WHERE index_status = 'ACTIVE';
I risultati dovrebbero essere simili ai seguenti:
+-------------+-------------+--------------------------------------------------------------------------------------+---------------------+----------------+ | table_name | index_name | ddl | coverage_percentage | analyzer | +-------------+-------------+--------------------------------------------------------------------------------------+---------------------+----------------+ | small_table | names_index | CREATE SEARCH INDEX `names_index` ON `my_project.my_dataset.small_table`(names) | 0 | NO_OP_ANALYZER | | large_table | logs_index | CREATE SEARCH INDEX `logs_index` ON `my_project.my_dataset.large_table`(ALL COLUMNS) | 100 | LOG_ANALYZER | +-------------+-------------+--------------------------------------------------------------------------------------+---------------------+----------------+
L'esempio seguente crea un indice di ricerca in tutte le colonne di my_table
.
CREATE TABLE dataset.my_table( a STRING, b INT64, c STRUCT <d INT64, e ARRAY<STRING>, f STRUCT<g STRING, h INT64>>) AS SELECT 'hello' AS a, 10 AS b, (20, ['x', 'y'], ('z', 30)) AS c; CREATE SEARCH INDEX my_index ON dataset.my_table(ALL COLUMNS);
La seguente query estrae informazioni sui campi indicizzati.
index_field_path
indica quale campo di una colonna è indicizzato. Questo valore è diverso da index_column_name
solo nel caso di un
STRUCT
, in cui viene fornito il percorso completo del campo indicizzato. In questo esempio, la colonna c
contiene un campo ARRAY<STRING>
e
e un altro STRUCT
chiamato f
che contiene un campo STRING
g
, ciascuno di questi è indicizzato.
SELECT table_name, index_name, index_column_name, index_field_path
FROM my_project.dataset.INFORMATION_SCHEMA.SEARCH_INDEX_COLUMNS
Il risultato è simile al seguente:
+------------+------------+-------------------+------------------+ | table_name | index_name | index_column_name | index_field_path | +------------+------------+-------------------+------------------+ | my_table | my_index | a | a | | my_table | my_index | c | c.e | | my_table | my_index | c | c.f.g | +------------+------------+-------------------+------------------+
La seguente query unisce la vista INFORMATION_SCHEMA.SEARCH_INDEX_COUMNS
alle viste INFORMATION_SCHEMA.SEARCH_INDEXES
e INFORMATION_SCHEMA.COLUMNS
per includere lo stato dell'indice di ricerca e il tipo di dati di ogni colonna:
SELECT index_columns_view.index_catalog AS project_name, index_columns_view.index_SCHEMA AS dataset_name, indexes_view.TABLE_NAME AS table_name, indexes_view.INDEX_NAME AS index_name, indexes_view.INDEX_STATUS AS status, index_columns_view.INDEX_COLUMN_NAME AS column_name, index_columns_view.INDEX_FIELD_PATH AS field_path, columns_view.DATA_TYPE AS data_type FROM mydataset.INFORMATION_SCHEMA.SEARCH_INDEXES indexes_view INNER JOIN mydataset.INFORMATION_SCHEMA.SEARCH_INDEX_COLUMNS index_columns_view ON indexes_view.TABLE_NAME = index_columns_view.TABLE_NAME AND indexes_view.INDEX_NAME = index_columns_view.INDEX_NAME LEFT OUTER JOIN mydataset.INFORMATION_SCHEMA.COLUMNS columns_view ON indexes_view.INDEX_CATALOG = columns_view.TABLE_CATALOG AND indexes_view.INDEX_SCHEMA = columns_view.TABLE_SCHEMA AND index_columns_view.TABLE_NAME = columns_view.TABLE_NAME AND index_columns_view.INDEX_COLUMN_NAME = columns_view.COLUMN_NAME ORDER BY project_name, dataset_name, table_name, column_name;
Il risultato è simile al seguente:
+------------+------------+----------+------------+--------+-------------+------------+---------------------------------------------------------------+ | project | dataset | table | index_name | status | column_name | field_path | data_type | +------------+------------+----------+------------+--------+-------------+------------+---------------------------------------------------------------+ | my_project | my_dataset | my_table | my_index | ACTIVE | a | a | STRING | | my_project | my_dataset | my_table | my_index | ACTIVE | c | c.e | STRUCT<d INT64, e ARRAY<STRING>, f STRUCT<g STRING, h INT64>> | | my_project | my_dataset | my_table | my_index | ACTIVE | c | c.f.g | STRUCT<d INT64, e ARRAY<STRING>, f STRUCT<g STRING, h INT64>> | +------------+------------+----------+------------+--------+-------------+------------+---------------------------------------------------------------+
Opzioni di gestione degli indici
Per creare indici e gestirli con BigQuery, hai due opzioni:
- Utilizza il pool di slot condiviso predefinito: se i dati che prevedi di indicizzare sono al di sotto del limite per organizzazione, puoi utilizzare il pool di slot condiviso gratuito per la gestione degli indici.
- Utilizza la tua prenotazione: per ottenere un avanzamento dell'indicizzazione più prevedibile e coerente sui carichi di lavoro di produzione più grandi, puoi utilizzare le tue prenotazioni per la gestione dell'indice.
Utilizzare gli slot condivisi
Se non hai configurato il progetto per utilizzare una prenotazione dedicata per l'indicizzazione, la gestione dell'indice viene gestita nel pool di slot condivisi gratuito, in base ai seguenti vincoli.
Se aggiungi dati a una tabella che causano il superamento del limite della tua organizzazione per le dimensioni totali delle tabelle indicizzate, BigQuery mette in pausa la gestione degli indici per tutte le tabelle indicizzate. In questo caso, il campo index_status
nella
visualizzazione INFORMATION_SCHEMA.SEARCH_INDEXES
mostra PENDING DISABLEMENT
e l'indice viene messo in coda per l'eliminazione. Mentre
l'indice è in attesa di disattivazione, viene
ancora utilizzato nelle query e ti viene addebitato lo spazio di archiviazione dell'indice.
Dopo l'eliminazione di un indice, il campo index_status
lo mostra come TEMPORARILY DISABLED
. In questo stato, le query non utilizzano l'indice e non ti viene addebitato alcun costo per lo spazio di archiviazione dell'indice. In questo caso, il
codice IndexUnusedReason
è BASE_TABLE_TOO_LARGE
.
Se elimini i dati dalla tabella e le dimensioni totali delle tabelle indicizzate rientrano nel limite per organizzazione, la gestione dell'indice viene ripresa per tutte le tabelle indicizzate. Il campo index_status
nella
INFORMATION_SCHEMA.SEARCH_INDEXES
vista è ACTIVE
, le query possono utilizzare l'indice e ti viene addebitato lo spazio di archiviazione dell'indice.
BigQuery non offre alcuna garanzia sulla capacità disponibile del pool condiviso o sul throughput dell'indicizzazione visualizzato. Per le applicazioni di produzione, ti consigliamo di utilizzare slot dedicati per l'elaborazione dell'indice.
Utilizzare la tua prenotazione
Anziché utilizzare il pool di slot condiviso predefinito, puoi scegliere di designare la tua prenotazione per indicizzare le tabelle. L'utilizzo di una prenotazione personale garantisce un rendimento prevedibile e coerente dei job di gestione degli indici, come creazione, aggiornamento e ottimizzazioni in background.
- Non ci sono limiti di dimensioni delle tabelle quando un job di indicizzazione viene eseguito nella prenotazione.
- L'utilizzo della tua prenotazione ti offre flessibilità nella gestione dell'indice. Se devi creare un indice di grandi dimensioni o eseguire un aggiornamento importante di una tabella indicizzata, puoi aggiungere temporaneamente altri slot all'assegnazione.
Per indicizzare le tabelle di un progetto con una prenotazione designata,
crea una prenotazione
nella regione in cui si trovano le tabelle. Quindi, assegna il progetto alla prenotazione con job_type
impostato su BACKGROUND
:
SQL
Utilizza
l'istruzione DDL CREATE ASSIGNMENT
.
Nella console Google Cloud, vai alla pagina BigQuery.
Nell'editor di query, inserisci la seguente istruzione:
CREATE ASSIGNMENT `ADMIN_PROJECT_ID.region-LOCATION.RESERVATION_NAME.ASSIGNMENT_ID` OPTIONS ( assignee = 'projects/PROJECT_ID', job_type = 'BACKGROUND');
Sostituisci quanto segue:
ADMIN_PROJECT_ID
: l'ID del progetto di amministrazione proprietario della risorsa di prenotazioneLOCATION
: la posizione della prenotazioneRESERVATION_NAME
: il nome della prenotazioneASSIGNMENT_ID
: l'ID del compitoL'ID deve essere univoco per il progetto e la località, deve iniziare e terminare con una lettera minuscola o un numero e contenere solo lettere minuscole, numeri e trattini.
PROJECT_ID
: l'ID del progetto contenente le tabelle da indicizzare. Questo progetto è assegnato alla prenotazione.
Fai clic su
Esegui.
Per ulteriori informazioni su come eseguire query, consulta Eseguire una query interattiva.
bq
Utilizza il comando bq mk
:
bq mk \ --project_id=ADMIN_PROJECT_ID \ --location=LOCATION \ --reservation_assignment \ --reservation_id=RESERVATION_NAME \ --assignee_id=PROJECT_ID \ --job_type=BACKGROUND \ --assignee_type=PROJECT
Sostituisci quanto segue:
ADMIN_PROJECT_ID
: l'ID del progetto di amministrazione che possiede la risorsa di prenotazioneLOCATION
: la posizione della prenotazioneRESERVATION_NAME
: il nome della prenotazionePROJECT_ID
: l'ID del progetto da assegnare a questa prenotazione
Visualizzare i job di indicizzazione
Ogni volta che viene creato o aggiornato un indice in una singola tabella, viene creato un nuovo job di indicizzazione. Per visualizzare le informazioni sul job, esegui una query sulle
visualizzazioni INFORMATION_SCHEMA.JOBS*
. Puoi filtrare i job di indicizzazione impostando job_type IS NULL AND SEARCH(job_id, '`search_index`')
nella clausola WHERE
della query. L'esempio seguente elenca i cinque job di indicizzazione più recenti nel progetto my_project
:
SELECT * FROM region-us.INFORMATION_SCHEMA.JOBS WHERE project_id = 'my_project' AND job_type IS NULL AND SEARCH(job_id, '`search_index`') ORDER BY creation_time DESC LIMIT 5;
Scegli le dimensioni della prenotazione
Per scegliere il numero corretto di slot per la prenotazione, devi considerare quando vengono eseguiti i job di gestione degli indici, quanti slot utilizzano e come si presenta il tuo utilizzo nel tempo. BigQuery attiva un job di gestione degli indici nelle seguenti situazioni:
- Creazione di un indice in una tabella.
- I dati vengono modificati in una tabella indicizzata.
- Lo schema di una tabella cambia e questo influisce sulle colonne sottoposte a indicizzazione.
- I dati e i metadati dell'indice vengono ottimizzati o aggiornati periodicamente.
Il numero di slot necessari per un job di gestione degli indici in una tabella dipende dai seguenti fattori:
- Le dimensioni della tabella
- La frequenza di importazione dati nella tabella
- La frequenza delle istruzioni DML applicate alla tabella
- Il ritardo accettabile per la creazione e la gestione dell'indice
- La complessità dell'indice, in genere determinata dagli attributi dei dati, come il numero di termini duplicati
Stima iniziale
Le seguenti stime possono aiutarti a determinare approssimativamente il numero di slot richiesti dalla prenotazione. A causa della natura altamente variabile dei carichi di lavoro di indicizzazione, dovresti rivalutare i tuoi requisiti dopo aver iniziato a indicizzare i dati.
- Dati esistenti: con una prenotazione di 1000 slot, una tabella esistente in BigQuery può essere indicizzata a una velocità media di massimo 4 GB al secondo, ovvero circa 336 TB al giorno.
- Dati appena importati: l'indicizzazione è in genere più dispendiosa in termini di risorse per i dati appena importati, poiché la tabella e il relativo indice vengono sottoposti a diversi cicli di ottimizzazioni trasformative. In media, l'indicizzazione dei dati appena acquisiti consuma tre volte le risorse rispetto all'indicizzazione iniziale tramite il backfill degli stessi dati.
- Dati modificati di rado: le tabelle indicizzate con poca o nessuna modifica dei dati richiedono molte meno risorse per la manutenzione continua dell'indice. Un punto di partenza consigliato è mantenere 1/5 degli slot necessari per l'indicizzazione del backfill iniziale degli stessi dati e non meno di 250 slot.
- L'avanzamento dell'indicizzazione varia approssimativamente in modo lineare in base alle dimensioni della prenotazione. Tuttavia, non consigliamo di utilizzare prenotazioni inferiori a 250 slot per l'indicizzazione, in quanto potrebbero verificarsi inefficienze che possono rallentare l'avanzamento dell'indicizzazione.
- Queste stime possono variare in base alle funzionalità, alle ottimizzazioni e al tuo utilizzo effettivo.
- Se le dimensioni totali della tabella della tua organizzazione superano il limite di indicizzazione della regione, devi mantenere una prenotazione non pari a zero assegnata per l'indicizzazione. In caso contrario, l'indicizzazione potrebbe tornare al livello predefinito, con l'eliminazione involontaria di tutti gli indici.
Monitorare l'utilizzo e i progressi
Il modo migliore per valutare il numero di slot necessari per eseguire in modo efficiente i job di gestione degli indici è monitorare l'utilizzo degli slot e modificare di conseguenza le dimensioni della prenotazione. La seguente query genera l'utilizzo giornaliero degli slot per i job di gestione degli indici. Nella regione us-west1
sono inclusi solo gli ultimi 30 giorni:
SELECT TIMESTAMP_TRUNC(job.creation_time, DAY) AS usage_date, -- Aggregate total_slots_ms used for index-management jobs in a day and divide -- by the number of milliseconds in a day. This value is most accurate for -- days with consistent slot usage. SAFE_DIVIDE(SUM(job.total_slot_ms), (1000 * 60 * 60 * 24)) AS average_daily_slot_usage FROM `region-us-west1`.INFORMATION_SCHEMA.JOBS job WHERE project_id = 'my_project' AND job_type IS NULL AND SEARCH(job_id, '`search_index`') GROUP BY usage_date ORDER BY usage_date DESC limit 30;
Quando gli slot non sono sufficienti per eseguire i job di gestione degli indici, un indice può essere out of sync con la relativa tabella e i job di indicizzazione potrebbero non riuscire. In questo caso, BigQuery ricostruisce l'indice da zero. Per evitare di avere un indice non sincronizzato, assicurati di disporre di slot sufficienti per supportare gli aggiornamenti dell'indice dall'importazione e dall'ottimizzazione dei dati. Per ulteriori informazioni sul monitoraggio dell'utilizzo degli slot, consulta i grafici delle risorse di amministrazione.
Best practice
- Gli indici di ricerca sono progettati per tabelle di grandi dimensioni. I miglioramenti delle prestazioni di un indice di ricerca aumentano con le dimensioni della tabella.
- Non indicizzare le colonne che contengono solo un numero molto ridotto di valori univoci.
- Non indicizzare le colonne che non intendi mai utilizzare con la funzione
SEARCH
o con altre funzioni e operatori supportati. - Fai attenzione quando crei un indice di ricerca su
ALL COLUMNS
. Ogni volta che aggiungi una colonna contenente datiSTRING
oJSON
, viene indicizzata. - Ti consigliamo di utilizzare la tua prenotazione per la gestione dell'indice nelle applicazioni di produzione. Se scegli di utilizzare il pool di slot condivisi predefinito per i job di gestione dell'indice, si applicano i limiti di dimensionamento per organizzazione.
Eliminare un indice di ricerca
Quando non hai più bisogno di un indice di ricerca o vuoi modificare le colonne annotate in una tabella, puoi eliminare l'indice attualmente presente nella tabella. Utilizza
l'istruzione DDL DROP SEARCH INDEX
.
Se viene eliminata una tabella indicizzata, il relativo indice viene eliminato automaticamente.
Esempio:
DROP SEARCH INDEX my_index ON dataset.simple_table;
Passaggi successivi
- Per una panoramica dei casi d'uso, dei prezzi, delle autorizzazioni richieste e delle limitazioni degli indici di ricerca, consulta l'Introduzione alla ricerca in BigQuery.
- Per informazioni sulla ricerca efficiente delle colonne indicizzate, consulta Eseguire ricerche con un indice.