Se l'indicizzazione avanzata dei siti web è attivata nel datastore, puoi inviare e utilizzare le Sitemap per indicizzare e aggiornare le pagine web nel datastore. Questa funzionalità supporta solo le Sitemap XML e gli indici Sitemap.
Questa pagina descrive come inviare una Sitemap o un indice Sitemap per attivare l'indicizzazione e l'aggiornamento basati sulla Sitemap. Per comprendere e implementare l'aggiornamento automatico e manuale senza una sitemap, consulta Aggiornare le pagine web.
Inoltre, questa pagina descrive come visualizzare le Sitemap nel datastore o eliminare una Sitemap.
Concetti di aggiornamento basati sulla Sitemap
Ecco alcuni concetti e termini chiave che ti aiuteranno a iniziare:
Protocollo Sitemap: tutte le Sitemap e tutti gli indici Sitemap supportati da Vertex AI Search devono seguire il protocollo Sitemap.
Sitemap: una Sitemap è un file XML codificato in UTF-8 che contiene un elenco di URL delle pagine web e dei file nel tuo sito web con altre informazioni importanti, ma facoltative, come la data dell'ultima modifica della pagina web e la priorità della pagina web per un crawler rispetto ad altre pagine web nel tuo sito web. Secondo il protocollo Sitemap, una singola Sitemap può contenere un massimo di 50.000 URL e può avere una dimensione massima di 50 MB.
Indice Sitemap: quando la Sitemap supera il numero massimo di URL o le dimensioni massime, puoi creare più Sitemap ed elencarle in un file indice Sitemap. Secondo il protocollo Sitemap, un singolo indice Sitemap può contenere un massimo di 50.000 Sitemap e può avere una dimensione massima di 50 MB.
Puoi inviare a Vertex AI Search una o più Sitemap, uno o più indici Sitemap o una combinazione di Sitemap e indici Sitemap.
Quando invii la Sitemap o l'indice Sitemap al datastore Vertex AI Search, vengono attivate le seguenti azioni:
Indicizzazione degli URL inclusi nell'indice del datastore.
- Per un aggiornamento solo della Sitemap, questo elenco contiene solo gli URL nella Sitemap o nell'indice Sitemap che corrispondono al pattern URL incluso nel datastore.
- Per un aggiornamento combinato, questo elenco contiene tutti gli URL rilevati dal processo di aggiornamento automatico.
Per ulteriori informazioni su queste due procedure di aggiornamento, consulta Metodi di aggiornamento del datastore del sito web e Aggiornamento solo della sitemap.
Aggiornamento giornaliero di tutti gli URL aggiunti, eliminati e aggiornati nella Sitemap. Un esempio di URL aggiornato è quando aggiorni il campo
lastmod
di un URL nella Sitemap.Aggiornamento periodico degli URL invariati ogni 14 giorni.
Metodi di aggiornamento del datastore del sito web
Puoi scegliere uno dei seguenti modi per incorporare l'aggiornamento basato sulla Sitemap nel datastore:
- Aggiornamento solo tramite Sitemap: utilizza l'aggiornamento basato sulla Sitemap esclusivamente disattivando l'indicizzazione iniziale e l'aggiornamento automatico.
- Aggiornamento combinato: utilizza l'aggiornamento basato sulla Sitemap con l'indicizzazione iniziale e l'aggiornamento automatico.
Puoi aggiornare manualmente pagine web specifiche nell'indice del datastore in qualsiasi momento, indipendentemente dal metodo di aggiornamento scelto.
Aggiornamento solo della Sitemap
Quando crei un datastore del sito web, devi fornire i pattern URL delle pagine web che vuoi includere nell'indice del datastore. Per impostazione predefinita, al termine della creazione di un datastore di un sito web, Vertex AI Search genera un indice iniziale per queste pagine web incluse.
Per i datastore di siti web con indicizzazione avanzata dei siti web, il processo di indicizzazione iniziale fa parte dell'aggiornamento automatico. Il processo di indicizzazione iniziale indicizza tutti gli URL inclusi disponibili nella Ricerca Google. La freschezza iniziale di questi URL rispecchia quella disponibile nella Ricerca Google. Dopo l'indicizzazione iniziale, il processo di aggiornamento automatico rileva le nuove pagine e le aggiorna in base alle proprie capacità. Ciò può comportare pagine relativamente obsolete e un indice più voluminoso perché questo processo rileva URL che potrebbero andare oltre i requisiti.
In alternativa, puoi scegliere di eseguire l'aggiornamento solo della Sitemap, utile nei seguenti scenari:
- Hai una Sitemap ben gestita e aggiornata.
- Hai un sito web di grandi dimensioni e hai bisogno di un maggiore controllo sulle pagine web che vengono indicizzate. In questo modo, l'indice è più snello e gestibile.
- Devi aggiornare quotidianamente le pagine aggiunte e aggiornate e rimuovere quelle eliminate. Il risultato è un indice più aggiornato che riflette la Sitemap.
La seguente tabella confronta i diversi metodi che aggiornano l'indice del datastore:
Metodo di aggiornamento | Precisione | Intervento manuale | Frequenza | Discovery |
---|---|---|---|---|
Aggiornamento basato sulla Sitemap | Esatto. Indicizza solo gli URL nelle Sitemap. | Non richiesto dopo l'invio della Sitemap o dell'indice Sitemap | Giornalmente per gli URL aggiunti, eliminati e aggiornati nella Sitemap. 14 giorni per gli URL invariati | Non oltre quelli specificati nella Sitemap. |
Aggiornamento manuale (noto anche come nuova scansione) | Esatto. Indica solo gli URL specificati nella richiesta di nuova scansione. | Obbligatorio | On demand | No. |
Aggiornamento automatico | Non esatto. Il datastore viene aggiornato al meglio delle possibilità. | Non obbligatorio | Casuale e al meglio delle possibilità | Sì. Rileva URL oltre a quelli disponibili nella Ricerca Google. |
Prima di iniziare
Prima di inviare una Sitemap o un indice Sitemap al datastore Vertex AI Search:
- Crea una Sitemap XML o un indice Sitemap che faccia riferimento a tutte le Sitemap del tuo sito web in base al protocollo Sitemap.
- Comprendere i concetti fondamentali della creazione di una Sitemap. Per ulteriori informazioni, consulta Concetti di aggiornamento basato sulla Sitemap e Creare e inviare una Sitemap.
- Tieni presente che per inviare una Sitemap o un indice Sitemap al datastore Vertex AI Search, non è necessario inviarli a Google Search.
- Tutti gli URL nella Sitemap che vuoi indicizzare devono appartenere a domini pubblici verificati nel tuo datastore. Per ulteriori informazioni, vedi Verificare i domini dei siti web.
- L'URI della Sitemap o l'URI dell'indice Sitemap con gli URI Sitemap nidificati devono essere disponibili pubblicamente.
Inviare una Sitemap o un indice Sitemap a un datastore
Per attivare l'indicizzazione e l'aggiornamento delle pagine web incluse nel tuo data store:
Decidi se vuoi eseguire un aggiornamento solo della Sitemap o una combinazione con altri metodi.
Per eseguire un aggiornamento solo della Sitemap, segui questo passaggio, altrimenti vai al passaggio successivo.
Non puoi utilizzare un datastore esistente con indicizzazione e aggiornamento iniziali. Devi creare un nuovo datastore disattivando l'indicizzazione iniziale e l'aggiornamento automatico utilizzando la configurazione
AdvancedSiteSearchConfig
.REST
Crea un datastore in cui è abilitato solo l'aggiornamento della sitemap. Ciò avviene disattivando l'indice iniziale e l'aggiornamento automatico.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "content_config": "PUBLIC_WEBSITE", "searchTier": "ENTERPRISE", "advancedSiteSearchConfig": { "disableInitialIndex": true, "disableAutomaticRefresh": true, } }'
Sostituisci quanto segue:
PROJECT_ID
: l'ID del tuo Google Cloud progetto.DATA_STORE_ID
: l'ID del datastore Vertex AI Search che vuoi creare. Questo ID può contenere solo lettere minuscole, cifre, trattini bassi e trattini.DATA_STORE_DISPLAY_NAME
: il nome visualizzato del datastore Vertex AI Search che vuoi creare.
Aggiorna i pattern URL dei siti da includere ed escludere nell'archivio dati. Per maggiori informazioni, consulta Creare un datastore utilizzando i contenuti del sito web.
Verifica i domini delle pagine web incluse nel tuo datastoree.
Indipendentemente dal tipo di aggiornamento scelto, invia un URI di Sitemap o indice Sitemap a un datastore utilizzando il metodo
sitemaps.create
.REST
Invia una Sitemap o un indice Sitemap.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_NUMBER" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
Sostituisci quanto segue:
PROJECT_ID
: l'ID del tuo Google Cloud progetto.DATA_STORE_ID
: l'ID del datastore Vertex AI Search.SITEMAP_URI
: l'URI pubblico della singola Sitemap o dell'indice Sitemap che vuoi inviare. Quando invii un indice Sitemap, è sufficiente inviare l'URI dell'indice Sitemap. Vertex AI Search indicizza automaticamente gli URL inclusi in tutte le Sitemap nidificate all'interno dell'indice Sitemap.
Dopo aver inviato la sitemap o l'indice della sitemap al datastore, Vertex AI Search attiva quanto segue:
- Un'indicizzazione degli URL idonei nella sitemap, ovvero quelli inclusi nel datastore. Il completamento di questa procedura può richiedere alcune ore. L'indicizzazione delle Sitemap più grandi può richiedere più tempo.
- Un aggiornamento giornaliero delle pagine web con URL idonei.
Per scoprire in che modo le modifiche alla Sitemap o all'indice Sitemap influiscono sull'aggiornamento, consulta Modifiche alla Sitemap e all'indice Sitemap.
Visualizza le sitemap nel datastore.
Modifiche alla Sitemap e all'indice Sitemap
Dopo l'invio iniziale, Vertex AI Search rileva le modifiche alla Sitemap o all'indice della Sitemap su base giornaliera e gestisce queste modifiche nel seguente modo:
- Modifiche a una Sitemap:
- Quando aggiungi URL: gli URL che corrispondono al pattern degli URL inclusi per l'archivio dati vengono aggiunti all'indice e aggiornati quotidianamente.
- Quando rimuovi gli URL: se gli URL rimossi sono nell'indice, vengono rimossi dall'indice e non vengono più aggiornati.
- Quando aggiorni gli URL esistenti, ad esempio quando aggiorni il campo
lastmod
per un URL nella Sitemap, tutti gli URL aggiornati che corrispondono al pattern degli URL inclusi per l'datastore vengono aggiornati. L'aggiornamento in genere avviene entro 24 ore dall'aggiornamento.
- Modifiche a un indice Sitemap:
- Quando aggiungi una Sitemap: gli URL nella nuova Sitemap che corrispondono al pattern degli URL inclusi per il datastore vengono aggiunti all'indice e aggiornati quotidianamente.
- Quando rimuovi una Sitemap, gli URL che corrispondono al pattern degli URL inclusi per il datastore non vengono più aggiornati. Tuttavia, rimangono comunque nell'indice. Per rimuovere la Sitemap e i relativi URL dall'indice, consulta Rimuovere una Sitemap e i relativi URL dall'indice.
Elenca le Sitemap e gli indici Sitemap in un datastore
Per elencare tutte le Sitemap e tutti gli indici Sitemap in un datastore, utilizza il metodo
sitemaps.fetch
. Se hai inviato un indice Sitemap, questo metodo restituisce l'indice Sitemap e non le singole Sitemap nidificate.
Se non sono presenti sitemap nel datastore, questa richiesta restituisce un file JSON vuoto.
REST
Elenca le Sitemap e gli indici Sitemap in un datastore.
curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"
Sostituisci quanto segue:
PROJECT_ID
: l'ID del tuo Google Cloud progetto.DATA_STORE_ID
: l'ID del datastore Vertex AI Search.
Controllare se una Sitemap o un indice Sitemap è presente in un datastore
Per verificare se una Sitemap o un indice Sitemap è presente in un datastore, utilizza il metodo
sitemaps.fetch
. Se la Sitemap o l'indice Sitemap che stai controllando viene inviato al datastore, la risposta contiene il nome e l'URI della Sitemap. Se hai inviato un indice Sitemap, il controllo delle singole Sitemap all'interno dell'indice Sitemap non restituirà i risultati corretti.
REST
Controlla la presenza di una Sitemap o di un indice Sitemap in un datastore.
curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"
Sostituisci quanto segue:
PROJECT_ID
: l'ID del tuo Google Cloud progetto.DATA_STORE_ID
: l'ID del datastore Vertex AI Search.SITEMAP_URI_N
: l'URI pubblico della Sitemap o dell'indice Sitemap per cui vuoi eseguire il controllo nel datastore.
Eliminare una Sitemap o un indice Sitemap dal datastore
Per eliminare una Sitemap dal datastore, utilizza il metodo
sitemap.delete
.
L'eliminazione di una Sitemap non rimuove i relativi URL dall'indice. Per rimuovere
la Sitemap e i relativi URL dall'indice, consulta Rimuovere una Sitemap e i relativi URL
dall'indice.
REST
Elimina una Sitemap o un indice Sitemap.
curl -X DELETE \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"
Sostituisci quanto segue:
PROJECT_ID
: l'ID del tuo Google Cloud progetto.DATA_STORE_ID
: l'ID del datastore Vertex AI Search.SITEMAP_ID
: un ID univoco che identifica una Sitemap o un indice Sitemap. Puoi trovare questo ID nel campo del nome della risposta quando invii una Sitemap o un indice Sitemap oppure elenca le Sitemap e gli indici Sitemap nel tuo datastore.
Rimuovere una Sitemap o un indice Sitemap e i relativi URL dall'indice del datastore
Per rimuovere una Sitemap o un indice Sitemap e i relativi URL dall'indice:
Svuota la Sitemap o l'indice Sitemap inviato all'datastore dati rimuovendo tutti i relativi URL.
Se hai inviato un indice Sitemap al datastore, svuota le Sitemap nidificate rimuovendo tutti gli URL e rimuovi la Sitemap dall'indice Sitemap.
Attendi 48 ore affinché Vertex AI Search elabori queste modifiche e rimuova gli URL dall'indice del datastore.