Indexer et actualiser des pages Web à l'aide de sitemaps

Si l'indexation avancée de sites Web est activée dans votre data store, vous pouvez envoyer et utiliser des sitemaps pour indexer et actualiser les pages Web de votre data store. Cette fonctionnalité n'est compatible qu'avec les sitemaps et index de sitemaps XML.

Cette page explique comment envoyer un sitemap ou un index de sitemaps pour déclencher l'indexation et l'actualisation basées sur les sitemaps. Pour comprendre et implémenter l'actualisation automatique et manuelle sans sitemap, consultez Actualiser des pages Web.

Cette page explique également comment afficher les sitemaps dans votre data store ou en supprimer un.

Concepts d'actualisation basée sur les sitemaps

Voici quelques concepts et termes clés pour vous aider à vous lancer :

  • Protocole Sitemap : tous les sitemaps et index de sitemaps compatibles avec Vertex AI Search doivent respecter le protocole Sitemap.

  • Sitemap : un sitemap est un fichier XML encodé en UTF-8 qui contient une liste d'URL des pages Web et des fichiers de votre site. Il inclut également d'autres informations importantes mais facultatives, telles que la date de la dernière modification de la page Web et sa priorité pour un robot d'exploration par rapport aux autres pages de votre site. Selon le protocole Sitemap, un seul sitemap peut contenir un maximum de 50 000 URL et ne doit pas dépasser 50 Mo.

  • Index de sitemaps : si votre sitemap dépasse le nombre maximal d'URL ou la taille maximale, vous pouvez créer plusieurs sitemaps et les répertorier dans un fichier d'index de sitemaps. Selon le protocole Sitemap, un index de sitemaps unique peut imbriquer un maximum de 50 000 sitemaps et ne doit pas dépasser 50 Mo.

Vous pouvez envoyer un ou plusieurs sitemaps, un ou plusieurs index de sitemaps, ou une combinaison de sitemaps et d'index de sitemaps à Vertex AI Search.

Lorsque vous envoyez votre sitemap ou votre index de sitemaps au data store Vertex AI Search, les actions suivantes sont déclenchées :

  • L'indexation des URL incluses dans l'index de votre data store.

    • Pour une actualisation du sitemap uniquement, cette liste ne contient que les URL du sitemap ou de l'index de sitemaps qui correspondent au modèle d'URL inclus dans votre data store.
    • Pour une actualisation combinée, cette liste contient toutes les URL découvertes par le processus d'actualisation automatique.

    Pour en savoir plus sur ces deux processus d'actualisation, consultez Méthodes d'actualisation du data store de site Web et Actualisation uniquement du sitemap.

  • Actualisation quotidienne des URL ajoutées, supprimées et modifiées dans le sitemap. Par exemple, une URL est mise à jour lorsque vous modifiez le champ lastmod d'une URL dans le sitemap.

  • Actualisation périodique des URL inchangées tous les 14 jours.

Méthodes d'actualisation du data store de site Web

Vous pouvez choisir l'une des méthodes suivantes pour intégrer l'actualisation basée sur le sitemap dans votre data store :

  • Actualisation basée uniquement sur le sitemap : utilisez l'actualisation basée sur le sitemap exclusivement en désactivant l'indexation initiale et l'actualisation automatique.
  • Actualisation combinée : utilisez l'actualisation basée sur le sitemap avec l'indexation initiale et l'actualisation automatique.

Vous pouvez actualiser manuellement des pages Web spécifiques dans l'index de votre data store à tout moment, quelle que soit la méthode d'actualisation que vous choisissez.

Actualisation du sitemap uniquement

Lorsque vous créez un data store de site Web, vous devez fournir des modèles d'URL pour les pages Web que vous souhaitez inclure dans l'index de votre data store. Par défaut, lorsque vous avez terminé de créer un data store de site Web, Vertex AI Search génère un index initial pour les pages Web incluses.

Pour les data stores de sites Web avec indexation avancée, le processus d'indexation initiale fait partie de l'actualisation automatique. Le processus d'indexation initiale indexe toutes les URL incluses qui sont disponibles dans la recherche Google. La fraîcheur initiale de ces URL reflète celle disponible dans la recherche Google. Après l'indexation initiale, le processus d'actualisation automatique découvre de nouvelles pages et les actualise de la manière la plus optimale possible. Cela peut entraîner des pages relativement obsolètes et un index plus volumineux, car ce processus découvre des URL qui peuvent dépasser les besoins.

Vous pouvez choisir d'actualiser uniquement le sitemap, ce qui est utile dans les cas suivants :

  • Vous disposez d'un sitemap à jour et bien géré.
  • Vous possédez un grand site Web et vous avez besoin de mieux contrôler les pages Web indexées. Vous obtenez ainsi un index plus simple et plus facile à gérer.
  • Vous devez actualiser quotidiennement les pages que vous avez ajoutées et modifiées, et supprimer celles qui ont été supprimées. L'index est ainsi plus récent et reflète le sitemap.

Le tableau suivant compare les différentes méthodes d'actualisation de l'index du data store :

Méthode d'actualisation Précision Intervention manuelle Fréquence Discovery
Actualisation basée sur le sitemap Exactement. N'indexe que les URL figurant dans les sitemaps. Non requis après l'envoi du sitemap ou de l'index de sitemaps Tous les jours pour les URL ajoutées, supprimées ou modifiées dans le sitemap. 14 jours pour les URL inchangées ne doit pas dépasser celles spécifiées dans le sitemap.
Actualisation manuelle (également appelée réexploration) Exactement. Indexe uniquement les URL spécifiées dans la demande de réexploration. Obligatoire À la demande Non.
Actualisation automatique Pas exactement. Le data store est actualisé de la manière la plus optimale possible. Non obligatoire Aléatoire et dans la mesure du possible Oui. Découvre des URL qui ne sont pas disponibles dans la recherche Google.

Avant de commencer

Avant d'envoyer un sitemap ou un index de sitemaps au data store Vertex AI Search :

  • Créez un sitemap XML ou un index de sitemaps qui référence tous les sitemaps de votre site Web conformément au protocole Sitemap.
  • Notez que pour envoyer un sitemap ou un index de sitemaps au data store Vertex AI Search, il n'est pas nécessaire de les envoyer à la recherche Google.
  • Toutes les URL de votre sitemap que vous souhaitez indexer doivent appartenir à des domaines publics validés dans votre data store. Pour en savoir plus, consultez Valider les domaines de sites Web.
  • L'URI du sitemap ou l'URI de l'index de sitemaps avec les URI de sitemaps imbriqués doivent être accessibles au public.

Envoyer un sitemap ou un index de sitemaps à un data store

Pour déclencher l'indexation et l'actualisation des pages Web incluses dans votre data store, procédez comme suit :

  1. Décidez si vous souhaitez actualiser uniquement le sitemap ou le combiner avec d'autres méthodes.

  2. Pour actualiser uniquement le sitemap, suivez cette étape. Sinon, passez à l'étape suivante.

    Vous ne pouvez pas utiliser un data store existant qui a déjà été indexé et actualisé. Vous devez créer un data store en désactivant l'indexation initiale et l'actualisation automatique à l'aide de la configuration AdvancedSiteSearchConfig.

    REST

    Créez un data store dans lequel seul l'actualisation du sitemap est activée. Pour ce faire, désactivez l'index initial et l'actualisation automatique.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \
    -d '{
       "displayName": "DATA_STORE_DISPLAY_NAME",
       "industryVertical": "GENERIC",
       "content_config": "PUBLIC_WEBSITE",
       "searchTier": "ENTERPRISE",
       "advancedSiteSearchConfig": {
          "disableInitialIndex": true,
          "disableAutomaticRefresh": true,
       }
    }'
    

    Remplacez les éléments suivants :

    • PROJECT_ID : ID de votre projet Google Cloud .
    • DATA_STORE_ID : ID du data store Vertex AI Search que vous souhaitez créer. Cet ID ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.
    • DATA_STORE_DISPLAY_NAME : nom à afficher du data store Vertex AI Search que vous souhaitez créer.

  3. Mettez à jour les modèles d'URL des sites à inclure et à exclure dans votre data store. Pour en savoir plus, consultez Créer un data store à l'aide du contenu d'un site Web.

  4. Validez les domaines des pages Web incluses dans votre data store.

  5. Que vous choisissiez une actualisation uniquement par sitemap ou une actualisation combinée, envoyez un sitemap ou un index de sitemaps URI à un data store à l'aide de la méthode sitemaps.create.

    REST

    Envoyez un sitemap ou un index de sitemaps.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_NUMBER" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
    

    Remplacez les éléments suivants :

    • PROJECT_ID : ID de votre projet Google Cloud .
    • DATA_STORE_ID : ID du data store Vertex AI Search.
    • SITEMAP_URI : URI public du sitemap individuel ou de l'index de sitemaps que vous souhaitez envoyer. Lorsque vous envoyez un index de sitemaps, il suffit d'envoyer l'URI de l'index de sitemaps. Vertex AI Search indexe automatiquement les URL incluses dans tous les sitemaps imbriqués dans l'index de sitemaps.

    Une fois que vous avez envoyé le sitemap ou l'index de sitemaps au data store, Vertex AI Search déclenche les actions suivantes :

    • Indexation des URL éligibles du sitemap (celles incluses dans votre data store). Ce processus peut prendre quelques heures. L'indexation des sitemaps volumineux peut prendre plus de temps.
    • Actualisation quotidienne des pages Web dont les URL sont éligibles.

    Pour savoir comment les modifications apportées au sitemap ou à l'index de sitemaps affectent l'actualisation, consultez Modifications apportées au sitemap et à l'index de sitemaps.

  6. Affichez les sitemaps de votre data store.

Modifications apportées au sitemap et à l'index de sitemaps

Après l'envoi initial, Vertex AI Search détecte les modifications apportées à votre sitemap ou à votre index de sitemaps quotidiennement et les traite de la manière suivante :

  • Modifications apportées à un sitemap :
    • Lorsque vous ajoutez des URL : les URL qui correspondent au format des URL incluses pour le data store sont ajoutées à l'index et actualisées quotidiennement.
    • Lorsque vous supprimez des URL : si les URL supprimées figurent dans l'index, elles en sont retirées et ne sont plus actualisées.
    • Lorsque vous mettez à jour les URL existantes (par exemple, lorsque vous mettez à jour le champ lastmod d'une URL dans le sitemap), toutes les URL mises à jour qui correspondent au modèle d'URL incluses pour le data store sont actualisées. L'actualisation a généralement lieu dans les 24 heures suivant la modification.
  • Modifications apportées à un index de sitemaps :
    • Lorsque vous ajoutez un sitemap : les URL du nouveau sitemap qui correspondent au modèle d'URL incluses pour le data store sont ajoutées à l'index et actualisées quotidiennement.
    • Lorsque vous supprimez un sitemap : les URL qui correspondent au format des URL incluses pour le data store ne sont plus actualisées. Toutefois, elles restent dans l'index. Pour supprimer le sitemap et ses URL de l'index, consultez Supprimer un sitemap et ses URL de l'index.

Lister les sitemaps et les index de sitemaps dans un data store

Pour lister tous les sitemaps et index de sitemaps d'un data store, utilisez la méthode sitemaps.fetch. Si vous avez envoyé un index de sitemaps, cette méthode renvoie l'index de sitemaps et non les sitemaps imbriqués individuels. Si le data store ne contient aucun sitemap, cette requête renvoie un fichier JSON vide.

REST

Lister les sitemaps et les index de sitemaps dans un data store.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"

Remplacez les éléments suivants :

  • PROJECT_ID : ID de votre projet Google Cloud .
  • DATA_STORE_ID : ID du data store Vertex AI Search.

Vérifier si un sitemap ou un index de sitemaps est présent dans un data store

Pour vérifier si un sitemap ou un index de sitemaps est présent dans un data store, utilisez la méthode sitemaps.fetch. Si le sitemap ou l'index de sitemaps que vous vérifiez a été envoyé au data store, la réponse contient le nom et l'URI du sitemap. Si vous avez envoyé un index de sitemaps, la vérification des sitemaps individuels dans l'index ne renverra pas les résultats corrects.

REST

Recherchez un sitemap ou un index de sitemaps dans un data store.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"

Remplacez les éléments suivants :

  • PROJECT_ID : ID de votre projet Google Cloud .
  • DATA_STORE_ID : ID du data store Vertex AI Search.
  • SITEMAP_URI_N : URI public du sitemap ou de l'index du sitemap que vous souhaitez vérifier dans le data store.

Supprimer un sitemap ou un index de sitemap du data store

Pour supprimer un sitemap du data store, utilisez la méthode sitemap.delete. La suppression d'un sitemap n'entraîne pas la suppression de ses URL de l'index. Pour supprimer le sitemap et ses URL de l'index, consultez Supprimer un sitemap et ses URL de l'index.

REST

Supprimez un sitemap ou un index de sitemaps.

curl -X DELETE \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"

Remplacez les éléments suivants :

Supprimer un sitemap ou un index de sitemaps et ses URL de l'index du data store

Pour supprimer un sitemap ou un index de sitemaps et ses URL de l'index, procédez comme suit :

  1. Videz le sitemap ou l'index de sitemaps envoyé au data store en supprimant toutes ses URL.

    Si vous avez envoyé un index de sitemaps au data store, videz les sitemaps imbriqués en supprimant toutes les URL et supprimez le sitemap de l'index de sitemaps.

  2. Attendez 48 heures pour que Vertex AI Search traite ces modifications et supprime les URL de l'index du data store.

  3. Supprimez le sitemap ou l'index de sitemaps.