Webseiten mithilfe von Sitemaps indexieren und aktualisieren

Wenn die erweiterte Websiteindexierung in Ihrem Datenspeicher aktiviert ist, können Sie Sitemaps einreichen und verwenden, um die Webseiten in Ihrem Datenspeicher zu indexieren und zu aktualisieren. Diese Funktion unterstützt nur XML-Sitemaps und Sitemap-Indizes.

Auf dieser Seite wird beschrieben, wie Sie eine Sitemap oder einen Sitemap-Index einreichen, um die Sitemap-basierte Indexierung und Aktualisierung auszulösen. Informationen zum automatischen und manuellen Aktualisieren ohne Sitemap finden Sie unter Webseiten aktualisieren.

Außerdem wird auf dieser Seite beschrieben, wie Sie die Sitemaps in Ihrem Datenspeicher aufrufen oder eine Sitemap löschen.

Konzepte zum Aktualisieren auf Grundlage von Sitemaps

Hier sind einige wichtige Konzepte und Begriffe, die Ihnen den Einstieg erleichtern:

  • Sitemap-Protokoll: Alle Sitemaps und Sitemap-Indizes, die von Vertex AI Search unterstützt werden, müssen dem Sitemap-Protokoll entsprechen.

  • Sitemap: Eine Sitemap ist eine UTF-8-codierte XML-Datei, die eine Liste mit URLs der Webseiten und Dateien auf Ihrer Website enthält. Außerdem kann sie weitere wichtige, aber optionale Informationen enthalten, z. B. das Datum der letzten Änderung der Webseite und die Priorität der Webseite für einen Crawler im Vergleich zu anderen Webseiten auf Ihrer Website. Gemäß dem Sitemap-Protokoll darf eine einzelne Sitemap maximal 50.000 URLs enthalten und maximal 50 MB groß sein.

  • Sitemap-Index: Wenn Ihre Sitemap die maximale Anzahl von URLs oder die maximale Größe überschreitet, können Sie mehrere Sitemaps erstellen und diese in einer Sitemap-Indexdatei auflisten. Gemäß dem Sitemap-Protokoll können in einem einzelnen Sitemap-Index maximal 50.000 Sitemaps verschachtelt werden. Die maximale Größe beträgt 50 MB.

Sie können eine oder mehrere Sitemaps, einen oder mehrere Sitemap-Indexe oder eine Kombination aus Sitemaps und Sitemap-Indexen bei Vertex AI Search einreichen.

Wenn Sie Ihre Sitemap oder Ihren Sitemap-Index an den Vertex AI Search-Datenspeicher senden, werden die folgenden Aktionen ausgelöst:

  • Die enthaltenen URLs werden in Ihrem Datenspeicherindex indexiert.

    • Bei einer Aktualisierung nur der Sitemap enthält diese Liste nur die URLs in der Sitemap oder im Sitemap-Index, die dem in Ihrem Datenspeicher enthaltenen URL-Muster entsprechen.
    • Bei einer Kombinationsaktualisierung enthält diese Liste alle URLs, die beim automatischen Aktualisierungsprozess ermittelt werden.

    Weitere Informationen zu diesen beiden Aktualisierungsprozessen finden Sie unter Aktualisierungsmethoden für Website-Datenspeicher und Nur Sitemap aktualisieren.

  • Tägliche Aktualisierung aller hinzugefügten, gelöschten und aktualisierten URLs in der Sitemap. Ein Beispiel für eine aktualisierte URL ist, wenn Sie das Feld lastmod einer URL in der Sitemap aktualisieren.

  • Regelmäßige Aktualisierung unveränderter URLs alle 14 Tage.

Methoden zum Aktualisieren von Website-Datenspeichern

Sie haben folgende Möglichkeiten, die Sitemap-basierte Aktualisierung in Ihren Datenspeicher einzubinden:

  • Nur Sitemap-Aktualisierung: Sie können die Sitemap-basierte Aktualisierung ausschließlich verwenden, indem Sie die Erstindexierung und die automatische Aktualisierung deaktivieren.
  • Kombinierte Aktualisierung: Verwenden Sie die Sitemap-basierte Aktualisierung mit der Erstindexierung und der automatischen Aktualisierung.

Sie können bestimmte Webseiten in Ihrem Datenspeicherindex jederzeit manuell aktualisieren, unabhängig von der von Ihnen gewählten Aktualisierungsmethode.

Nur per Sitemap aktualisieren

Wenn Sie einen Datenspeicher für Websitedaten erstellen, müssen Sie URL-Muster für die Webseiten angeben, die in den Index Ihres Datenspeichers aufgenommen werden sollen. Wenn Sie einen Websitedatenspeicher erstellen, generiert Vertex AI Search standardmäßig einen ersten Index für die enthaltenen Webseiten.

Bei Websitedatenspeichern mit erweiterter Websiteindexierung ist die erste Indexierung Teil der automatischen Aktualisierung. Beim ersten Indexierungsvorgang werden alle enthaltenen URLs indexiert, die in der Google Suche verfügbar sind. Die anfängliche Aktualität dieser URLs entspricht der Aktualität in der Google Suche. Nach der ersten Indexierung werden im Rahmen der automatischen Aktualisierung neue Seiten ermittelt und auf Best-Effort-Basis aktualisiert. Das kann zu relativ veralteten Seiten und einem umfangreicheren Index führen, da bei diesem Prozess URLs ermittelt werden, die möglicherweise nicht erforderlich sind.

Stattdessen können Sie auch nur die Sitemap aktualisieren. Das ist in den folgenden Fällen sinnvoll:

  • Sie haben eine gut gepflegte Sitemap, die auf dem neuesten Stand ist.
  • Sie haben eine große Website und möchten genauer festlegen, welche Webseiten indexiert werden. Das Ergebnis ist ein schlanker, überschaubarer Index.
  • Sie müssen die hinzugefügten und aktualisierten Seiten täglich aktualisieren und gelöschte Seiten entfernen. Dadurch wird ein aktuellerer Index erstellt, der die Sitemap widerspiegelt.

In der folgenden Tabelle werden die verschiedenen Methoden zum Aktualisieren des Data-Store-Index verglichen:

Aktualisierungsmethode Precision Manuelles Eingreifen Häufigkeit Discovery
Aktualisierung auf Grundlage von Sitemaps Genau. Es werden nur die URLs in den Sitemaps indexiert. Nach dem Einreichen der Sitemap oder des Sitemap-Index nicht mehr erforderlich Täglich für hinzugefügte, gelöschte und aktualisierte URLs in der Sitemap. 14 Tage für unveränderte URLs Nicht über die in der Sitemap angegebenen hinaus.
Manuelle Aktualisierung (auch als „Neucrawl“ bezeichnet) Genau. Es werden nur die in der Anfrage zum erneuten Crawlen angegebenen URLs indexiert. Erforderlich On demand Nein.
Automatische Aktualisierung Nicht genau. Der Datenspeicher wird bestmöglich aktualisiert. Nicht erforderlich Zufällig und auf Best-Effort-Basis Ja. Es werden URLs gefunden, die über die Google Suche hinausgehen.

Hinweise

Bevor Sie eine Sitemap oder einen Sitemap-Index an den Vertex AI Search-Datenspeicher senden, müssen Sie Folgendes tun:

  • Erstellen Sie eine XML-Sitemap oder einen Sitemap-Index, in dem gemäß dem Sitemap-Protokoll auf alle Sitemaps für Ihre Website verwiesen wird.
  • Wenn Sie eine Sitemap oder einen Sitemap-Index an den Vertex AI Search-Datenspeicher senden möchten, müssen Sie sie nicht bei Google Suche einreichen.
  • Alle URLs in Ihrer Sitemap, die indexiert werden sollen, müssen zu öffentlichen Domains gehören, die in Ihrem Datenspeicher bestätigt sind. Weitere Informationen finden Sie unter Website-Domains bestätigen.
  • Der Sitemap-URI oder der Sitemap-Index-URI mit den verschachtelten Sitemap-URIs muss öffentlich verfügbar sein.

Sitemap oder Sitemap-Index für einen Datenspeicher einreichen

So lösen Sie die Indexierung und Aktualisierung der enthaltenen Webseiten in Ihrem Datenspeicher aus:

  1. Entscheiden Sie, ob Sie nur eine Sitemap aktualisieren oder eine Kombination aus Sitemap und anderen Methoden verwenden möchten.

  2. Wenn Sie nur die Sitemap aktualisieren möchten, führen Sie diesen Schritt aus. Andernfalls fahren Sie mit dem nächsten Schritt fort.

    Sie können keinen vorhandenen Datenspeicher verwenden, der bereits indexiert und aktualisiert wurde. Sie müssen einen neuen Datenspeicher erstellen, indem Sie die Erstindexierung und die automatische Aktualisierung mit der Konfiguration AdvancedSiteSearchConfig deaktivieren.

    REST

    Erstellen Sie einen Datenspeicher, in dem nur die Sitemap-Aktualisierung aktiviert ist. Dazu werden der anfängliche Index und die automatische Aktualisierung deaktiviert.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \
    -d '{
       "displayName": "DATA_STORE_DISPLAY_NAME",
       "industryVertical": "GENERIC",
       "content_config": "PUBLIC_WEBSITE",
       "searchTier": "ENTERPRISE",
       "advancedSiteSearchConfig": {
          "disableInitialIndex": true,
          "disableAutomaticRefresh": true,
       }
    }'
    

    Ersetzen Sie Folgendes:

    • PROJECT_ID: die ID Ihres Google Cloud Projekts.
    • DATA_STORE_ID: Die ID des Vertex AI Search-Datenspeichers, den Sie erstellen möchten. Diese ID darf nur Kleinbuchstaben, Ziffern, Unterstriche und Bindestriche enthalten.
    • DATA_STORE_DISPLAY_NAME: Der Anzeigename des Vertex AI Search-Datenspeichers, den Sie erstellen möchten.

  3. Aktualisieren Sie die URL-Muster der Websites, die in Ihrem Datenspeicher enthalten oder ausgeschlossen werden sollen. Weitere Informationen finden Sie unter Datenspeicher mit Websiteinhalten erstellen.

  4. Bestätigen Sie die Domains der Webseiten, die in Ihrem Datenspeicher enthalten sind.

  5. Unabhängig davon, ob Sie nur die Sitemap oder eine Kombination aktualisieren möchten, müssen Sie einen Sitemap- oder Sitemap-Index-URI mit der Methode sitemaps.create an einen Datenspeicher senden.

    REST

    Reichen Sie eine Sitemap oder einen Sitemap-Index ein.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_NUMBER" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
    

    Ersetzen Sie Folgendes:

    • PROJECT_ID: die ID Ihres Google Cloud Projekts.
    • DATA_STORE_ID: Die ID des Vertex AI Search-Datenspeichers.
    • SITEMAP_URI: Der öffentliche URI für die einzelne Sitemap oder den Sitemap-Index, den Sie einreichen möchten. Wenn Sie einen Sitemap-Index einreichen, reicht es aus, den URI des Sitemap-Index einzureichen. Vertex AI Search indexiert automatisch die enthaltenen URLs in allen Sitemaps, die im Sitemap-Index verschachtelt sind.

    Nachdem Sie die Sitemap oder den Sitemap-Index an den Datenspeicher gesendet haben, löst Vertex AI Search Folgendes aus:

    • Eine Indexierung der in der Sitemap enthaltenen infrage kommenden URLs, die in Ihrem Datenspeicher enthalten sind. Dieser Vorgang kann einige Stunden dauern. Bei größeren Sitemaps kann die Indexierung länger dauern.
    • Die Webseiten mit infrage kommenden URLs werden täglich aktualisiert.

    Informationen dazu, wie sich Änderungen an der Sitemap oder am Sitemap-Index auf die Aktualisierung auswirken, finden Sie unter Änderungen an Sitemap und Sitemap-Index.

  6. Rufen Sie die Sitemaps in Ihrem Datenspeicher auf.

Änderungen an Sitemap und Sitemap-Index

Nach der ersten Einreichung erkennt Vertex AI Search täglich Änderungen an Ihrer Sitemap oder Ihrem Sitemap-Index und verarbeitet diese Änderungen so:

  • Änderungen an einer Sitemap:
    • Wenn Sie URLs hinzufügen, werden URLs, die dem Muster der eingeschlossenen URLs für den Datenspeicher entsprechen, dem Index hinzugefügt und täglich aktualisiert.
    • Wenn Sie URLs entfernen: Wenn die entfernten URLs im Index sind, werden sie aus dem Index entfernt und nicht mehr aktualisiert.
    • Wenn Sie die vorhandenen URLs aktualisieren, z. B. das Feld lastmod für eine URL in der Sitemap, werden alle aktualisierten URLs, die dem Muster für eingeschlossene URLs für den Datenspeicher entsprechen, aktualisiert. Die Aktualisierung erfolgt in der Regel innerhalb von 24 Stunden nach dem Update.
  • Änderungen an einem Sitemap-Index:
    • Wenn Sie eine Sitemap hinzufügen, werden URLs in der neuen Sitemap, die dem Muster für eingeschlossene URLs für den Datenspeicher entsprechen, dem Index hinzugefügt und täglich aktualisiert.
    • Wenn Sie eine Sitemap entfernen, werden die URLs, die dem Muster für eingeschlossene URLs für den Datenspeicher entsprechen, nicht mehr aktualisiert. Sie bleiben jedoch weiterhin im Index. Wenn Sie die Sitemap und ihre URLs aus dem Index entfernen möchten, lesen Sie den Abschnitt Sitemap und ihre URLs aus dem Index entfernen.

Sitemaps und Sitemap-Indexe in einem Datenspeicher auflisten

Verwenden Sie die Methode sitemaps.fetch, um alle Sitemaps und Sitemap-Indexe in einem Datenspeicher aufzulisten. Wenn Sie einen Sitemap-Index eingereicht haben, wird mit dieser Methode der Sitemap-Index und nicht die einzelnen, verschachtelten Sitemaps zurückgegeben. Wenn keine Sitemaps im Datenspeicher vorhanden sind, wird mit dieser Anfrage eine leere JSON-Datei zurückgegeben.

REST

Sitemaps und Sitemap-Indexe in einem Datenspeicher auflisten.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"

Ersetzen Sie Folgendes:

  • PROJECT_ID: die ID Ihres Google Cloud Projekts.
  • DATA_STORE_ID: Die ID des Vertex AI Search-Datenspeichers.

Prüfen, ob eine Sitemap oder ein Sitemap-Index in einem Datenspeicher vorhanden ist

Mit der Methode sitemaps.fetch können Sie prüfen, ob in einem Datenspeicher eine Sitemap oder ein Sitemap-Index vorhanden ist. Wenn die Sitemap oder der Sitemap-Index, die bzw. den Sie prüfen, im Datenspeicher eingereicht wurde, enthält die Antwort den Namen und die URI der Sitemap. Wenn Sie einen Sitemap-Index eingereicht haben, werden beim Prüfen einzelner Sitemaps im Sitemap-Index nicht die richtigen Ergebnisse zurückgegeben.

REST

Suchen Sie in einem Datenspeicher nach einer Sitemap oder einem Sitemap-Index.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"

Ersetzen Sie Folgendes:

  • PROJECT_ID: die ID Ihres Google Cloud Projekts.
  • DATA_STORE_ID: Die ID des Vertex AI Search-Datenspeichers.
  • SITEMAP_URI_N: Der öffentliche URI der Sitemap oder des Sitemap-Index, den Sie im Datenspeicher prüfen möchten.

Sitemap oder Sitemap-Index aus dem Datenspeicher löschen

Verwenden Sie zum Löschen einer Sitemap aus dem Datenspeicher die Methode sitemap.delete. Wenn Sie eine Sitemap löschen, werden die zugehörigen URLs nicht aus dem Index entfernt. Informationen zum Entfernen der Sitemap und ihrer URLs aus dem Index finden Sie unter Sitemap und zugehörige URLs aus dem Index entfernen.

REST

Sitemap oder Sitemap-Index löschen

curl -X DELETE \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"

Ersetzen Sie Folgendes:

Sitemap oder Sitemap-Index und zugehörige URLs aus dem Datenspeicherindex entfernen

So entfernen Sie eine Sitemap oder einen Sitemap-Index und die zugehörigen URLs aus dem Index:

  1. Leeren Sie die Sitemap oder den Sitemap-Index, die bzw. der im Datenspeicher eingereicht wurde, indem Sie alle URLs daraus entfernen.

    Wenn Sie einen Sitemap-Index im Datenspeicher eingereicht haben, leeren Sie die verschachtelten Sitemaps, indem Sie alle URLs entfernen, und entfernen Sie die Sitemap aus dem Sitemap-Index.

  2. Warten Sie 48 Stunden, bis Vertex AI Search diese Änderungen verarbeitet und die URLs aus dem Index des Datenspeichers entfernt hat.

  3. Löschen Sie die Sitemap oder den Sitemap-Index.