Si la indexación de sitio web avanzada está habilitada en tu almacén de datos, puedes enviar y usar mapas del sitio para indexar y actualizar las páginas web de tu almacén de datos. Esta función solo admite mapas del sitio y archivos de índice de mapas del sitio en formato XML.
En esta página, se describe cómo enviar un mapa del sitio o un índice de mapa del sitio para activar la actualización y la indexación basadas en mapas del sitio. Para comprender y aplicar la actualización automática y manual sin un mapa del sitio, consulta Cómo actualizar páginas web.
Además, en esta página, se describe cómo ver los mapas del sitio en tu almacén de datos o borrar un mapa del sitio.
Conceptos de actualización basados en mapas del sitio
Estos son algunos conceptos y términos clave que te ayudarán a comenzar:
Protocolo de mapas del sitio: Todos los mapas del sitio y los índices de mapas del sitio que admite Vertex AI Search deben seguir el protocolo de mapas del sitio.
Mapa del sitio: Un mapa del sitio es un archivo XML codificado en UTF-8 que contiene una lista de URLs de las páginas y los archivos de tu sitio web, junto con otra información importante pero opcional, como la fecha de la última modificación de la página web y la prioridad de la página web para los rastreadores en comparación con otras páginas del sitio. Según el protocolo de mapas del sitio, un solo mapa del sitio puede contener un máximo de 50,000 URLs y tener un tamaño máximo de 50 MB.
Índice de mapas del sitio: Cuando tu mapa del sitio supera la cantidad máxima de URLs o el tamaño máximo, puedes crear varios mapas del sitio y enumerarlos en un archivo de índice de mapas del sitio. Según el protocolo de mapas del sitio, un solo índice de mapa del sitio puede anidar un máximo de 50,000 mapas del sitio y puede tener un tamaño máximo de 50 MB.
Puedes enviar uno o más mapas del sitio, uno o más índices de mapas del sitio, o bien una combinación de mapas del sitio y de índices de mapas del sitio a Vertex AI Search.
Cuando envías tu mapa del sitio o índice de mapas del sitio al almacén de datos de Vertex AI Search, se activan las siguientes acciones:
Indexación de las URLs incluidas en el índice de tu almacén de datos
- En el caso de una actualización solo del mapa del sitio, esta lista contiene solo las URLs del mapa del sitio o del índice del mapa del sitio que coinciden con el patrón de URL incluido en tu almacén de datos.
- En el caso de una actualización combinada, esta lista contiene todas las URLs que descubre el proceso de actualización automática.
Para obtener más información sobre estos dos procesos de actualización, consulta Métodos de actualización del almacén de datos del sitio web y Actualización solo del mapa del sitio.
Actualización diaria de las URLs agregadas, borradas y actualizadas en el mapa del sitio Un ejemplo de una URL actualizada es cuando actualizas el campo
lastmod
de una URL en el mapa del sitio.Actualización periódica de las URLs sin cambios cada 14 días.
Métodos de actualización del almacén de datos del sitio web
Puedes elegir una de las siguientes formas para incorporar la actualización basada en el mapa del sitio en tu almacén de datos:
- Actualización solo del mapa del sitio: Usa la actualización basada en el mapa del sitio de forma exclusiva desactivando la indexación inicial y la actualización automática.
- Actualización combinada: Usa la actualización basada en el mapa del sitio con la indexación inicial y la actualización automática.
Puedes actualizar manualmente páginas web específicas en el índice de tu almacén de datos en cualquier momento, independientemente del método de actualización que elijas.
Actualización solo del mapa del sitio
Cuando creas un almacén de datos de sitios web, debes proporcionar patrones de URL para las páginas web que deseas incluir en el índice de tu almacén de datos. De forma predeterminada, cuando terminas de crear un almacén de datos de sitio web, Vertex AI Search genera un índice inicial para estas páginas web incluidas.
En el caso de los almacenes de datos de sitios web con indexación avanzada de sitios web, el proceso de indexación inicial forma parte de la actualización automática. El proceso de indexación inicial indexa todas las URLs incluidas que están disponibles en la Búsqueda de Google. La actualización inicial de estas URLs refleja la actualización disponible en la Búsqueda de Google. Después de la indexación inicial, el proceso de actualización automática descubre páginas nuevas y las actualiza según el criterio del mejor esfuerzo. Esto puede generar páginas relativamente desactualizadas y un índice más voluminoso, ya que este proceso descubre URLs que podrían estar más allá de lo que se requiere.
En su lugar, puedes optar por realizar una actualización solo del mapa del sitio, lo que resulta útil en las siguientes situaciones:
- Tienes un mapa del sitio actualizado y bien mantenido.
- Tienes un sitio web grande y necesitas un mayor control sobre qué páginas web se indexan. Esto genera un índice más eficiente y fácil de administrar.
- Debes actualizar las páginas que agregaste y actualizaste a diario, y quitar las páginas borradas. Esto genera un índice más actualizado que refleja el mapa del sitio.
En la siguiente tabla, se comparan los diferentes métodos que actualizan el índice del almacén de datos:
Método de actualización | Precisión | Intervención manual | Frecuencia | Discovery |
---|---|---|---|---|
Actualización basada en el mapa del sitio | Exacto. Solo indexa las URLs de los mapas del sitio. | No es necesario después de enviar el mapa del sitio o el índice de mapa del sitio | Diariamente para las URLs agregadas, borradas y actualizadas en el mapa del sitio 14 días para las URLs sin cambios | No debe exceder los especificados en el mapa del sitio. |
Actualización manual (también conocida como nuevo rastreo) | Exacto. Solo indexa las URLs especificadas en la solicitud de nuevo rastreo. | Obligatorio | Según demanda | No. |
Actualización automática | No es exacto. El almacén de datos se actualiza según el criterio del mejor esfuerzo. | No es obligatorio | Aleatorio y según el criterio del mejor esfuerzo | Sí. Descubre URLs más allá de las que están disponibles en la Búsqueda de Google. |
Antes de comenzar
Antes de enviar un mapa del sitio o un índice de mapa del sitio al almacén de datos de Vertex AI Search, haz lo siguiente:
- Crea un mapa del sitio en formato XML o un índice de mapas del sitio que haga referencia a todos los mapas del sitio de tu sitio web según el protocolo de mapas del sitio.
- Comprende los conceptos básicos para crear un mapa del sitio. Para obtener más información, consulta Conceptos básicos sobre la actualización basada en mapas del sitio y Cómo crear y enviar un mapa del sitio.
- Ten en cuenta que, para enviar un mapa del sitio o un índice de mapas del sitio al almacén de datos de Vertex AI Search, no es necesario que los envíes a la Búsqueda de Google.
- Todas las URLs de tu mapa del sitio que quieras que se indexen deben pertenecer a dominios públicos verificados en tu almacén de datos. Para obtener más información, consulta Cómo verificar dominios de sitios web.
- El URI del mapa del sitio o el URI del índice del mapa del sitio con los URI del mapa del sitio anidados deben estar disponibles públicamente.
Envía un mapa del sitio o un índice de mapa del sitio a un almacén de datos
Para activar la indexación y la actualización de las páginas web incluidas en tu almacén de datos, sigue estos pasos:
Decide si deseas realizar una actualización solo del mapa del sitio o una actualización combinada con otros métodos.
Para realizar una actualización solo del mapa del sitio, sigue este paso. De lo contrario, pasa al siguiente.
No puedes usar un almacén de datos existente que tenga indexación y actualización iniciales. Debes crear un nuevo almacén de datos desactivando la indexación inicial y la actualización automática con la configuración de
AdvancedSiteSearchConfig
.REST
Crea un almacén de datos en el que solo esté habilitada la actualización del mapa del sitio. Para ello, desactiva el índice inicial y la actualización automática.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "content_config": "PUBLIC_WEBSITE", "searchTier": "ENTERPRISE", "advancedSiteSearchConfig": { "disableInitialIndex": true, "disableAutomaticRefresh": true, } }'
Reemplaza lo siguiente:
PROJECT_ID
: Es el ID de tu proyecto de Google Cloud .DATA_STORE_ID
: Es el ID del almacén de datos de Vertex AI Search que deseas crear. Este ID solo puede contener letras en minúscula, dígitos, guiones bajos y guiones.DATA_STORE_DISPLAY_NAME
: Es el nombre visible del almacén de datos de Vertex AI Search que deseas crear.
Actualiza los patrones de URL de los sitios que se incluirán y excluirán en tu almacén de datos. Para obtener más información, consulta Crea un almacén de datos con contenido del sitio web.
Verifica los dominios de las páginas web incluidas en tu almacén de datos.
Ya sea que elijas la actualización solo del mapa del sitio o una combinación de actualizaciones, envía un URI de mapa del sitio o de índice de mapa del sitio a un almacén de datos con el método
sitemaps.create
.REST
Envía un mapa del sitio o un índice de mapas del sitio.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_NUMBER" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
Reemplaza lo siguiente:
PROJECT_ID
: Es el ID de tu proyecto de Google Cloud .DATA_STORE_ID
: Es el ID del almacén de datos de Vertex AI Search.SITEMAP_URI
: Es el URI público del mapa del sitio individual o del índice de mapas del sitio que deseas enviar. Cuando envías un índice de mapa del sitio, es suficiente con enviar el URI del índice. Vertex AI Search indexa automáticamente las URLs incluidas en todos los mapas del sitio anidados dentro del índice de mapas del sitio.
Después de enviar el mapa del sitio o el índice del mapa del sitio al almacén de datos, Vertex AI Search activa lo siguiente:
- Una indexación de las URLs aptas en el mapa del sitio, es decir, las que se incluyen en tu almacén de datos Este proceso puede tardar algunas horas en completarse. La indexación de los mapas del sitio más grandes puede tardar más.
- Se actualizan diariamente las páginas web con URLs aptas.
Para saber cómo las modificaciones en el mapa del sitio o en el índice del mapa del sitio afectan la actualización, consulta Cambios en el mapa del sitio y en el índice del mapa del sitio.
Ver los mapas del sitio en tu almacén de datos
Cambios en el mapa del sitio y el índice del mapa del sitio
Después del envío inicial, Vertex AI Search detecta las modificaciones en tu mapa del sitio o índice del mapa del sitio a diario y las controla de la siguiente manera:
- Cambios en un mapa del sitio:
- Cuando agregas URLs: Las URLs que coinciden con el patrón de URLs incluidas para el almacén de datos se agregan al índice y se actualizan a diario.
- Cuando quitas URLs: Si las URLs quitadas están en el índice, se quitan y ya no se actualizan.
- Cuando actualizas las URLs existentes (por ejemplo, cuando actualizas el campo
lastmod
de una URL en el mapa del sitio), se actualizan todas las URLs actualizadas que coincidan con el patrón de URLs incluidas del almacén de datos. Por lo general, la actualización se produce en un plazo de 24 horas después de la actualización.
- Cambios en un índice de mapa del sitio:
- Cuando agregas un mapa del sitio, las URLs del mapa del sitio nuevo que coinciden con el patrón de URLs incluidas del almacén de datos se agregan al índice y se actualizan a diario.
- Cuando quitas un mapa del sitio, ya no se actualizan las URLs que coinciden con el patrón de URLs incluidas del almacén de datos. Sin embargo, siguen estando en el índice. Para quitar el mapa del sitio y sus URLs del índice, consulta Cómo quitar un mapa del sitio y sus URLs del índice.
Enumera los mapas del sitio y los índices de mapas del sitio en un almacén de datos
Para enumerar todos los mapas del sitio y los índices de mapas del sitio en un almacén de datos, usa el método sitemaps.fetch
. Si enviaste un índice de mapa del sitio, este método devuelve el índice y no los mapas del sitio individuales anidados.
Si no hay mapas del sitio en el almacén de datos, esta solicitud devuelve un archivo JSON vacío.
REST
Enumera los mapas del sitio y los índices de mapas del sitio en un almacén de datos.
curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"
Reemplaza lo siguiente:
PROJECT_ID
: Es el ID de tu proyecto de Google Cloud .DATA_STORE_ID
: Es el ID del almacén de datos de Vertex AI Search.
Cómo verificar si hay un mapa del sitio o un índice de mapa del sitio en un almacén de datos
Para verificar si un mapa del sitio o un índice de mapas del sitio está presente en un almacén de datos, usa el método sitemaps.fetch
. Si el mapa del sitio o el índice del mapa del sitio que estás verificando se envió al almacén de datos, la respuesta contendrá el nombre y el URI del mapa del sitio. Si enviaste un índice de mapa del sitio, la verificación de los mapas del sitio individuales dentro del índice no devolverá los resultados correctos.
REST
Verifica si hay un mapa del sitio o un índice de mapa del sitio en un almacén de datos.
curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"
Reemplaza lo siguiente:
PROJECT_ID
: Es el ID de tu proyecto de Google Cloud .DATA_STORE_ID
: Es el ID del almacén de datos de Vertex AI Search.SITEMAP_URI_N
: Es el URI público del mapa del sitio o del índice del mapa del sitio que deseas verificar en el almacén de datos.
Borra un mapa del sitio o un índice de mapas del sitio del almacén de datos
Para borrar un mapa del sitio del almacén de datos, usa el método sitemap.delete
.
Borrar un mapa del sitio no quita sus URLs del índice. Para quitar el mapa del sitio y sus URLs del índice, consulta Cómo quitar un mapa del sitio y sus URLs del índice.
REST
Borra un mapa del sitio o un índice de mapa del sitio.
curl -X DELETE \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"
Reemplaza lo siguiente:
PROJECT_ID
: Es el ID de tu proyecto de Google Cloud .DATA_STORE_ID
: Es el ID del almacén de datos de Vertex AI Search.SITEMAP_ID
: Es un ID único que identifica un mapa del sitio o un índice de mapa del sitio. Puedes encontrar este ID en el campo name de la respuesta cuando envías un mapa del sitio o un índice de mapas del sitio, o cuando muestras los mapas del sitio y los índices de mapas del sitio en tu almacén de datos.
Cómo quitar un mapa del sitio o un índice del mapa del sitio y sus URLs del índice del almacén de datos
Para quitar un mapa del sitio o un índice de mapa del sitio y sus URLs del índice, sigue estos pasos:
Vacía el mapa del sitio o el índice del mapa del sitio que se envió al almacén de datos quitando todas sus URLs.
Si enviaste un índice de mapa del sitio al almacén de datos, vacía los mapas del sitio anidados quitando todas las URLs y quita el mapa del sitio del índice de mapa del sitio.
Espera un período de 48 horas para que Vertex AI Search procese estos cambios y quite las URLs del índice del almacén de datos.