Indexar e atualizar páginas da Web usando sitemaps

Se a indexação avançada de sites estiver ativada no seu repositório de dados, você poderá enviar e usar sitemaps para indexar e atualizar as páginas da Web nele. Esse recurso é compatível apenas com sitemaps XML e índices de sitemaps.

Nesta página, descrevemos como enviar um sitemap ou índice de sitemaps para acionar a indexação e a atualização com base em sitemaps. Para entender e implementar a atualização automática e manual sem um sitemap, consulte Atualizar páginas da Web.

Além disso, esta página descreve como visualizar os sitemaps no seu repositório de dados ou excluir um sitemap.

Conceitos de atualização baseados em sitemap

Confira alguns conceitos e termos importantes para começar:

  • Protocolo de sitemap: todos os sitemaps e índices de sitemap compatíveis com a Pesquisa da Vertex AI precisam seguir o protocolo de sitemap.

  • Sitemap: um sitemap é um arquivo XML codificado em UTF-8 que contém uma lista de URLs das páginas da Web e dos arquivos de um site. Ele também contém outras informações importantes, mas opcionais, como a data da última modificação da página e a prioridade dela para um rastreador em relação às outras páginas do site. De acordo com o protocolo de sitemap, um único sitemap pode conter no máximo 50.000 URLs e ter no máximo 50 MB.

  • Índice de sitemap: quando o sitemap excede o número máximo de URLs ou o tamanho máximo, é possível criar vários sitemaps e listá-los em um arquivo de índice de sitemaps. De acordo com o protocolo de sitemaps, um único índice de sitemap pode aninhar no máximo 50.000 sitemaps e ter no máximo 50 MB.

É possível enviar um ou mais sitemaps, um ou mais índices de sitemaps ou uma combinação de sitemaps e índices de sitemaps para a Pesquisa da Vertex AI.

Ao enviar seu sitemap ou índice de sitemap ao repositório de dados da Vertex AI para Pesquisa, você aciona as seguintes ações:

  • Indexação dos URLs incluídos no índice do repositório de dados.

    • Para uma atualização somente do sitemap, essa lista contém apenas os URLs no sitemap ou índice de sitemap que correspondem ao padrão de URL incluído no seu repositório de dados.
    • Para uma atualização combinada, essa lista contém todos os URLs descobertos pelo processo de atualização automática.

    Para mais informações sobre esses dois processos de atualização, consulte Métodos de atualização do repositório de dados do site e Atualização somente do mapa do site.

  • Atualização diária de todos os URLs adicionados, excluídos e atualizados no sitemap. Um exemplo de URL atualizado é quando você atualiza o campo lastmod de um URL no sitemap.

  • Atualização periódica de URLs inalterados a cada 14 dias.

Métodos de atualização do repositório de dados do site

Você pode escolher uma das seguintes maneiras de incorporar a atualização baseada em sitemap no seu repositório de dados:

  • Atualização somente do sitemap: use a atualização com base no sitemap exclusivamente desativando a indexação inicial e a atualização automática.
  • Atualização combinada: use a atualização baseada em sitemap com indexação inicial e atualização automática.

É possível atualizar manualmente páginas da Web específicas no índice do repositório de dados a qualquer momento, independente do método de atualização escolhido.

Atualização somente de sitemap

Ao criar um repositório de dados do site, você precisa fornecer padrões de URL para as páginas da Web que quer incluir no índice do repositório. Por padrão, quando você termina de criar um repositório de dados do site, a Vertex AI para Pesquisa gera um índice inicial para essas páginas da Web incluídas.

Para repositórios de dados de sites com indexação avançada, o processo inicial faz parte da atualização automática. O processo inicial de indexação indexa todos os URLs incluídos que estão disponíveis na Pesquisa Google. A atualização inicial desses URLs reflete a atualização disponível na Pesquisa Google. Após a indexação inicial, o processo de atualização automática descobre novas páginas e as atualiza da melhor maneira possível. Isso pode resultar em páginas relativamente desatualizadas e um índice maior, porque esse processo descobre URLs que podem estar além do que é necessário.

Em vez disso, você pode atualizar apenas o sitemap, o que é útil nos seguintes cenários:

  • Você tem um sitemap bem mantido e atualizado.
  • Você tem um site grande e precisa de um controle mais rígido sobre quais páginas da Web são indexadas. Isso resulta em um índice mais enxuto e gerenciável.
  • É necessário atualizar diariamente as páginas adicionadas e atualizadas e remover as excluídas. Isso resulta em um índice mais atualizado que reflete o sitemap.

A tabela a seguir compara os diferentes métodos que atualizam o índice do repositório de dados:

Método de atualização Precisão Intervenção manual Frequência Discovery
Atualização com base em sitemap Exato. Indexa apenas os URLs nos sitemaps. Não é necessário depois de enviar o sitemap ou o índice de sitemaps Diariamente para URLs adicionados, excluídos e atualizados no sitemap. 14 dias para URLs inalterados Não exceda os especificados no sitemap.
Atualização manual (também conhecida como recrawl) Exato. Indexa apenas os URLs especificados na solicitação de recrawl. Obrigatório Sob demanda Não.
Atualização automática Não é exato. O repositório de dados é atualizado da melhor maneira possível. Não obrigatório Aleatório e na medida do possível Sim. Descobre URLs além do que está disponível na Pesquisa Google.

Antes de começar

Antes de enviar um sitemap ou índice de sitemaps para o repositório de dados da Vertex AI para Pesquisa:

  • Crie um sitemap XML ou um índice de sitemaps que faça referência a todos os sitemaps do seu site de acordo com o protocolo de sitemaps.
  • Para enviar um sitemap ou um índice de sitemap ao repositório de dados da Vertex AI para Pesquisa, não é necessário enviá-los ao Google Pesquisa.
  • Todos os URLs no sitemap que você quer indexar precisam pertencer a domínios públicos verificados no repositório de dados. Para mais informações, consulte Verificar domínios de sites.
  • O URI do sitemap ou o URI do índice de sitemap com os URIs de sitemap aninhados precisam estar disponíveis publicamente.

Enviar um sitemap ou índice de sitemap para um repositório de dados

Para acionar a indexação e a atualização das páginas da Web incluídas no seu repositório de dados, siga estas etapas:

  1. Decida se você quer fazer uma atualização somente do sitemap ou uma atualização combinada com outros métodos.

  2. Para fazer uma atualização apenas do sitemap, siga esta etapa. Caso contrário, pule para a próxima.

    Não é possível usar um repositório de dados que já tenha indexação e atualização iniciais. Crie um novo repositório de dados desativando a indexação inicial e a atualização automática usando a configuração AdvancedSiteSearchConfig.

    REST

    Crie um repositório de dados em que apenas a atualização do sitemap esteja ativada. Isso é feito desativando o índice inicial e a atualização automática.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \
    -d '{
       "displayName": "DATA_STORE_DISPLAY_NAME",
       "industryVertical": "GENERIC",
       "content_config": "PUBLIC_WEBSITE",
       "searchTier": "ENTERPRISE",
       "advancedSiteSearchConfig": {
          "disableInitialIndex": true,
          "disableAutomaticRefresh": true,
       }
    }'
    

    Substitua:

    • PROJECT_ID: o ID do seu Google Cloud projeto.
    • DATA_STORE_ID: o ID do repositório de dados da Vertex AI para Pesquisa que você quer criar. Esse ID só pode conter letras minúsculas, dígitos, sublinhados e hífens.
    • DATA_STORE_DISPLAY_NAME: o nome de exibição do repositório de dados da Vertex AI para Pesquisa que você quer criar.

  3. Atualize os padrões de URL dos sites a serem incluídos e excluídos no seu repositório de dados. Para mais informações, consulte Criar um repositório de dados usando conteúdo de sites.

  4. Verifique os domínios das páginas da Web incluídas no seu repositório de dados.

  5. Se você escolher uma atualização somente do sitemap ou uma atualização combinada, envie um URI de sitemap ou índice de sitemap para um repositório de dados usando o método sitemaps.create.

    REST

    Envie um sitemap ou índice de sitemaps.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_NUMBER" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
    

    Substitua:

    • PROJECT_ID: o ID do seu Google Cloud projeto.
    • DATA_STORE_ID: o ID do repositório de dados da Vertex AI para Pesquisa.
    • SITEMAP_URI: o URI público do sitemap individual ou do índice de sitemaps que você quer enviar. Ao enviar um índice de sitemap, basta enviar o URI dele. A Vertex AI para Pesquisa indexa automaticamente os URLs incluídos em todos os sitemaps aninhados no índice de sitemap.

    Depois que você envia o sitemap ou o índice de sitemap ao repositório de dados, a Vertex AI para Pesquisa aciona o seguinte:

    • Uma indexação dos URLs qualificados no sitemap, ou seja, aqueles incluídos no seu repositório de dados. Esse processo pode levar algumas horas para ser concluído. Sitemaps maiores podem levar mais tempo para serem indexados.
    • Uma atualização diária das páginas da Web com URLs qualificados.

    Para saber como as modificações no sitemap ou no índice de sitemaps afetam a atualização, consulte Mudanças no sitemap e no índice de sitemaps.

  6. Veja os sitemaps no seu repositório de dados.

Mudanças no sitemap e no índice de sitemaps

Após o envio inicial, a Vertex AI para Pesquisa detecta modificações no sitemap ou no índice de sitemap diariamente e processa essas modificações da seguinte maneira:

  • Mudanças em um sitemap:
    • Ao adicionar URLs: os URLs que correspondem ao padrão de URLs incluídos para o repositório de dados são adicionados ao índice e atualizados diariamente.
    • Quando você remove URLs: se os URLs removidos estiverem no índice, eles serão removidos e não serão mais atualizados.
    • Quando você atualiza os URLs atuais, por exemplo, o campo lastmod de um URL no sitemap: todos os URLs atualizados que correspondem ao padrão de URLs incluídos para o repositório de dados são atualizados. A atualização geralmente ocorre em até 24 horas.
  • Mudanças em um índice de sitemap:
    • Quando você adiciona um sitemap: os URLs no novo sitemap que correspondem ao padrão de URLs incluídos para o repositório de dados são adicionados ao índice e atualizados diariamente.
    • Quando você remove um sitemap, os URLs que correspondem ao padrão de URLs incluídos do repositório de dados não são mais atualizados. No entanto, eles ainda permanecem no índice. Para remover o sitemap e os URLs dele do índice, consulte Remover um sitemap e os URLs dele do índice.

Listar os sitemaps e índices de sitemap em um repositório de dados

Para listar todos os sitemaps e índices de sitemap em um repositório de dados, use o método sitemaps.fetch. Se você enviou um índice de sitemap, esse método retorna o índice de sitemap e não os sitemaps individuais e aninhados. Se não houver sitemaps no repositório de dados, essa solicitação vai retornar um arquivo JSON vazio.

REST

Liste os sitemaps e índices de sitemaps em um repositório de dados.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"

Substitua:

  • PROJECT_ID: o ID do seu Google Cloud projeto.
  • DATA_STORE_ID: o ID do repositório de dados da Vertex AI para Pesquisa.

Verificar se um sitemap ou índice de sitemaps está presente em um repositório de dados

Para verificar se um sitemap ou índice de sitemaps está presente em um repositório de dados, use o método sitemaps.fetch. Se o sitemap ou índice de sitemap que você está verificando foi enviado ao repositório de dados, a resposta vai conter o nome e o URI do sitemap. Se você enviou um índice de sitemaps, verificar sitemaps individuais dentro dele não vai retornar os resultados corretos.

REST

Verifique se há um sitemap ou índice de sitemaps em um repositório de dados.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"

Substitua:

  • PROJECT_ID: o ID do seu Google Cloud projeto.
  • DATA_STORE_ID: o ID do repositório de dados da Vertex AI para Pesquisa.
  • SITEMAP_URI_N: o URI público do sitemap ou o índice do sitemap que você quer verificar no repositório de dados.

Excluir um sitemap ou índice de sitemap do repositório de dados

Para excluir um sitemap do repositório de dados, use o método sitemap.delete. A exclusão de um sitemap não remove os URLs dele do índice. Para remover o sitemap e os URLs dele do índice, consulte Remover um sitemap e os URLs dele do índice.

REST

Exclua um sitemap ou índice de sitemaps.

curl -X DELETE \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"

Substitua:

Remover um sitemap ou um índice de sitemaps e os URLs dele do índice do repositório de dados

Para remover um sitemap ou um índice de sitemap e os URLs dele do índice, siga estas etapas:

  1. Esvazie o sitemap ou o índice de sitemap enviado ao repositório de dados removendo todos os URLs.

    Se você enviou um índice de sitemap para o repositório de dados, esvazie os sitemaps aninhados removendo todos os URLs e o sitemap do índice.

  2. Aguarde um período de 48 horas para que a Vertex AI para Pesquisa processe essas mudanças e remova os URLs do índice do repositório de dados.

  3. Exclua o sitemap ou o índice de sitemaps.