Mengindeks dan memuat ulang halaman web menggunakan peta situs

Jika pengindeksan situs lanjutan diaktifkan di penyimpanan data, Anda dapat mengirimkan dan menggunakan peta situs untuk mengindeks dan memperbarui halaman web di penyimpanan data. Fitur ini hanya mendukung peta situs XML dan indeks peta situs.

Halaman ini menjelaskan cara mengirimkan peta situs atau indeks peta situs untuk memicu pengindeksan dan pembaruan berbasis peta situs. Untuk memahami dan menerapkan pembaruan otomatis dan manual tanpa peta situs, lihat Memuat ulang halaman web.

Selain itu, halaman ini menjelaskan cara melihat peta situs di penyimpanan data Anda atau menghapus peta situs.

Konsep pembaruan berbasis peta situs

Berikut adalah beberapa konsep dan istilah utama yang akan membantu Anda memulai:

  • Protokol peta situs: Semua peta situs dan indeks peta situs yang didukung Vertex AI Search harus mengikuti protokol peta situs.

  • Peta situs: Peta situs adalah file XML yang dienkode UTF-8 yang berisi daftar URL halaman web dan file di situs Anda dengan informasi penting lainnya yang bersifat opsional seperti tanggal terakhir diubahnya halaman web dan prioritas halaman web untuk crawler dibandingkan dengan halaman web lain di situs Anda. Menurut protokol peta situs, satu peta situs dapat berisi maksimum 50.000 URL dan ukurannya maksimum 50 MB.

  • Indeks peta situs: Jika peta situs Anda melebihi jumlah URL maksimum atau ukuran maksimum, Anda dapat membuat beberapa peta situs dan mencantumkan peta situs ini dalam file indeks peta situs. Menurut protokol peta situs, satu indeks peta situs dapat menyertakan maksimum 50.000 peta situs dan ukurannya maksimum 50 MB.

Anda dapat mengirim satu atau beberapa peta situs, satu atau beberapa indeks peta situs, atau kombinasi peta situs dan indeks peta situs ke Vertex AI Search.

Saat Anda mengirimkan peta situs atau indeks peta situs ke penyimpanan data Vertex AI Search, Anda akan memicu tindakan berikut:

  • Pengindeksan URL yang disertakan dalam indeks penyimpanan data Anda.

    • Untuk refresh khusus peta situs, daftar ini hanya berisi URL dalam peta situs atau indeks peta situs yang sesuai dengan pola URL yang disertakan dalam penyimpanan data Anda.
    • Untuk pemuatan ulang kombinasi, daftar ini berisi semua URL yang ditemukan oleh proses pemuatan ulang otomatis.

    Untuk mengetahui informasi selengkapnya tentang dua proses pemuatan ulang ini, lihat Metode pemuatan ulang penyimpanan data situs dan Pemuatan ulang hanya peta situs.

  • Pembaruan harian untuk semua URL yang ditambahkan, dihapus, dan diperbarui ke peta situs. Contoh URL yang diperbarui adalah saat Anda memperbarui kolom lastmod dari URL di peta situs.

  • Pembaruan berkala URL yang tidak berubah setiap 14 hari.

Metode pembaruan penyimpanan data situs

Anda dapat memilih salah satu cara berikut untuk menggabungkan refresh berbasis peta situs di penyimpanan data Anda:

  • Refresh khusus peta situs: Gunakan refresh berbasis peta situs secara eksklusif dengan menonaktifkan pengindeksan awal dan refresh otomatis.
  • Pemuatan ulang kombinasi: Gunakan pemuatan ulang berbasis peta situs dengan pengindeksan awal dan pemuatan ulang otomatis.

Anda dapat memuat ulang secara manual halaman web tertentu dalam indeks penyimpanan data kapan saja, terlepas dari metode pembaruan yang Anda pilih.

Pemuatan ulang khusus peta situs

Saat membuat penyimpanan data situs, Anda harus memberikan pola URL untuk halaman web yang ingin disertakan dalam indeks penyimpanan data. Secara default, saat Anda selesai membuat penyimpanan data situs, Vertex AI Search akan membuat indeks awal untuk halaman web yang disertakan ini.

Untuk penyimpanan data situs dengan pengindeksan situs lanjutan, proses pengindeksan awal adalah bagian dari pembaruan otomatis. Proses pengindeksan awal mengindeks semua URL yang disertakan dan tersedia di Google Penelusuran. Kualitas awal URL ini mencerminkan kualitas yang tersedia di Google Penelusuran. Setelah pengindeksan awal, proses pemuatan ulang otomatis menemukan halaman baru dan memuat ulang halaman tersebut berdasarkan upaya terbaik. Hal ini dapat menyebabkan halaman yang relatif tidak terbaru dan indeks yang lebih besar karena proses ini menemukan URL yang mungkin melampaui apa yang diperlukan.

Sebagai gantinya, Anda dapat memilih untuk melakukan refresh khusus peta situs, yang berguna dalam skenario berikut:

  • Anda memiliki peta situs yang terkelola dengan baik dan selalu diperbarui.
  • Anda memiliki situs besar dan memerlukan kontrol yang lebih ketat atas halaman web yang diindeks. Hal ini menghasilkan indeks yang lebih ramping dan mudah dikelola.
  • Anda harus memuat ulang halaman yang ditambahkan dan diperbarui setiap hari, serta menghapus halaman yang dihapus. Tindakan ini akan menghasilkan indeks yang lebih baru yang mencerminkan peta situs.

Tabel berikut membandingkan berbagai metode yang memperbarui indeks penyimpanan data:

Metode pembaruan Presisi Intervensi manual Frekuensi Discovery
Pembaruan berbasis peta situs Persis. Mengindeks hanya URL dalam peta situs. Tidak diperlukan setelah mengirimkan peta situs atau indeks peta situs Harian untuk URL yang ditambahkan, dihapus, diperbarui di peta situs. 14 hari untuk URL yang tidak berubah Tidak melampaui yang ditentukan dalam peta situs.
Pemuatan ulang manual (juga dikenal sebagai pengindeksan ulang) Persis. Mengindeks hanya URL yang ditentukan dalam permintaan pengindeksan ulang. Wajib On demand Tidak.
Pemuatan ulang otomatis Tidak persis. Penyimpanan data diperbarui berdasarkan upaya terbaik. Tidak diperlukan Acak dan berdasarkan upaya terbaik Ya. Menemukan URL di luar yang tersedia di Google Penelusuran.

Sebelum memulai

Sebelum Anda mengirimkan peta situs atau indeks peta situs ke penyimpanan data Vertex AI Search:

  • Buat peta situs XML atau indeks peta situs yang mereferensikan semua peta situs untuk situs Anda sesuai dengan protokol peta situs.
  • Pahami bahwa untuk mengirimkan peta situs atau indeks peta situs ke penyimpanan data Vertex AI Search, Anda tidak perlu mengirimkannya ke Google Penelusuran.
  • Semua URL di peta situs yang ingin Anda indeks harus termasuk dalam domain publik yang diverifikasi di penyimpanan data Anda. Untuk mengetahui informasi selengkapnya, lihat Memverifikasi domain situs.
  • URI peta situs atau URI indeks peta situs dengan URI peta situs bertingkat harus tersedia secara publik.

Mengirimkan peta situs atau indeks peta situs ke penyimpanan data

Untuk memicu pengindeksan dan pembaruan halaman web yang disertakan di penyimpanan data Anda, ikuti langkah-langkah berikut:

  1. Tentukan apakah Anda ingin melakukan pembaruan khusus peta situs atau pembaruan kombinasi dengan metode lain.

  2. Untuk melakukan pembaruan khusus peta situs, ikuti langkah ini, atau lewati ke langkah berikutnya.

    Anda tidak dapat menggunakan penyimpanan data yang sudah ada yang memiliki pengindeksan dan pembaruan awal. Anda harus membuat penyimpanan data baru dengan menonaktifkan pengindeksan awal dan pembaruan otomatis menggunakan konfigurasi AdvancedSiteSearchConfig.

    REST

    Buat penyimpanan data yang hanya mengaktifkan refresh peta situs. Hal ini dilakukan dengan menonaktifkan indeks awal dan refresh otomatis.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \
    -d '{
       "displayName": "DATA_STORE_DISPLAY_NAME",
       "industryVertical": "GENERIC",
       "content_config": "PUBLIC_WEBSITE",
       "searchTier": "ENTERPRISE",
       "advancedSiteSearchConfig": {
          "disableInitialIndex": true,
          "disableAutomaticRefresh": true,
       }
    }'
    

    Ganti kode berikut:

    • PROJECT_ID: ID Google Cloud project Anda.
    • DATA_STORE_ID: ID penyimpanan data Vertex AI Search yang ingin Anda buat. ID ini hanya boleh berisi huruf kecil, angka, garis bawah, dan tanda hubung.
    • DATA_STORE_DISPLAY_NAME: nama tampilan penyimpanan data Vertex AI Search yang ingin Anda buat.

  3. Perbarui pola URL situs yang akan disertakan dan dikecualikan dalam penyimpanan data Anda. Untuk mengetahui informasi selengkapnya, lihat Membuat penyimpanan data menggunakan konten situs.

  4. Verifikasi domain halaman web yang disertakan dalam penyimpanan data Anda.

  5. Baik Anda memilih refresh khusus peta situs atau refresh kombinasi, kirimkan URI peta situs atau indeks peta situs ke penyimpanan data menggunakan metode sitemaps.create.

    REST

    Kirim peta situs atau indeks peta situs.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_NUMBER" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
    

    Ganti kode berikut:

    • PROJECT_ID: ID Google Cloud project Anda.
    • DATA_STORE_ID: ID penyimpanan data Vertex AI Search.
    • SITEMAP_URI: URI publik untuk peta situs individual atau indeks peta situs yang ingin Anda kirimkan. Saat Anda mengirimkan indeks peta situs, cukup kirimkan URI indeks peta situs. Vertex AI Search secara otomatis mengindeks URL yang disertakan di semua peta situs yang bertingkat dalam indeks peta situs.

    Setelah Anda mengirimkan peta situs atau indeks peta situs ke penyimpanan data, Vertex AI Search akan memicu hal berikut:

    • Pengindeksan URL yang memenuhi syarat dalam peta situs—URL yang disertakan dalam penyimpanan data Anda. Proses ini dapat memerlukan waktu beberapa jam hingga selesai. Peta situs yang lebih besar memerlukan waktu lebih lama untuk diindeks.
    • Pemuatan ulang harian halaman web dengan URL yang memenuhi syarat.

    Untuk mengetahui pengaruh modifikasi pada peta situs atau indeks peta situs terhadap pembaruan, lihat Perubahan pada peta situs dan indeks peta situs.

  6. Lihat peta situs di penyimpanan data Anda.

Perubahan pada peta situs dan indeks peta situs

Setelah pengiriman awal, Vertex AI Search mendeteksi modifikasi dalam peta situs atau indeks peta situs Anda setiap hari dan menangani modifikasi ini dengan cara berikut:

  • Perubahan pada peta situs:
    • Saat Anda menambahkan URL: URL yang cocok dengan pola URL yang disertakan untuk penyimpanan data ditambahkan ke indeks dan diperbarui setiap hari.
    • Saat Anda menghapus URL: Jika URL yang dihapus ada dalam indeks, URL tersebut akan dihapus dari indeks dan tidak lagi diperbarui.
    • Saat Anda memperbarui URL yang ada—misalnya, saat Anda memperbarui kolom lastmod untuk URL di peta situs: Semua URL yang diperbarui yang cocok dengan pola URL yang disertakan untuk penyimpanan data akan diperbarui. Pembaruan biasanya terjadi dalam waktu 24 jam setelah update.
  • Perubahan pada indeks peta situs:
    • Saat Anda menambahkan peta situs: URL di peta situs baru yang cocok dengan pola URL yang disertakan untuk penyimpanan data ditambahkan ke indeks dan diperbarui setiap hari.
    • Saat Anda menghapus peta situs: URL yang cocok dengan pola URL yang disertakan untuk penyimpanan data tidak lagi diperbarui. Namun, halaman tersebut masih ada di indeks. Untuk menghapus peta situs dan URL-nya dari indeks, lihat Menghapus peta situs dan URL-nya dari indeks.

Mencantumkan peta situs dan indeks peta situs di penyimpanan data

Untuk mencantumkan semua peta situs dan indeks peta situs di penyimpanan data, gunakan metode sitemaps.fetch. Jika Anda telah mengirimkan indeks peta situs, metode ini akan menampilkan indeks peta situs, bukan peta situs individual yang disarangkan. Jika tidak ada peta situs di penyimpanan data, permintaan ini akan menampilkan file JSON kosong.

REST

Mencantumkan peta situs dan indeks peta situs di penyimpanan data.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"

Ganti kode berikut:

  • PROJECT_ID: ID Google Cloud project Anda.
  • DATA_STORE_ID: ID penyimpanan data Vertex AI Search.

Memeriksa apakah peta situs atau indeks peta situs ada di penyimpanan data

Untuk memeriksa apakah peta situs atau indeks peta situs ada di penyimpanan data, gunakan metode sitemaps.fetch. Jika peta situs atau indeks peta situs yang Anda periksa dikirimkan ke penyimpanan data, maka respons akan berisi nama peta situs dan URI peta situs. Jika Anda telah mengirimkan indeks peta situs, maka memeriksa setiap peta situs dalam indeks peta situs tidak akan memberikan hasil yang benar.

REST

Periksa peta situs atau indeks peta situs di penyimpanan data.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"

Ganti kode berikut:

  • PROJECT_ID: ID Google Cloud project Anda.
  • DATA_STORE_ID: ID penyimpanan data Vertex AI Search.
  • SITEMAP_URI_N: URI publik peta situs atau indeks peta situs yang datanya ingin Anda periksa di penyimpanan data.

Menghapus peta situs atau indeks peta situs dari penyimpanan data

Untuk menghapus peta situs dari penyimpanan data, gunakan metode sitemap.delete. Menghapus peta situs tidak akan menghapus URL-nya dari indeks. Untuk menghapus peta situs dan URL-nya dari indeks, lihat Menghapus peta situs dan URL-nya dari indeks.

REST

Menghapus peta situs atau indeks peta situs.

curl -X DELETE \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"

Ganti kode berikut:

Menghapus peta situs atau indeks peta situs dan URL-nya dari indeks penyimpanan data

Untuk menghapus peta situs atau indeks peta situs dan URL-nya dari indeks, ikuti langkah-langkah berikut:

  1. Kosongkan peta situs atau indeks peta situs yang dikirimkan ke penyimpanan data dengan menghapus semua URL-nya.

    Jika Anda mengirimkan indeks peta situs ke penyimpanan data, kosongkan peta situs bertingkat dengan menghapus semua URL dan hapus peta situs dari indeks peta situs.

  2. Tunggu selama 48 jam agar Vertex AI Search memproses perubahan ini dan menghapus URL dari indeks penyimpanan data.

  3. Hapus peta situs atau indeks peta situs.