Jika pengindeksan situs lanjutan diaktifkan di penyimpanan data, Anda dapat mengirimkan dan menggunakan peta situs untuk mengindeks dan memperbarui halaman web di penyimpanan data. Fitur ini hanya mendukung peta situs XML dan indeks peta situs.
Halaman ini menjelaskan cara mengirimkan peta situs atau indeks peta situs untuk memicu pengindeksan dan pembaruan berbasis peta situs. Untuk memahami dan menerapkan pembaruan otomatis dan manual tanpa peta situs, lihat Memuat ulang halaman web.
Selain itu, halaman ini menjelaskan cara melihat peta situs di penyimpanan data Anda atau menghapus peta situs.
Konsep pembaruan berbasis peta situs
Berikut adalah beberapa konsep dan istilah utama yang akan membantu Anda memulai:
Protokol peta situs: Semua peta situs dan indeks peta situs yang didukung Vertex AI Search harus mengikuti protokol peta situs.
Peta situs: Peta situs adalah file XML yang dienkode UTF-8 yang berisi daftar URL halaman web dan file di situs Anda dengan informasi penting lainnya yang bersifat opsional seperti tanggal terakhir diubahnya halaman web dan prioritas halaman web untuk crawler dibandingkan dengan halaman web lain di situs Anda. Menurut protokol peta situs, satu peta situs dapat berisi maksimum 50.000 URL dan ukurannya maksimum 50 MB.
Indeks peta situs: Jika peta situs Anda melebihi jumlah URL maksimum atau ukuran maksimum, Anda dapat membuat beberapa peta situs dan mencantumkan peta situs ini dalam file indeks peta situs. Menurut protokol peta situs, satu indeks peta situs dapat menyertakan maksimum 50.000 peta situs dan ukurannya maksimum 50 MB.
Anda dapat mengirim satu atau beberapa peta situs, satu atau beberapa indeks peta situs, atau kombinasi peta situs dan indeks peta situs ke Vertex AI Search.
Saat Anda mengirimkan peta situs atau indeks peta situs ke penyimpanan data Vertex AI Search, Anda akan memicu tindakan berikut:
Pengindeksan URL yang disertakan dalam indeks penyimpanan data Anda.
- Untuk refresh khusus peta situs, daftar ini hanya berisi URL dalam peta situs atau indeks peta situs yang sesuai dengan pola URL yang disertakan dalam penyimpanan data Anda.
- Untuk pemuatan ulang kombinasi, daftar ini berisi semua URL yang ditemukan oleh proses pemuatan ulang otomatis.
Untuk mengetahui informasi selengkapnya tentang dua proses pemuatan ulang ini, lihat Metode pemuatan ulang penyimpanan data situs dan Pemuatan ulang hanya peta situs.
Pembaruan harian untuk semua URL yang ditambahkan, dihapus, dan diperbarui ke peta situs. Contoh URL yang diperbarui adalah saat Anda memperbarui kolom
lastmod
dari URL di peta situs.Pembaruan berkala URL yang tidak berubah setiap 14 hari.
Metode pembaruan penyimpanan data situs
Anda dapat memilih salah satu cara berikut untuk menggabungkan refresh berbasis peta situs di penyimpanan data Anda:
- Refresh khusus peta situs: Gunakan refresh berbasis peta situs secara eksklusif dengan menonaktifkan pengindeksan awal dan refresh otomatis.
- Pemuatan ulang kombinasi: Gunakan pemuatan ulang berbasis peta situs dengan pengindeksan awal dan pemuatan ulang otomatis.
Anda dapat memuat ulang secara manual halaman web tertentu dalam indeks penyimpanan data kapan saja, terlepas dari metode pembaruan yang Anda pilih.
Pemuatan ulang khusus peta situs
Saat membuat penyimpanan data situs, Anda harus memberikan pola URL untuk halaman web yang ingin disertakan dalam indeks penyimpanan data. Secara default, saat Anda selesai membuat penyimpanan data situs, Vertex AI Search akan membuat indeks awal untuk halaman web yang disertakan ini.
Untuk penyimpanan data situs dengan pengindeksan situs lanjutan, proses pengindeksan awal adalah bagian dari pembaruan otomatis. Proses pengindeksan awal mengindeks semua URL yang disertakan dan tersedia di Google Penelusuran. Kualitas awal URL ini mencerminkan kualitas yang tersedia di Google Penelusuran. Setelah pengindeksan awal, proses pemuatan ulang otomatis menemukan halaman baru dan memuat ulang halaman tersebut berdasarkan upaya terbaik. Hal ini dapat menyebabkan halaman yang relatif tidak terbaru dan indeks yang lebih besar karena proses ini menemukan URL yang mungkin melampaui apa yang diperlukan.
Sebagai gantinya, Anda dapat memilih untuk melakukan refresh khusus peta situs, yang berguna dalam skenario berikut:
- Anda memiliki peta situs yang terkelola dengan baik dan selalu diperbarui.
- Anda memiliki situs besar dan memerlukan kontrol yang lebih ketat atas halaman web yang diindeks. Hal ini menghasilkan indeks yang lebih ramping dan mudah dikelola.
- Anda harus memuat ulang halaman yang ditambahkan dan diperbarui setiap hari, serta menghapus halaman yang dihapus. Tindakan ini akan menghasilkan indeks yang lebih baru yang mencerminkan peta situs.
Tabel berikut membandingkan berbagai metode yang memperbarui indeks penyimpanan data:
Metode pembaruan | Presisi | Intervensi manual | Frekuensi | Discovery |
---|---|---|---|---|
Pembaruan berbasis peta situs | Persis. Mengindeks hanya URL dalam peta situs. | Tidak diperlukan setelah mengirimkan peta situs atau indeks peta situs | Harian untuk URL yang ditambahkan, dihapus, diperbarui di peta situs. 14 hari untuk URL yang tidak berubah | Tidak melampaui yang ditentukan dalam peta situs. |
Pemuatan ulang manual (juga dikenal sebagai pengindeksan ulang) | Persis. Mengindeks hanya URL yang ditentukan dalam permintaan pengindeksan ulang. | Wajib | On demand | Tidak. |
Pemuatan ulang otomatis | Tidak persis. Penyimpanan data diperbarui berdasarkan upaya terbaik. | Tidak diperlukan | Acak dan berdasarkan upaya terbaik | Ya. Menemukan URL di luar yang tersedia di Google Penelusuran. |
Sebelum memulai
Sebelum Anda mengirimkan peta situs atau indeks peta situs ke penyimpanan data Vertex AI Search:
- Buat peta situs XML atau indeks peta situs yang mereferensikan semua peta situs untuk
situs Anda sesuai dengan protokol peta situs.
- Pahami dasar-dasar pembuatan peta situs. Untuk mengetahui informasi selengkapnya, lihat Konsep pembaruan berbasis peta situs dan Membuat dan mengirimkan peta situs.
- Pahami bahwa untuk mengirimkan peta situs atau indeks peta situs ke penyimpanan data Vertex AI Search, Anda tidak perlu mengirimkannya ke Google Penelusuran.
- Semua URL di peta situs yang ingin Anda indeks harus termasuk dalam domain publik yang diverifikasi di penyimpanan data Anda. Untuk mengetahui informasi selengkapnya, lihat Memverifikasi domain situs.
- URI peta situs atau URI indeks peta situs dengan URI peta situs bertingkat harus tersedia secara publik.
Mengirimkan peta situs atau indeks peta situs ke penyimpanan data
Untuk memicu pengindeksan dan pembaruan halaman web yang disertakan di penyimpanan data Anda, ikuti langkah-langkah berikut:
Tentukan apakah Anda ingin melakukan pembaruan khusus peta situs atau pembaruan kombinasi dengan metode lain.
Untuk melakukan pembaruan khusus peta situs, ikuti langkah ini, atau lewati ke langkah berikutnya.
Anda tidak dapat menggunakan penyimpanan data yang sudah ada yang memiliki pengindeksan dan pembaruan awal. Anda harus membuat penyimpanan data baru dengan menonaktifkan pengindeksan awal dan pembaruan otomatis menggunakan konfigurasi
AdvancedSiteSearchConfig
.REST
Buat penyimpanan data yang hanya mengaktifkan refresh peta situs. Hal ini dilakukan dengan menonaktifkan indeks awal dan refresh otomatis.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "content_config": "PUBLIC_WEBSITE", "searchTier": "ENTERPRISE", "advancedSiteSearchConfig": { "disableInitialIndex": true, "disableAutomaticRefresh": true, } }'
Ganti kode berikut:
PROJECT_ID
: ID Google Cloud project Anda.DATA_STORE_ID
: ID penyimpanan data Vertex AI Search yang ingin Anda buat. ID ini hanya boleh berisi huruf kecil, angka, garis bawah, dan tanda hubung.DATA_STORE_DISPLAY_NAME
: nama tampilan penyimpanan data Vertex AI Search yang ingin Anda buat.
Perbarui pola URL situs yang akan disertakan dan dikecualikan dalam penyimpanan data Anda. Untuk mengetahui informasi selengkapnya, lihat Membuat penyimpanan data menggunakan konten situs.
Verifikasi domain halaman web yang disertakan dalam penyimpanan data Anda.
Baik Anda memilih refresh khusus peta situs atau refresh kombinasi, kirimkan URI peta situs atau indeks peta situs ke penyimpanan data menggunakan metode
sitemaps.create
.REST
Kirim peta situs atau indeks peta situs.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_NUMBER" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
Ganti kode berikut:
PROJECT_ID
: ID Google Cloud project Anda.DATA_STORE_ID
: ID penyimpanan data Vertex AI Search.SITEMAP_URI
: URI publik untuk peta situs individual atau indeks peta situs yang ingin Anda kirimkan. Saat Anda mengirimkan indeks peta situs, cukup kirimkan URI indeks peta situs. Vertex AI Search secara otomatis mengindeks URL yang disertakan di semua peta situs yang bertingkat dalam indeks peta situs.
Setelah Anda mengirimkan peta situs atau indeks peta situs ke penyimpanan data, Vertex AI Search akan memicu hal berikut:
- Pengindeksan URL yang memenuhi syarat dalam peta situs—URL yang disertakan dalam penyimpanan data Anda. Proses ini dapat memerlukan waktu beberapa jam hingga selesai. Peta situs yang lebih besar memerlukan waktu lebih lama untuk diindeks.
- Pemuatan ulang harian halaman web dengan URL yang memenuhi syarat.
Untuk mengetahui pengaruh modifikasi pada peta situs atau indeks peta situs terhadap pembaruan, lihat Perubahan pada peta situs dan indeks peta situs.
Lihat peta situs di penyimpanan data Anda.
Perubahan pada peta situs dan indeks peta situs
Setelah pengiriman awal, Vertex AI Search mendeteksi modifikasi dalam peta situs atau indeks peta situs Anda setiap hari dan menangani modifikasi ini dengan cara berikut:
- Perubahan pada peta situs:
- Saat Anda menambahkan URL: URL yang cocok dengan pola URL yang disertakan untuk penyimpanan data ditambahkan ke indeks dan diperbarui setiap hari.
- Saat Anda menghapus URL: Jika URL yang dihapus ada dalam indeks, URL tersebut akan dihapus dari indeks dan tidak lagi diperbarui.
- Saat Anda memperbarui URL yang ada—misalnya, saat Anda memperbarui
kolom
lastmod
untuk URL di peta situs: Semua URL yang diperbarui yang cocok dengan pola URL yang disertakan untuk penyimpanan data akan diperbarui. Pembaruan biasanya terjadi dalam waktu 24 jam setelah update.
- Perubahan pada indeks peta situs:
- Saat Anda menambahkan peta situs: URL di peta situs baru yang cocok dengan pola URL yang disertakan untuk penyimpanan data ditambahkan ke indeks dan diperbarui setiap hari.
- Saat Anda menghapus peta situs: URL yang cocok dengan pola URL yang disertakan untuk penyimpanan data tidak lagi diperbarui. Namun, halaman tersebut masih ada di indeks. Untuk menghapus peta situs dan URL-nya dari indeks, lihat Menghapus peta situs dan URL-nya dari indeks.
Mencantumkan peta situs dan indeks peta situs di penyimpanan data
Untuk mencantumkan semua peta situs dan indeks peta situs di penyimpanan data, gunakan metode
sitemaps.fetch
. Jika Anda telah mengirimkan indeks peta situs, metode ini
akan menampilkan indeks peta situs, bukan peta situs individual yang disarangkan.
Jika tidak ada peta situs di penyimpanan data, permintaan ini akan menampilkan file JSON kosong.
REST
Mencantumkan peta situs dan indeks peta situs di penyimpanan data.
curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"
Ganti kode berikut:
PROJECT_ID
: ID Google Cloud project Anda.DATA_STORE_ID
: ID penyimpanan data Vertex AI Search.
Memeriksa apakah peta situs atau indeks peta situs ada di penyimpanan data
Untuk memeriksa apakah peta situs atau indeks peta situs ada di penyimpanan data, gunakan metode
sitemaps.fetch
. Jika peta situs atau indeks peta situs yang Anda periksa dikirimkan ke penyimpanan data, maka respons akan berisi nama peta situs dan URI peta situs. Jika Anda telah mengirimkan indeks peta situs, maka
memeriksa setiap peta situs dalam indeks peta situs tidak akan memberikan
hasil yang benar.
REST
Periksa peta situs atau indeks peta situs di penyimpanan data.
curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"
Ganti kode berikut:
PROJECT_ID
: ID Google Cloud project Anda.DATA_STORE_ID
: ID penyimpanan data Vertex AI Search.SITEMAP_URI_N
: URI publik peta situs atau indeks peta situs yang datanya ingin Anda periksa di penyimpanan data.
Menghapus peta situs atau indeks peta situs dari penyimpanan data
Untuk menghapus peta situs dari penyimpanan data, gunakan metode
sitemap.delete
.
Menghapus peta situs tidak akan menghapus URL-nya dari indeks. Untuk menghapus peta situs dan URL-nya dari indeks, lihat Menghapus peta situs dan URL-nya dari indeks.
REST
Menghapus peta situs atau indeks peta situs.
curl -X DELETE \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"
Ganti kode berikut:
PROJECT_ID
: ID Google Cloud project Anda.DATA_STORE_ID
: ID penyimpanan data Vertex AI Search.SITEMAP_ID
: ID unik yang mengidentifikasi peta situs atau indeks peta situs. Anda dapat menemukan ID ini di kolom nama respons saat Anda mengirimkan peta situs atau indeks peta situs, atau mencantumkan peta situs dan indeks peta situs di penyimpanan data Anda.
Menghapus peta situs atau indeks peta situs dan URL-nya dari indeks penyimpanan data
Untuk menghapus peta situs atau indeks peta situs dan URL-nya dari indeks, ikuti langkah-langkah berikut:
Kosongkan peta situs atau indeks peta situs yang dikirimkan ke penyimpanan data dengan menghapus semua URL-nya.
Jika Anda mengirimkan indeks peta situs ke penyimpanan data, kosongkan peta situs bertingkat dengan menghapus semua URL dan hapus peta situs dari indeks peta situs.
Tunggu selama 48 jam agar Vertex AI Search memproses perubahan ini dan menghapus URL dari indeks penyimpanan data.