Jika penyimpanan data Anda menggunakan penelusuran situs dasar, keaktualan indeks toko Anda mencerminkan keaktualan yang tersedia di Google Penelusuran.
Jika pengindeksan situs lanjutan diaktifkan di penyimpanan data Anda, halaman web di penyimpanan data Anda akan diperbarui dengan cara berikut:
- Pemuatan ulang otomatis
- Pemuatan ulang manual
- Pembaruan berbasis peta situs
Halaman ini menjelaskan pembaruan otomatis dan manual. Untuk memahami dan menerapkan pemuatan ulang berbasis peta situs, lihat Mengindeks dan memuat ulang sesuai dengan peta situs.
Pemuatan ulang otomatis
Vertex AI Search melakukan refresh otomatis sebagai berikut:
- Setelah Anda membuat penyimpanan data, penyimpanan data tersebut akan membuat indeks awal untuk halaman yang disertakan.
- Setelah pengindeksan awal, Google akan mengindeks halaman yang baru ditemukan dan meng-crawl ulang halaman yang ada dengan upaya terbaik.
- Alat ini secara rutin memperbarui penyimpanan data yang mengalami rasio kueri 50 kueri/30 hari.
Pemuatan ulang manual
Jika ingin memuat ulang halaman web tertentu di penyimpanan data dengan
Pengindeksan situs lanjutan diaktifkan, Anda
dapat memanggil metode
recrawlUris
. Anda menggunakan kolom uris
untuk menentukan setiap
halaman web yang ingin di-crawl. Metode recrawlUris
adalah operasi yang berjalan lama yang berjalan hingga halaman web yang Anda tentukan di-crawl atau hingga waktu tunggu berakhir setelah 24 jam, mana saja yang lebih dulu. Jika waktu tunggu
metode recrawlUris
habis, Anda dapat memanggil metode lagi, dengan menentukan halaman
web yang masih harus di-crawl. Anda dapat melakukan polling pada metode operations.get
untuk memantau status operasi pengindeksan ulang.
Batas pada crawling ulang
Ada batasan frekuensi Anda dapat meng-crawl halaman web dan jumlah halaman web yang dapat Anda crawl sekaligus:
- Panggilan per hari. Jumlah maksimum panggilan ke metode
recrawlUris
yang diizinkan adalah 20 per hari, per project. - Halaman web per panggilan. Jumlah maksimum nilai
uris
yang dapat Anda tentukan dengan panggilan ke metoderecrawlUris
adalah 10.000.
Meng-crawl ulang halaman web di penyimpanan data Anda
Anda dapat meng-crawl halaman web tertentu secara manual di penyimpanan data yang mengaktifkan Pengindeksan situs lanjutan.
REST
Untuk menggunakan command line guna meng-crawl halaman web tertentu di penyimpanan data Anda, ikuti langkah-langkah berikut:
Temukan ID penyimpanan data Anda. Jika Anda sudah memiliki ID penyimpanan data, lanjutkan ke langkah berikutnya.
Di konsol Google Cloud , buka halaman AI Applications dan di menu navigasi, klik Data Stores.
Klik nama penyimpanan data Anda.
Di halaman Data untuk penyimpanan data Anda, dapatkan ID penyimpanan data.
Panggil metode
recrawlUris
, menggunakan kolomuris
untuk menentukan setiap halaman web yang ingin Anda crawl. Setiapuri
mewakili satu halaman meskipun berisi tanda bintang (*
). Pola karakter pengganti tidak didukung.curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine:recrawlUris" \ -d '{ "uris": [URIS] }'
Ganti kode berikut:
PROJECT_ID
: ID Google Cloud project Anda.DATA_STORE_ID
: ID penyimpanan data Vertex AI Search.URIS
: daftar halaman web yang ingin Anda crawl—misalnya,"https://example.com/page-1", "https://example.com/page-2", "https://example.com/page-3"
.
Outputnya mirip dengan hal berikut ini:
{ "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-0123456789012345678", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata" } }
Simpan nilai
name
sebagai input untuk operasioperations.get
saat memantau status operasi pengindeksan ulang Anda.
Memantau status operasi pengindeksan ulang
Metode recrawlUris
, yang Anda gunakan untuk meng-crawl halaman web di penyimpanan
data, adalah operasi yang berjalan lama yang berjalan hingga halaman web yang Anda tentukan di-crawl
atau hingga waktu habis setelah 24 jam, mana saja yang lebih dulu. Anda dapat memantau status operasi yang berjalan lama ini dengan melakukan polling pada metode operations.get
, dengan menentukan nilai name
yang ditampilkan oleh metode recrawlUris
. Lanjutkan polling hingga respons menunjukkan bahwa:
(1) Semua halaman web Anda di-crawl, atau (2) Operasi kehabisan waktu sebelum semua halaman web Anda di-crawl. Jika recrawlUris
waktunya habis, Anda dapat memanggilnya
lagi, dengan menentukan situs yang tidak di-crawl.
REST
Untuk menggunakan command line guna memantau status operasi pengindeksan ulang, ikuti langkah-langkah berikut:
Temukan ID penyimpanan data Anda. Jika Anda sudah memiliki ID penyimpanan data, lanjutkan ke langkah berikutnya.
Di konsol Google Cloud , buka halaman AI Applications dan di menu navigasi, klik Data Stores.
Klik nama penyimpanan data Anda.
Di halaman Data untuk penyimpanan data Anda, dapatkan ID penyimpanan data.
Polling metode
operations.get
.curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/OPERATION_NAME"
Ganti kode berikut:
PROJECT_ID
: ID Google Cloud project Anda.OPERATION_NAME
: nama operasi, yang ada di kolomname
yang ditampilkan dalam panggilan Anda ke metoderecrawlUris
di Meng-crawl ulang halaman web di penyimpanan data Anda. Anda juga bisa mendapatkan nama operasi dengan mencantumkan operasi yang berjalan lama.
Evaluasi setiap respons.
Jika respons menunjukkan bahwa ada URI yang tertunda dan operasi crawl ulang belum selesai, halaman web Anda masih di-crawl. Lanjutkan polling.
Contoh
{ "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-0123456789012345678", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata", "createTime": "2023-09-05T22:07:28.690950Z", "updateTime": "2023-09-05T22:22:10.978843Z", "validUrisCount": 4000, "successCount": 2215, "pendingCount": 1785 }, "done": false, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisResponse", } }
Kolom respons dapat dijelaskan sebagai berikut:
createTime
: menunjukkan waktu dimulainya operasi yang berjalan lama.updateTime
: menunjukkan terakhir kali metadata operasi yang berjalan lama diperbarui. menunjukkan bahwa metadata diperbarui setiap lima menit hingga operasi selesai.validUrisCount
: menunjukkan bahwa Anda menentukan 4.000 URI yang valid dalam panggilan ke metoderecrawlUris
.successCount
: menunjukkan bahwa 2.215 URI berhasil di-crawl.pendingCount
: menunjukkan bahwa 1.785 URI belum di-crawl.done
: nilaifalse
menunjukkan bahwa operasi peng-crawl ulang masih berlangsung.
Jika respons menunjukkan bahwa tidak ada URI yang tertunda (tidak ada kolom
pendingCount
yang ditampilkan) dan operasi peng-crawl ulang selesai, halaman web Anda akan di-crawl. Hentikan polling—Anda dapat menghentikan prosedur ini.Contoh
{ "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-0123456789012345678", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata", "createTime": "2023-09-05T22:07:28.690950Z", "updateTime": "2023-09-05T22:37:11.367998Z", "validUrisCount": 4000, "successCount": 4000 }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisResponse" } }
Kolom respons dapat dijelaskan sebagai berikut:
createTime
: menunjukkan waktu dimulainya operasi yang berjalan lama.updateTime
: menunjukkan terakhir kali metadata operasi yang berjalan lama diperbarui. menunjukkan bahwa metadata diperbarui setiap lima menit hingga operasi selesai.validUrisCount
: menunjukkan bahwa Anda menentukan 4.000 URI yang valid dalam panggilan ke metoderecrawlUris
.successCount
: menunjukkan bahwa 4.000 URI berhasil di-crawl.done
: nilaitrue
menunjukkan bahwa operasi peng-crawl ulang telah selesai.
Jika respons menunjukkan bahwa ada URI yang tertunda dan operasi peng-crawl ulang telah selesai, berarti operasi peng-crawl ulang telah mencapai waktu tunggu habis (setelah 24 jam) sebelum semua halaman web Anda di-crawl. Mulai lagi di Meng-crawl ulang halaman web di penyimpanan data Anda. Gunakan nilai
failedUris
dalam responsoperations.get
untuk nilai dalam kolomuris
dalam panggilan baru Anda ke metoderecrawlUris
.Contoh.
{ "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-8765432109876543210", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata", "createTime": "2023-09-05T22:07:28.690950Z", "updateTime": "2023-09-06T22:09:10.613751Z", "validUrisCount": 10000, "successCount": 9988, "pendingCount": 12 }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisResponse", "failedUris": [ "https://example.com/page-9989", "https://example.com/page-9990", "https://example.com/page-9991", "https://example.com/page-9992", "https://example.com/page-9993", "https://example.com/page-9994", "https://example.com/page-9995", "https://example.com/page-9996", "https://example.com/page-9997", "https://example.com/page-9998", "https://example.com/page-9999", "https://example.com/page-10000" ], "failureSamples": [ { "uri": "https://example.com/page-9989", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9990", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9991", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9992", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9993", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9994", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9995", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9996", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9997", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] }, { "uri": "https://example.com/page-9998", "failureReasons": [ { "corpusType": "DESKTOP", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." }, { "corpusType": "MOBILE", "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours." } ] } ] } }
Berikut beberapa deskripsi kolom respons:
createTime
. Waktu saat operasi yang berjalan lama dimulai.updateTime
. Terakhir kali metadata operasi yang berjalan lama diperbarui. Metadata diperbarui setiap lima menit hingga operasi selesai.validUrisCount
. Menunjukkan bahwa Anda menentukan 10.000 URI yang valid dalam panggilan ke metoderecrawlUris
.successCount
. Menunjukkan bahwa 9.988 URI berhasil di-crawl.pendingCount
. Menunjukkan bahwa 12 URI belum di-crawl.done
. Nilaitrue
menunjukkan bahwa operasi peng-crawl ulang telah selesai.failedUris
. Daftar URI yang tidak di-crawl sebelum operasi crawl ulang kehabisan waktu.failureInfo
. Informasi tentang URI yang gagal di-crawl. Maksimal, sepuluh nilai arrayfailureInfo
akan ditampilkan, meskipun lebih dari sepuluh URI gagal di-crawl.errorMessage
. Alasan URI gagal di-crawl, menurutcorpusType
. Untuk mengetahui informasi selengkapnya, lihat Pesan error.
Pemuatan ulang tepat waktu
Google merekomendasikan agar Anda melakukan pemuatan ulang manual pada halaman baru dan yang diperbarui untuk memastikan Anda memiliki indeks terbaru.
Pesan error
Saat Anda memantau status operasi pengindeksan ulang, jika operasi pengindeksan ulang kehabisan waktu saat Anda
melakukan polling metode operations.get
, operations.get
akan menampilkan pesan error untuk
halaman web yang tidak di-crawl. Tabel berikut mencantumkan pesan error,
apakah error bersifat sementara (error sementara yang dapat diselesaikan sendiri), dan
tindakan yang dapat Anda lakukan sebelum mencoba kembali metode recrawlUris
. Anda dapat segera mencoba lagi semua error sementara. Semua error yang tidak sementara dapat dicoba lagi setelah
menerapkan perbaikan.
Pesan error | Apakah ini error sementara? | Tindakan sebelum mencoba ulang crawl |
---|---|---|
Halaman di-crawl, tetapi tidak diindeks oleh Vertex AI Search dalam waktu 24 jam | Ya | Gunakan nilai failedUris dalam respons operations.get untuk nilai di kolom uris saat Anda memanggil metode recrawlUris . |
Crawling diblokir oleh robots.txt situs |
Tidak | Buka pemblokiran URI di file robots.txt situs Anda, pastikan agen pengguna Googlebot diizinkan untuk meng-crawl situs, dan coba lagi peng-crawl ulang. Untuk mengetahui informasi selengkapnya, lihat
Cara menulis dan mengirimkan file robots.txt.
Jika Anda tidak dapat mengakses file robots.txt , hubungi pemilik domain. |
Halaman tidak dapat dijangkau | Tidak | Periksa URI yang Anda tentukan saat memanggil metode recrawlUris . Pastikan Anda memberikan URI literal, bukan pola URI. |
Waktu tunggu crawling habis | Ya | Gunakan nilai failedUris dalam respons operations.get untuk nilai di kolom uris saat Anda memanggil metode recrawlUris . |
Halaman ditolak oleh crawler Google | Ya | Gunakan nilai failedUris dalam respons operations.get untuk nilai di kolom uris saat Anda memanggil metode recrawlUris . |
URL tidak dapat diikuti oleh crawler Google | Tidak | Jika ada beberapa pengalihan, gunakan URI dari pengalihan terakhir dan coba lagi |
Halaman tidak ditemukan (404) | Tidak | Periksa URI yang Anda tentukan saat memanggil metode recrawlUris . Pastikan Anda memberikan URI literal, bukan pola URI.
Setiap halaman yang merespons dengan kode error `4xx` akan dihapus dari indeks. |
Halaman memerlukan autentikasi | Tidak | Pengindeksan situs lanjutan tidak mendukung crawling halaman web yang memerlukan autentikasi. |
Cara menangani halaman yang dihapus
Saat halaman dihapus, Google merekomendasikan agar Anda memuat ulang secara manual URL yang dihapus.
Saat penyimpanan data situs Anda di-crawl selama refresh otomatis
atau manual, jika halaman web merespons dengan kode error klien 4xx
atau kode error server 5xx
, halaman web yang tidak responsif akan dihapus dari
indeks.