Halaman ini diterjemahkan oleh Cloud Translation API.

Memuat ulang halaman web menggunakan pembaruan otomatis dan manual

Jika penyimpanan data Anda menggunakan penelusuran situs dasar, keaktualan indeks toko Anda mencerminkan keaktualan yang tersedia di Google Penelusuran.

Jika pengindeksan situs lanjutan diaktifkan di penyimpanan data Anda, halaman web di penyimpanan data Anda akan diperbarui dengan cara berikut:

Pemuatan ulang otomatis
Pemuatan ulang manual
Pembaruan berbasis peta situs

Halaman ini menjelaskan pembaruan otomatis dan manual. Untuk memahami dan menerapkan pemuatan ulang berbasis peta situs, lihat Mengindeks dan memuat ulang sesuai dengan peta situs.

Sebelum memulai

Jika Anda menggunakan file robots.txt di situs Anda, perbarui file tersebut. Untuk mengetahui informasi selengkapnya, lihat cara menyiapkan file robots.txt situs Anda.

Pemuatan ulang otomatis

Vertex AI Search melakukan refresh otomatis sebagai berikut:

Setelah Anda membuat penyimpanan data, penyimpanan data tersebut akan membuat indeks awal untuk halaman yang disertakan.
Setelah pengindeksan awal, Google akan mengindeks halaman yang baru ditemukan dan meng-crawl ulang halaman yang ada dengan upaya terbaik.
Alat ini secara rutin memperbarui penyimpanan data yang mengalami rasio kueri 50 kueri/30 hari.

Pemuatan ulang manual

Jika ingin memuat ulang halaman web tertentu di penyimpanan data dengan Pengindeksan situs lanjutan diaktifkan, Anda dapat memanggil metode recrawlUris. Anda menggunakan kolom uris untuk menentukan setiap halaman web yang ingin di-crawl. Metode recrawlUris adalah operasi yang berjalan lama yang berjalan hingga halaman web yang Anda tentukan di-crawl atau hingga waktu tunggu berakhir setelah 24 jam, mana saja yang lebih dulu. Jika waktu tunggu metode recrawlUris habis, Anda dapat memanggil metode lagi, dengan menentukan halaman web yang masih harus di-crawl. Anda dapat melakukan polling pada metode operations.get untuk memantau status operasi pengindeksan ulang.

Batas pada crawling ulang

Ada batasan frekuensi Anda dapat meng-crawl halaman web dan jumlah halaman web yang dapat Anda crawl sekaligus:

Panggilan per hari. Jumlah maksimum panggilan ke metode recrawlUris yang diizinkan adalah 20 per hari, per project.
Halaman web per panggilan. Jumlah maksimum nilai uris yang dapat Anda tentukan dengan panggilan ke metode recrawlUris adalah 10.000.

Meng-crawl ulang halaman web di penyimpanan data Anda

Anda dapat meng-crawl halaman web tertentu secara manual di penyimpanan data yang mengaktifkan Pengindeksan situs lanjutan.

REST

Untuk menggunakan command line guna meng-crawl halaman web tertentu di penyimpanan data Anda, ikuti langkah-langkah berikut:

Temukan ID penyimpanan data Anda. Jika Anda sudah memiliki ID penyimpanan data, lanjutkan ke langkah berikutnya.
1. Di konsol Google Cloud , buka halaman AI Applications dan di menu navigasi, klik Data Stores.
  
  Buka halaman Data Stores
2. Klik nama penyimpanan data Anda.
3. Di halaman Data untuk penyimpanan data Anda, dapatkan ID penyimpanan data.

Panggil metode recrawlUris, menggunakan kolom uris untuk menentukan setiap halaman web yang ingin Anda crawl. Setiap uri mewakili satu halaman meskipun berisi tanda bintang (*). Pola karakter pengganti tidak didukung.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine:recrawlUris" \
-d '{
  "uris": [URIS]
}'

Ganti kode berikut:

PROJECT_ID: ID Google Cloud project Anda.
DATA_STORE_ID: ID penyimpanan data Vertex AI Search.
URIS: daftar halaman web yang ingin Anda crawl—misalnya, "https://example.com/page-1", "https://example.com/page-2", "https://example.com/page-3".

Outputnya mirip dengan hal berikut ini:

{
  "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-0123456789012345678",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata"
  }
}

Simpan nilai name sebagai input untuk operasi operations.get saat memantau status operasi pengindeksan ulang Anda.

Memantau status operasi pengindeksan ulang

Metode recrawlUris, yang Anda gunakan untuk meng-crawl halaman web di penyimpanan data, adalah operasi yang berjalan lama yang berjalan hingga halaman web yang Anda tentukan di-crawl atau hingga waktu habis setelah 24 jam, mana saja yang lebih dulu. Anda dapat memantau status operasi yang berjalan lama ini dengan melakukan polling pada metode operations.get, dengan menentukan nilai name yang ditampilkan oleh metode recrawlUris. Lanjutkan polling hingga respons menunjukkan bahwa: (1) Semua halaman web Anda di-crawl, atau (2) Operasi kehabisan waktu sebelum semua halaman web Anda di-crawl. Jika recrawlUris waktunya habis, Anda dapat memanggilnya lagi, dengan menentukan situs yang tidak di-crawl.

REST

Untuk menggunakan command line guna memantau status operasi pengindeksan ulang, ikuti langkah-langkah berikut:

Temukan ID penyimpanan data Anda. Jika Anda sudah memiliki ID penyimpanan data, lanjutkan ke langkah berikutnya.
1. Di konsol Google Cloud , buka halaman AI Applications dan di menu navigasi, klik Data Stores.
  
  Buka halaman Data Stores
2. Klik nama penyimpanan data Anda.
3. Di halaman Data untuk penyimpanan data Anda, dapatkan ID penyimpanan data.
Polling metode operations.get.
```
curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/OPERATION_NAME"
```
Ganti kode berikut:
- PROJECT_ID: ID Google Cloud project Anda.
- OPERATION_NAME: nama operasi, yang ada di kolom name yang ditampilkan dalam panggilan Anda ke metode recrawlUris di Meng-crawl ulang halaman web di penyimpanan data Anda. Anda juga bisa mendapatkan nama operasi dengan mencantumkan operasi yang berjalan lama.
Evaluasi setiap respons.
- Jika respons menunjukkan bahwa ada URI yang tertunda dan operasi crawl ulang belum selesai, halaman web Anda masih di-crawl. Lanjutkan polling.
  Contoh
  { "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-0123456789012345678", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata", "createTime": "2023-09-05T22:07:28.690950Z", "updateTime": "2023-09-05T22:22:10.978843Z", "validUrisCount": 4000, "successCount": 2215, "pendingCount": 1785 }, "done": false, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisResponse", } }
  Kolom respons dapat dijelaskan sebagai berikut:
  - createTime: menunjukkan waktu dimulainya operasi yang berjalan lama.
  - updateTime: menunjukkan terakhir kali metadata operasi yang berjalan lama diperbarui. menunjukkan bahwa metadata diperbarui setiap lima menit hingga operasi selesai.
  - validUrisCount: menunjukkan bahwa Anda menentukan 4.000 URI yang valid dalam panggilan ke metode recrawlUris.
  - successCount: menunjukkan bahwa 2.215 URI berhasil di-crawl.
  - pendingCount: menunjukkan bahwa 1.785 URI belum di-crawl.
  - done: nilai false menunjukkan bahwa operasi peng-crawl ulang masih berlangsung.
- Jika respons menunjukkan bahwa tidak ada URI yang tertunda (tidak ada kolom pendingCount yang ditampilkan) dan operasi peng-crawl ulang selesai, maka halaman web Anda akan di-crawl. Hentikan polling—Anda dapat menghentikan prosedur ini.
  Contoh
  { "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-0123456789012345678", "metadata": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata", "createTime": "2023-09-05T22:07:28.690950Z", "updateTime": "2023-09-05T22:37:11.367998Z", "validUrisCount": 4000, "successCount": 4000 }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisResponse" } }
  Kolom respons dapat dijelaskan sebagai berikut:
  - createTime: menunjukkan waktu dimulainya operasi yang berjalan lama.
  - updateTime: menunjukkan terakhir kali metadata operasi yang berjalan lama diperbarui. menunjukkan bahwa metadata diperbarui setiap lima menit hingga operasi selesai.
  - validUrisCount: menunjukkan bahwa Anda menentukan 4.000 URI yang valid dalam panggilan ke metode recrawlUris.
  - successCount: menunjukkan bahwa 4.000 URI berhasil di-crawl.
  - done: nilai true menunjukkan bahwa operasi peng-crawl ulang telah selesai.

Jika respons menunjukkan bahwa ada URI yang tertunda dan operasi pengindeksan ulang selesai, berarti operasi pengindeksan ulang telah mencapai waktu tunggu habis (setelah 24 jam) sebelum semua halaman web Anda di-crawl. Mulai lagi di Meng-crawl ulang halaman web di penyimpanan data Anda. Gunakan nilai failedUris dalam respons operations.get untuk nilai dalam kolom uris dalam panggilan baru Anda ke metode recrawlUris.

Contoh.

{
  "name": "projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/operations/recrawl-uris-8765432109876543210",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisMetadata",
    "createTime": "2023-09-05T22:07:28.690950Z",
    "updateTime": "2023-09-06T22:09:10.613751Z",
    "validUrisCount": 10000,
    "successCount": 9988,
    "pendingCount": 12
  },
  "done": true,
  "response": {
    "@type": "type.googleapis.com/google.cloud.discoveryengine.v1alpha.RecrawlUrisResponse",
    "failedUris": [
      "https://example.com/page-9989",
      "https://example.com/page-9990",
      "https://example.com/page-9991",
      "https://example.com/page-9992",
      "https://example.com/page-9993",
      "https://example.com/page-9994",
      "https://example.com/page-9995",
      "https://example.com/page-9996",
      "https://example.com/page-9997",
      "https://example.com/page-9998",
      "https://example.com/page-9999",
      "https://example.com/page-10000"
    ],
    "failureSamples": [
      {
        "uri": "https://example.com/page-9989",
        "failureReasons": [
          {
            "corpusType": "DESKTOP",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          },
          {
            "corpusType": "MOBILE",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          }
        ]
      },
      {
        "uri": "https://example.com/page-9990",
        "failureReasons": [
          {
            "corpusType": "DESKTOP",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          },
          {
            "corpusType": "MOBILE",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          }
        ]
      },
      {
        "uri": "https://example.com/page-9991",
        "failureReasons": [
          {
            "corpusType": "DESKTOP",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          },
          {
            "corpusType": "MOBILE",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          }
        ]
      },
      {
        "uri": "https://example.com/page-9992",
        "failureReasons": [
          {
            "corpusType": "DESKTOP",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          },
          {
            "corpusType": "MOBILE",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          }
        ]
      },
      {
        "uri": "https://example.com/page-9993",
        "failureReasons": [
          {
            "corpusType": "DESKTOP",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          },
          {
            "corpusType": "MOBILE",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          }
        ]
      },
      {
        "uri": "https://example.com/page-9994",
        "failureReasons": [
          {
            "corpusType": "DESKTOP",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          },
          {
            "corpusType": "MOBILE",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          }
        ]
      },
      {
        "uri": "https://example.com/page-9995",
        "failureReasons": [
          {
            "corpusType": "DESKTOP",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          },
          {
            "corpusType": "MOBILE",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          }
        ]
      },
      {
        "uri": "https://example.com/page-9996",
        "failureReasons": [
          {
            "corpusType": "DESKTOP",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          },
          {
            "corpusType": "MOBILE",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          }
        ]
      },
      {
        "uri": "https://example.com/page-9997",
        "failureReasons": [
          {
            "corpusType": "DESKTOP",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          },
          {
            "corpusType": "MOBILE",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          }
        ]
      },
      {
        "uri": "https://example.com/page-9998",
        "failureReasons": [
          {
            "corpusType": "DESKTOP",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          },
          {
            "corpusType": "MOBILE",
            "errorMessage": "Page was crawled but was not indexed by UCS within 24 hours."
          }
        ]
      }
    ]
  }
}

Berikut beberapa deskripsi kolom respons:

createTime. Waktu saat operasi yang berjalan lama dimulai.
updateTime. Terakhir kali metadata operasi yang berjalan lama diperbarui. Metadata diperbarui setiap lima menit hingga operasi selesai.
validUrisCount. Menunjukkan bahwa Anda menentukan 10.000 URI yang valid dalam panggilan ke metode recrawlUris.
successCount. Menunjukkan bahwa 9.988 URI berhasil di-crawl.
pendingCount. Menunjukkan bahwa 12 URI belum di-crawl.
done. Nilai true menunjukkan bahwa operasi peng-crawl ulang telah selesai.
failedUris. Daftar URI yang tidak di-crawl sebelum operasi crawl ulang kehabisan waktu.
failureInfo. Informasi tentang URI yang gagal di-crawl. Maksimal, sepuluh nilai array failureInfo akan ditampilkan, meskipun lebih dari sepuluh URI gagal di-crawl.
errorMessage. Alasan URI gagal di-crawl, menurut corpusType. Untuk mengetahui informasi selengkapnya, lihat Pesan error.

Pembaruan tepat waktu

Google merekomendasikan agar Anda melakukan muat ulang manual di halaman baru dan yang diperbarui untuk memastikan Anda memiliki indeks terbaru.

Pesan error

Saat Anda memantau status operasi pengindeksan ulang, jika operasi pengindeksan ulang kehabisan waktu saat Anda melakukan polling metode operations.get, operations.get akan menampilkan pesan error untuk halaman web yang tidak di-crawl. Tabel berikut mencantumkan pesan error, apakah error bersifat sementara (error sementara yang dapat diselesaikan sendiri), dan tindakan yang dapat Anda lakukan sebelum mencoba kembali metode recrawlUris. Anda dapat segera mencoba lagi semua error sementara. Semua error yang tidak sementara dapat dicoba lagi setelah menerapkan perbaikan.

Pesan error	Apakah ini error sementara?	Tindakan sebelum mencoba ulang crawl
Halaman di-crawl, tetapi tidak diindeks oleh Vertex AI Search dalam waktu 24 jam	Ya	Gunakan nilai `failedUris` dalam respons `operations.get` untuk nilai di kolom `uris` saat Anda memanggil metode `recrawlUris`.
Crawling diblokir oleh `robots.txt` situs	Tidak	Buka blokir URI di file `robots.txt` situs Anda, pastikan agen pengguna Googlebot diizinkan untuk meng-crawl situs, dan coba lagi peng-crawl ulang. Untuk mengetahui informasi selengkapnya, lihat Cara menulis dan mengirimkan file robots.txt. Jika Anda tidak dapat mengakses file `robots.txt`, hubungi pemilik domain.
Halaman tidak dapat dijangkau	Tidak	Periksa URI yang Anda tentukan saat memanggil metode `recrawlUris`. Pastikan Anda memberikan URI literal, bukan pola URI.
Waktu tunggu crawling habis	Ya	Gunakan nilai `failedUris` dalam respons `operations.get` untuk nilai di kolom `uris` saat Anda memanggil metode `recrawlUris`.
Halaman ditolak oleh crawler Google	Ya	Gunakan nilai `failedUris` dalam respons `operations.get` untuk nilai di kolom `uris` saat Anda memanggil metode `recrawlUris`.
URL tidak dapat diikuti oleh crawler Google	Tidak	Jika ada beberapa pengalihan, gunakan URI dari pengalihan terakhir dan coba lagi
Halaman tidak ditemukan (404)	Tidak	Periksa URI yang Anda tentukan saat memanggil metode `recrawlUris`. Pastikan Anda memberikan URI literal, bukan pola URI. Setiap halaman yang merespons dengan kode error `4xx` akan dihapus dari indeks.
Halaman memerlukan autentikasi	Tidak	Pengindeksan situs lanjutan tidak mendukung crawling halaman web yang memerlukan autentikasi.

Cara menangani halaman yang dihapus

Saat halaman dihapus, Google merekomendasikan agar Anda memuat ulang secara manual URL yang dihapus.

Saat penyimpanan data situs Anda di-crawl selama refresh otomatis atau manual, jika halaman web merespons dengan kode error klien 4xx atau kode error server 5xx, halaman web yang tidak responsif akan dihapus dari indeks.

Memuat ulang halaman web menggunakan pembaruan otomatis dan manual Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Sebelum memulai

Pemuatan ulang otomatis

Pemuatan ulang manual

Batas pada crawling ulang

Meng-crawl ulang halaman web di penyimpanan data Anda

REST

Memantau status operasi pengindeksan ulang

REST

Pembaruan tepat waktu

Pesan error

Cara menangani halaman yang dihapus

Memuat ulang halaman web menggunakan pembaruan otomatis dan manual