Mendapatkan cuplikan dan konten yang diekstrak

Vertex AI Search dapat memberikan cuplikan penelusuran, jawaban ekstraktif, dan segmen ekstraktif dengan setiap respons penelusuran untuk meningkatkan hasil Anda.

  • Cuplikan: Cuplikan adalah ringkasan singkat dari teks dari dokumen hasil penelusuran yang memberikan pratinjau konten hasil penelusuran. Ini mencakup sorotan hit yang dapat Anda render di UI. Cuplikan biasanya ditampilkan di bawah setiap hasil penelusuran untuk membantu pengguna akhir menilai relevansi dan kegunaan hasil tersebut. Cuplikan tersedia untuk datastore dengan data tidak terstruktur dan data situs (penelusuran situs dasar dan pengindeksan situs lanjutan).

  • Jawaban ekstrak: Jawaban ekstrak adalah teks verbatim yang ditampilkan dengan setiap hasil penelusuran. Data ini diekstrak langsung dari dokumen asli. Jawaban ekstraktif biasanya ditampilkan di dekat bagian atas halaman web untuk memberikan jawaban singkat yang relevan secara kontekstual dengan kueri pengguna akhir. Jawaban ekstraktif tersedia untuk penyimpanan data dengan data tidak terstruktur dan dengan pengindeksan situs lanjutan.

  • Segmen ekstrak: Segmen ekstrak adalah teks verbatim yang ditampilkan dengan setiap hasil penelusuran. Segmen ekstraktif biasanya lebih panjang daripada jawaban ekstraktif. Segmen ekstraktif dapat ditampilkan sebagai jawaban atas kueri, dan dapat digunakan untuk melakukan tugas pascapemrosesan dan sebagai input untuk model bahasa besar guna membuat jawaban atau teks baru. Segmen ekstraktif tersedia untuk penyimpanan data dengan data tidak terstruktur dan dengan pengindeksan situs lanjutan.

Contoh

Contoh berikut membantu mengilustrasikan perbedaan antara cuplikan, jawaban ekstrak, dan segmen ekstrak.

Kueri: "what is vertex ai agent builder?"

  • Cuplikan:

    Untuk memungkinkan hal ini, kami mengumumkan Vertex AI Agent Builder baru kami, cara tercepat bagi developer untuk memulai pembuatan aplikasi gen seperti bot, ...

  • Jawaban ekstraktif:

    Vertex AI Agent Builder memungkinkan developer mengirimkan pengalaman baru dengan cepat, termasuk bot, antarmuka chat, mesin telusur kustom, asisten digital, dan lainnya. Developer memiliki akses API ke model dasar Google dan dapat menggunakan template siap pakai untuk memulai pembuatan aplikasi gen dalam hitungan menit atau jam.

  • Segmen ekstrak:

    Bisnis dan pemerintah juga ingin membuat interaksi pelanggan, partner, dan karyawan lebih efektif dan bermanfaat dengan teknologi AI baru ini. Untuk memungkinkannya, kami mengumumkan Vertex AI Agent Builder baru.

    Vertex AI Agent Builder memungkinkan developer mengirimkan pengalaman baru dengan cepat, termasuk bot, antarmuka chat, mesin telusur kustom, asisten digital, dan lainnya. Developer memiliki akses API ke model dasar Google dan dapat menggunakan template siap pakai untuk memulai pembuatan aplikasi gen dalam hitungan menit atau jam. Dengan Vertex AI Agent Builder, developer juga akan:

    • Menggabungkan data organisasi dan teknik pengambilan informasi untuk memberikan jawaban yang relevan.
    • Telusuri dan balas dengan lebih dari sekadar teks.
    • Menggabungkan percakapan alami dengan alur terstruktur.
    • Jangan hanya memberi tahu — lakukan transaksi.

Sebelum memulai

Bergantung pada jenis aplikasi yang Anda miliki, selesaikan prasyarat berikut:

Cuplikan

Cuplikan adalah potongan singkat yang diekstrak secara verbatim dari setiap dokumen hasil penelusuran. Tag ini mencakup sorotan hit dalam tag HTML tebal untuk merender pratinjau hasil penelusuran di UI. Biasanya, cuplikan dirender sebagai teks pratinjau di bawah hasil penelusuran untuk membantu pengguna akhir memutuskan apakah mengklik hasil penelusuran tersebut akan berguna.

Cuplikan tersedia untuk penelusuran situs dan penelusuran tidak terstruktur.

Mendapatkan cuplikan

Untuk mendapatkan cuplikan:

  1. Kirim permintaan penelusuran yang menyertakan ContentSearchSpec.SnippetSpec dan menetapkan returnSnippet ke true.

    Contoh SnippetSpec berikut menentukan bahwa cuplikan dapat ditampilkan untuk setiap hasil penelusuran.

    "contentSearchSpec":
    {
      "snippetSpec":
      {
        "returnSnippet": true
      }
    }
    • returnSnippet: Jika ditetapkan ke true, tampilkan cuplikan.
  2. Mendapatkan cuplikan dari respons penelusuran. Cuplikan ditampilkan dengan setiap hasil penelusuran di derivedStructData.snippets.

    Dalam contoh dokumen yang ditampilkan sebagai salah satu hasil dalam respons penelusuran, cuplikan dengan sorotan hit tebal disertakan dengan hasil:

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2008_google_annual_report.pdf",
          "snippets": [
            {
              "snippet": "Google Chrome. Google Chrome is an open-source browser that combines a minimal design with technologies to make the web faster, safer, and easier to navigate.",
              "snippet_status": "SUCCESS"
            }
          ]
        }
      }
    }
    • snippet: Berisi cuplikan yang dibuat untuk hasil penelusuran dokumen. Sorotan hit disertakan dalam tag HTML tebal.
    • snippet_status: Jika cuplikan dibuat, kolom ini akan ditampilkan sebagai SUCCESS. Jika tidak ada cuplikan yang dibuat, kolom ini akan ditampilkan sebagai NO_SNIPPET_AVAILABLE.

Jawaban ekstraktif

Jawaban ekstrak adalah bagian teks yang berasal dari dokumen secara verbatim. Saat dokumen ditampilkan sebagai hasil penelusuran dalam respons penelusuran, jawaban ekstraktif yang relevan dapat ditampilkan dengan hasil tersebut.

Jawaban ekstraktif dapat berupa teks seperti paragraf, tabel, atau daftar berbutir yang diekstrak dari dokumen hasil penelusuran. Jawaban ekstraktif lebih singkat daripada segmen ekstraktif.

Jawaban ekstrak dapat digunakan sebagai alternatif untuk respons ringkas dalam kasus saat jawaban verbatim yang akurat lebih disukai daripada ringkasan yang diparafrasekan.

Jawaban ekstraktif tersedia untuk penyimpanan data dengan data tidak terstruktur dan dengan pengindeksan situs lanjutan.

Mendapatkan jawaban ekstrak

Untuk mendapatkan jawaban ekstrak:

  1. Kirim permintaan penelusuran yang menggunakan ContentSearchSpec.extractiveContentSpec untuk menentukan maxExtractiveAnswerCount.

    Contoh extractiveContentSpec berikut menentukan bahwa jawaban dapat ditampilkan untuk setiap hasil penelusuran.

    "contentSearchSpec":
    {
      "extractiveContentSpec": {
        "maxExtractiveAnswerCount": 1
      }
    }
    • maxExtractiveAnswerCount: Jumlah jawaban ekstraktif yang akan ditampilkan untuk setiap hasil penelusuran. Nilai defaultnya adalah 0 dan maksimumnya adalah 5.
  2. Dapatkan jawaban ekstrak dari respons penelusuran. Jawaban ekstraktif ditampilkan dengan setiap hasil penelusuran di extractive_answers.

    Dalam contoh dokumen yang ditampilkan sebagai salah satu hasil dalam respons penelusuran, jawaban ekstraktif disertakan dengan hasilnya:

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "extractive_answers": [
            {
              "pageNumber": "2",
              "content": "Google saw growth throughout the year both in our domestic business and internationally, both on Google owned sites and on the Google Network. Specifically, revenues from Google owned sites increased 101% on a year over year basis, from $792 million to $1.6 billion."
            }
          ],
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2004Q4_earnings_google.pdf"
        }
    }
    }
    • pageNumber: Jika nomor halaman dapat diekstrak dari dokumen, kolom ini akan menunjukkan tempat jawaban diekstrak.
    • content: Konten jawaban ekstrak.

Segmen ekstraktif

Segmen ekstrak adalah bagian teks yang diekstrak secara verbatim dari dokumen hasil penelusuran. Segmen ekstraktif mirip dengan jawaban ekstraktif, tetapi segmen ekstraktif biasanya lebih lengkap dan panjang. Biasanya, segmen ekstrak digunakan sebagai input untuk LLM Anda sendiri guna menghasilkan jawaban atau teks baru.

Segmen ekstrak dapat berupa beberapa paragraf, termasuk teks berformat seperti tabel dan daftar berbutir.

Segmen ekstraktif tersedia untuk penyimpanan data dengan data tidak terstruktur dan dengan pengindeksan situs lanjutan.

Opsi segmen ekstraktif

Opsi berikut tersedia untuk segmen ekstrak:

  • Jumlah segmen: Anda dapat menentukan hingga 10 segmen ekstrak untuk ditampilkan untuk setiap hasil penelusuran.

  • Skor relevansi: Skor relevansi didasarkan pada kemiripan kueri dengan segmen yang diekstrak. Anda dapat menentukan bahwa segmen ekstrak ditampilkan dengan skor relevansi. Skor berkisar dari -1,0 (kurang relevan) hingga 1,0 (lebih relevan). Mengaktifkan skor relevansi dapat meningkatkan latensi.

  • Segmen yang berdekatan (Pratinjau): Anda dapat menetapkan numPreviousSegments dan numNextSegments untuk mendapatkan hingga 3 segmen dari tepat sebelum dan setelah segmen yang relevan. Segmen yang berdekatan dapat menambahkan konteks dan akurasi ke segmen yang relevan.

    Mengaktifkan segmen yang berdekatan dapat meningkatkan latensi.

Mendapatkan segmen ekstrak

Langkah-langkah berikut menunjukkan cara mendapatkan segmen ekstrak untuk data tidak terstruktur. Anda dapat mengikuti langkah-langkah serupa untuk mendapatkan segmen ekstrak untuk data situs.

  1. Kirim permintaan penelusuran yang menggunakan ContentSearchSpec.extractiveContentSpec untuk menentukan maxExtractiveSegmentCount.

    Contoh extractiveContentSpec berikut menentukan bahwa satu segmen dapat ditampilkan untuk setiap hasil penelusuran.

    "contentSearchSpec":
    {
      "extractiveContentSpec": {
        "maxExtractiveSegmentCount": 1
      }
    }
    • maxExtractiveSegmentCount: Jumlah segmen ekstraktif yang akan ditampilkan untuk setiap hasil penelusuran. Nilai defaultnya adalah 0 dan maksimumnya adalah 10.

    Opsi tambahan:

    • returnExtractiveSegmentScore: Tetapkan ke true untuk menampilkan skor relevansi dengan setiap segmen yang ditampilkan.
    • numPreviousSegments: Jumlah segmen yang berdekatan yang akan ditampilkan sebelum segmen yang relevan. Nilai defaultnya adalah 0 dan maksimumnya adalah 3. Menggunakan segmen yang berdekatan dapat meningkatkan latensi.
    • numNextSegments: Jumlah segmen yang berdekatan yang akan ditampilkan setelah segmen yang relevan. Nilai defaultnya adalah 0 dan maksimumnya adalah 3. Menggunakan segmen yang berdekatan dapat meningkatkan latensi.

    Untuk informasi selengkapnya tentang opsi ini, lihat Opsi segmen ekstraktif.

  2. Mendapatkan segmen dari respons penelusuran. Segmen ditampilkan dengan setiap hasil penelusuran di extractive_segments.

    Dalam contoh dokumen yang ditampilkan sebagai salah satu hasil dalam respons penelusuran, segmen disertakan dengan hasil:

    {
      "id": "54321",
      "document": {
        "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
        "id": "54321",
        "derivedStructData": {
          "extractive_segments": [
            {
              "pageNumber": "2",
              "content": "Client\nGoogle Toolbar. Google Toolbar is a free application that adds a Google search box to web browsers (Internet\nExplorer and Firefox) and improves user web experience through features such as a pop-up blocker that blocks\npop-up advertising, an autofill feature that completes web forms with information saved on a user's computer, and\ncustomizable buttons that let users search their favorite web sites and stay updated on their favorite feeds.\n\nGoogle Chrome. Google Chrome is an open-source browser that combines a minimal design with\ntechnologies to make the web faster, safer, and easier to navigate.\nGoogle Pack. Google Pack is a free collection of safe, useful software programs from Google and other\ncompanies that improve the user experience online and on the desktop. It includes programs that help users\nbrowse the web faster, remove spyware and viruses.\n\nPicasa. Picasa is a free service that allows users to view, manage and share their photos. Picasa enables users\nto import, organize and edit their photos, and upload them to Picasa Web Albums where the photos can be shared\nwith others on the internet.\n\nGoogle Desktop. Google Desktop lets people perform a full-text search on the contents of their own\ncomputer, including email, files, instant messenger chats and web browser history. Users can view web pages they\nhave visited even when they are not online. Google Desktop also includes a customizable Sidebar that includes\nmodules for weather, stock tickers and news.\n\n5"
            }
          ],
          "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2004Q4_earnings_google.pdf"
        }
    }
    }
    • pageNumber: Jika nomor halaman dapat diekstrak dari dokumen, kolom ini akan menunjukkan tempat jawaban diekstrak.
    • content: Konten segmen ekstrak.

Langkah selanjutnya