Halaman ini diterjemahkan oleh Cloud Translation API.

Mengurai dan memotong dokumen

Halaman ini menjelaskan cara menggunakan Vertex AI Search untuk mengurai dan membagi dokumen Anda menjadi beberapa bagian.

Anda dapat mengonfigurasi setelan penguraian atau pengelompokan untuk:

Tentukan cara Vertex AI Search mengurai konten. Anda dapat menentukan cara mengurai konten tidak terstruktur saat menguploadnya ke Vertex AI Search. Vertex AI Search menyediakan parser digital, parser OCR untuk PDF, dan parser tata letak. Anda juga dapat menggunakan dokumen yang telah diuraikan sendiri. Parser tata letak direkomendasikan jika Anda memiliki konten multimedia dan elemen struktural seperti bagian, paragraf, tabel, gambar, dan daftar yang akan diekstrak dari dokumen untuk penelusuran dan pembuatan jawaban.

Lihat Meningkatkan deteksi konten dengan penguraian.
Gunakan Vertex AI Search untuk retrieval-augmented generation (RAG). Tingkatkan output LLM dengan data relevan yang telah Anda upload ke aplikasi Vertex AI Search. Untuk melakukannya, Anda akan mengaktifkan chunking dokumen, yang mengindeks data Anda sebagai chunk untuk meningkatkan relevansi dan mengurangi beban komputasi untuk LLM. Anda juga akan mengaktifkan parser tata letak, yang mendeteksi elemen dokumen seperti judul dan daftar, untuk meningkatkan cara dokumen dikelompokkan.

Untuk mengetahui informasi tentang chunking untuk RAG dan cara menampilkan chunk dalam permintaan penelusuran, lihat Mengelompokkan dokumen untuk RAG.

Mengurai dokumen

Anda dapat mengontrol parsing konten dengan cara berikut:

Tentukan jenis parser. Anda dapat menentukan jenis parsing yang akan diterapkan bergantung pada jenis file:
- Parser digital. Parser digital diaktifkan secara default untuk semua jenis file, kecuali jika jenis parser lain ditentukan. Parser digital memproses dokumen yang di-ingest jika tidak ada parser default lain yang ditentukan untuk penyimpanan data atau jika parser yang ditentukan tidak mendukung jenis file dokumen yang di-ingest.
- Penguraian OCR untuk PDF. Jika Anda berencana mengupload PDF yang dipindai atau PDF dengan teks di dalam gambar, Anda dapat mengaktifkan parser OCR untuk meningkatkan pengindeksan PDF. Lihat bagian Parser OCR untuk PDF dalam dokumen ini.
- Parser tata letak. Aktifkan parser tata letak untuk file HTML, PDF, atau DOCX jika Anda berencana menggunakan Vertex AI Search untuk RAG. Lihat Mengelompokkan dokumen untuk RAG guna mengetahui informasi tentang parser ini dan cara mengaktifkannya.
Bawa dokumen yang sudah diuraikan sendiri. (Pratinjau dengan daftar yang diizinkan) Jika Anda telah mengurai dokumen tidak terstruktur, Anda dapat mengimpor konten yang telah diurai sebelumnya ke Vertex AI Search. Lihat Membawa dokumen yang diuraikan sendiri.

Perbandingan ketersediaan parser

Tabel berikut mencantumkan ketersediaan setiap parser menurut jenis file dokumen dan menunjukkan elemen yang dapat dideteksi dan diuraikan oleh setiap parser.

Jenis file	Parser digital	Parser OCR	Parser tata letak
HTML	Mendeteksi elemen paragraf	Tidak berlaku	Mendeteksi elemen paragraf, tabel, gambar, daftar, judul, dan heading
PDF	Mendeteksi elemen paragraf (teks digital)	Mendeteksi elemen paragraf	Mendeteksi elemen paragraf, tabel, gambar, judul, dan heading
DOCX (Pratinjau)	Mendeteksi elemen paragraf	Tidak berlaku	Mendeteksi elemen paragraf, tabel, gambar, daftar, judul, heading
PPTX (Pratinjau)	Mendeteksi elemen paragraf	Tidak berlaku	Mendeteksi elemen paragraf, tabel, gambar, daftar, judul, heading
TXT	Mendeteksi elemen paragraf	Tidak berlaku	Tidak berlaku
XLSX (Pratinjau)	Mendeteksi elemen paragraf	Tidak berlaku	Mendeteksi elemen paragraf, tabel, judul, heading

Parser digital

Parser digital mengekstrak teks yang dapat dibaca mesin dari dokumen. Deteksi blok teks, tetapi bukan elemen dokumen seperti tabel, daftar, dan judul.

Parser digital digunakan sebagai default jika Anda tidak menentukan parser lain sebagai default selama pembuatan penyimpanan data atau jika parser yang ditentukan tidak mendukung jenis file yang sedang diupload.

Parser OCR untuk PDF

Jika Anda memiliki PDF yang tidak dapat ditelusuri (PDF hasil pindaian atau PDF dengan teks di dalam gambar, seperti infografis), Google merekomendasikan untuk mengaktifkan pemrosesan pengenalan karakter optik (OCR) selama pembuatan penyimpanan data. Hal ini memungkinkan Vertex AI Search mengekstrak elemen paragraf.

Jika Anda memiliki PDF yang dapat ditelusuri atau format digital lainnya yang sebagian besar terdiri dari teks yang dapat dibaca mesin, Anda biasanya tidak perlu menggunakan parser OCR. Namun, jika Anda memiliki PDF yang berisi teks yang tidak dapat ditelusuri (seperti teks hasil pindaian atau infografis) dan teks yang dapat dibaca mesin, Anda dapat menyetel kolom useNativeText ke benar (true) saat menentukan parser OCR. Dalam hal ini, teks yang dapat dibaca mesin digabungkan dengan output parsing OCR untuk meningkatkan kualitas ekstraksi teks.

Fitur pemrosesan OCR tersedia untuk aplikasi penelusuran kustom dengan penyimpanan data tidak terstruktur.

Prosesor OCR dapat mengurai 500 halaman pertama file PDF. Halaman yang melebihi batas 500 tidak diproses.

Parser tata letak

Penguraian tata letak memungkinkan Aplikasi AI mendeteksi tata letak untuk file PDF, HTML, DOCX, PPTX, dan XLSX. Aplikasi AI kemudian dapat mengidentifikasi elemen konten seperti blok teks, tabel, daftar, dan elemen struktural seperti judul dan tajuk, serta menggunakannya untuk menentukan organisasi dan hierarki dokumen.

Anda dapat mengaktifkan penguraian tata letak untuk semua jenis file atau menentukan jenis file yang akan diaktifkan. Parser tata letak mendeteksi elemen konten seperti paragraf, tabel, daftar, dan elemen struktural seperti judul, tajuk, header, catatan kaki.

Parser tata letak hanya tersedia saat menggunakan chunking dokumen untuk RAG. Jika pengelompokan dokumen diaktifkan, Vertex AI Search akan memecah dokumen menjadi beberapa bagian pada waktu penyerapan dan dapat menampilkan dokumen sebagai bagian. Mendeteksi tata letak dokumen memungkinkan pengelompokan yang sesuai dengan konten dan meningkatkan penelusuran serta pembuatan jawaban yang terkait dengan elemen dokumen. Untuk mengetahui informasi selengkapnya tentang memecah dokumen untuk RAG, lihat Memecah dokumen untuk RAG.

Anotasi gambar (Pratinjau)

Jika anotasi gambar diaktifkan, saat gambar terdeteksi dalam dokumen sumber, deskripsi (anotasi) gambar dan gambar itu sendiri akan ditetapkan ke potongan. Anotasi menentukan apakah potongan harus ditampilkan dalam hasil penelusuran. Jika jawaban dibuat, anotasi dapat menjadi sumber untuk jawaban.

Parser tata letak dapat mendeteksi jenis gambar berikut: BMP, GIF, JPEG, PNG, dan TIFF.

Anotasi tabel (Pratinjau)

Jika anotasi tabel diaktifkan, saat tabel terdeteksi dalam dokumen sumber, deskripsi (anotasi) tabel dan tabel itu sendiri akan ditetapkan ke potongan. Anotasi menentukan apakah potongan harus ditampilkan dalam hasil penelusuran. Jika jawaban dibuat, anotasi dapat menjadi sumber untuk jawaban.

Mengecualikan konten HTML

Saat menggunakan parser tata letak untuk dokumen HTML, Anda dapat mengecualikan bagian tertentu dari konten HTML agar tidak diproses. Untuk meningkatkan kualitas data aplikasi penelusuran dan aplikasi RAG, Anda dapat mengecualikan boilerplate atau bagian seperti menu navigasi, header, footer, atau sidebar.

layoutParsingConfig menyediakan kolom berikut untuk tujuan ini:

excludeHtmlElements: Daftar tag HTML yang akan dikecualikan. Konten dalam tag ini dikecualikan.
excludeHtmlClasses: Daftar atribut class HTML yang akan dikecualikan. Elemen HTML yang berisi atribut class ini, beserta kontennya, akan dikecualikan.
excludeHtmlIds: Daftar atribut ID elemen HTML yang akan dikecualikan. Elemen HTML dengan atribut ID ini, beserta kontennya, akan dikecualikan.

Menentukan parser default

Dengan menyertakan objek documentProcessingConfig saat membuat penyimpanan data, Anda dapat menentukan parser default untuk penyimpanan data tersebut. Jika Anda tidak menyertakan documentProcessingConfig.defaultParsingConfig, parser digital akan digunakan. Parser digital juga digunakan jika parser yang ditentukan tidak tersedia untuk jenis file.

REST

Untuk menentukan parser default:

Saat membuat penyimpanan data penelusuran menggunakan API, sertakan documentProcessingConfig.defaultParsingConfig dalam permintaan pembuatan penyimpanan data. Anda dapat menentukan parser OCR, parser tata letak, atau parser digital:
- Untuk menentukan parser OCR untuk PDF:
```
"documentProcessingConfig": {
  "defaultParsingConfig": {
    "ocrParsingConfig": {
      "useNativeText": "NATIVE_TEXT_BOOLEAN"
    }
  }
}
```
  - NATIVE_TEXT_BOOLEAN bersifat opsional. Tetapkan hanya jika Anda menyerap PDF. Jika disetel ke true, opsi ini akan mengaktifkan pemrosesan teks yang dapat dibaca mesin untuk parser OCR. Defaultnya adalah false.
- Untuk menentukan parser tata letak:
```
"documentProcessingConfig": {
  "defaultParsingConfig": {
    "layoutParsingConfig": {}
  }
}
```
- Untuk menentukan parser digital:
  
  Catatan: Biasanya, Anda tidak perlu menentukan parser digital sebagai defaultParsingConfig. Jika tidak ada parser lain yang ditentukan secara eksplisit, parser digital akan digunakan secara default.
```
 "documentProcessingConfig": {
    "defaultParsingConfig": { "digitalParsingConfig": {} }
 }
```

Konsol

Saat membuat penyimpanan data penelusuran melalui konsol, Anda dapat menentukan parser default.

Contoh

Contoh berikut menentukan selama pembuatan penyimpanan data bahwa parser OCR akan menjadi parser default. Karena parser OCR hanya berlaku untuk file PDF, semua file PDF yang di-ingest akan diproses oleh parser OCR, dan jenis file lainnya akan diproses oleh parser digital.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1/projects/exampleproject/locations/global/collections/default_collection/dataStores?dataStoreId=datastore123" \
-d '{
  "displayName": "exampledatastore",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
  "contentConfig": "CONTENT_REQUIRED",
  "documentProcessingConfig": {
    "defaultParsingConfig": {
      "ocrParsingConfig": {
        "useNativeText": "false"
      }
    }
  }
}'

Menentukan penggantian parser untuk jenis file

Anda dapat menentukan bahwa jenis file tertentu (PDF, HTML, atau DOCX) harus diuraikan oleh parser yang berbeda dengan parser default. Untuk melakukannya, sertakan kolom documentProcessingConfig dalam permintaan pembuatan penyimpanan data dan tentukan parser penggantian. Jika Anda tidak menentukan parser default, parser digital akan menjadi default.

REST

Untuk menentukan penggantian parser khusus jenis file:

Saat membuat penyimpanan data penelusuran menggunakan API, sertakan documentProcessingConfig.defaultParsingConfig dalam permintaan pembuatan penyimpanan data.

Anda dapat menentukan parser untuk pdf, html, atau docx:
```
"documentProcessingConfig": {
  "parsingConfigOverrides": {
    "FILE_TYPE": { PARSING_CONFIG },
  }
 }
```
Ganti kode berikut:
- FILE_TYPE: Nilai yang diterima adalah pdf, html, dan docx.
- PARSING_CONFIG: Tentukan konfigurasi untuk parser yang ingin Anda terapkan ke jenis file. Anda dapat menentukan parser OCR, parser tata letak, atau parser digital:
  - Untuk menentukan parser OCR untuk PDF:
```
"ocrParsingConfig": {
  "useNativeText": "NATIVE_TEXT_BOOLEAN"
}
```
    - NATIVE_TEXT_BOOLEAN: Opsional. Tetapkan hanya jika Anda memasukkan PDF. Jika disetel ke true, opsi ini akan mengaktifkan pemrosesan teks yang dapat dibaca mesin untuk parser OCR. Defaultnya adalah false.
  - Untuk menentukan parser tata letak:
```
"layoutParsingConfig": {}
```
  - Untuk menentukan parser digital:
```
"documentProcessingConfig": {
  "defaultParsingConfig": { "digitalParsingConfig": {} }
}
```

Konsol

Saat membuat penyimpanan data penelusuran melalui konsol, Anda dapat menentukan penggantian parser untuk jenis file tertentu.

Contoh

Contoh berikut menentukan selama pembuatan penyimpanan data bahwa file PDF harus diproses oleh parser OCR dan file HTML harus diproses oleh parser tata letak. Dalam hal ini, file selain file PDF dan HTML akan diproses oleh parser digital.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1/projects/exampleproject/locations/global/collections/default_collection/dataStores?dataStoreId=datastore123" \
-d '{
  "displayName": "exampledatastore",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
  "contentConfig": "CONTENT_REQUIRED",
  "documentProcessingConfig": {
    "parsingConfigOverrides": {
      "pdf": {
        "ocrParsingConfig": {
            "useNativeText": "false"
          },
      },
      "html": {
         "layoutParsingConfig": {}
      }
    }
  }
}'

Mengedit penguraian dokumen untuk penyimpanan data yang ada

Jika sudah memiliki penyimpanan data, Anda dapat mengubah parser default dan menambahkan pengecualian format file. Namun, setelan parser yang diperbarui hanya berlaku untuk dokumen baru yang diimpor ke penyimpanan data. Dokumen yang sudah ada di penyimpanan data tidak diuraikan ulang dengan setelan baru.

Untuk mengubah setelan parsing dokumen untuk penyimpanan data, lakukan hal berikut:

Di konsol Google Cloud , buka halaman AI Applications.

Aplikasi AI
Di menu navigasi, klik Data Stores.
Di kolom Nama, klik penyimpanan data yang ingin Anda edit.
Di tab Konfigurasi pemrosesan, edit setelan Penguraian dokumen.

Setelan Pengelompokan dokumen tidak dapat diubah. Jika penyimpanan data tidak mengaktifkan chunking dokumen, Anda tidak dapat memilih parser tata letak.
Klik Kirim.

Mengonfigurasi parser tata letak untuk mengecualikan konten HTML

Anda dapat mengonfigurasi parser tata letak untuk mengecualikan konten HTML dengan menentukan excludeHtmlElements, excludeHtmlClasses, atau excludeHtmlIds di documentProcessingConfig.defaultParsingConfig.layoutParsingConfig.

REST

Untuk mengecualikan konten HTML tertentu agar tidak diproses oleh parser tata letak, ikuti langkah-langkah berikut:

Saat membuat penyimpanan data penelusuran menggunakan API, sertakan documentProcessingConfig.defaultParsingConfig.layoutParsingConfig dalam permintaan pembuatan penyimpanan data.

Untuk mengecualikan jenis tag HTML tertentu, gunakan:

"documentProcessingConfig": {
  "defaultParsingConfig": {
   "layoutParsingConfig": {
    "excludeHtmlElements": ["HTML_TAG_1","HTML_TAG_2","HTML_TAG_N"]
   }
  }
 }

Ganti variabel HTML_TAG dengan nama tag, misalnya, nav dan footer.

Untuk mengecualikan atribut class elemen HTML tertentu, gunakan:

"documentProcessingConfig": {
  "defaultParsingConfig": {
   "layoutParsingConfig": {
    "excludeHtmlClasses": ["HTML_CLASS_1","HTML_CLASS_2","HTML_CLASS_N"]
   }
  }
 }

Ganti variabel HTML_CLASS dengan atribut class, misalnya, overlay dan screenreader.

Untuk mengecualikan atribut ID elemen HTML tertentu, gunakan:

"documentProcessingConfig": {
  "defaultParsingConfig": {
   "layoutParsingConfig": {
    "excludeHtmlIds": ["HTML_ID_1","HTML_ID_2","HTML_ID_N"]
   }
  }
 }

Ganti variabel HTML_ID dengan atribut ID, misalnya, cookie-banner.

Contoh

Contoh ini menentukan bahwa saat file HTML diproses oleh parser tata letak, hal berikut dilewati oleh parser:

Tag elemen HTML, header, footer, nav, dan aside
Atribut class elemen HTML dari jenis overlays dan screenreader
Elemen apa pun dengan ID atribut cookie-banner

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1/projects/exampleproject/locations/global/collections/default_collection/dataStores?dataStoreId=datastore123&createAdvancedSiteSearch=true" \
-d '{
  "displayName": "exampledatastore",
  "industryVertical": "GENERIC",
  "contentConfig": "PUBLIC_WEBSITE",
  "documentProcessingConfig": {
    "chunkingConfig": {
      "layoutBasedChunkingConfig": {}
    },
    "defaultParsingConfig": {
      "layoutParsingConfig": {
       "excludeHtmlElements": ["header", "footer", "nav", "aside"],
       "excludeHtmlClasses": ["overlays", "screenreader"],
       "excludeHtmlIds": ["cookie-banner"]
      }
    }
  }
}'

Mendapatkan dokumen yang diuraikan dalam JSON

Anda bisa mendapatkan dokumen yang diuraikan dalam format JSON dengan memanggil metode getProcessedDocument dan menentukan PARSED_DOCUMENT sebagai jenis dokumen yang diproses. Mendapatkan dokumen yang diuraikan dalam JSON dapat membantu jika Anda perlu mengupload dokumen yang diuraikan ke tempat lain atau jika Anda memutuskan untuk mengimpor ulang dokumen yang diuraikan ke Aplikasi AI menggunakan fitur bawa dokumen yang diuraikan sendiri.

REST

Untuk mendapatkan dokumen yang diuraikan dalam JSON, ikuti langkah berikut:

Panggil metode getProcessedDocument:

curl -X GET \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID:getProcessedDocument?processed_document_type=PARSED_DOCUMENT"

Ganti kode berikut:

PROJECT_ID: ID project Anda.
DATA_STORE_ID: ID penyimpanan data Anda.
DOCUMENT_ID: ID dokumen yang akan diambil.

Membawa dokumen yang diuraikan sendiri

Anda dapat mengimpor dokumen tidak terstruktur yang telah diuraikan sebelumnya ke penyimpanan data Vertex AI Search. Misalnya, daripada mengimpor dokumen PDF mentah, Anda dapat mengurai PDF sendiri dan mengimpor hasil penguraian tersebut. Hal ini memungkinkan Anda mengimpor dokumen secara terstruktur, sehingga penelusuran dan pembuatan jawaban memiliki informasi tentang tata letak dan elemen dokumen.

Dokumen tidak terstruktur yang diuraikan direpresentasikan oleh JSON yang mendeskripsikan dokumen tidak terstruktur menggunakan urutan blok teks, tabel, dan daftar. Anda mengimpor file JSON dengan data dokumen tidak terstruktur yang diurai dengan cara yang sama seperti saat Anda mengimpor jenis dokumen tidak terstruktur lainnya, seperti PDF. Jika fitur ini diaktifkan, setiap kali file JSON diupload dan diidentifikasi oleh jenis MIME application/json atau ekstensi .JSON, file tersebut akan diperlakukan sebagai dokumen yang diuraikan.

Untuk mengaktifkan fitur ini dan mengetahui informasi tentang cara menggunakannya, hubungi tim Akun Google Anda.

Memotong dokumen untuk RAG

Secara default, Vertex AI Search dioptimalkan untuk pengambilan dokumen, dengan aplikasi penelusuran Anda menampilkan dokumen seperti PDF atau halaman web dengan setiap hasil penelusuran.

Fitur pemecahan dokumen tersedia untuk aplikasi penelusuran khusus dengan penyimpanan data tidak terstruktur.

Vertex AI Search dapat dioptimalkan untuk RAG, dengan aplikasi penelusuran Anda terutama digunakan untuk meningkatkan output LLM dengan data kustom Anda. Jika pengelompokan dokumen diaktifkan, Vertex AI Search akan memecah dokumen Anda menjadi beberapa bagian. Dalam hasil penelusuran, aplikasi penelusuran Anda dapat menampilkan potongan data yang relevan alih-alih dokumen lengkap. Penggunaan data yang di-chunk untuk RAG akan meningkatkan relevansi jawaban LLM dan mengurangi beban komputasi untuk LLM.

Untuk menggunakan Vertex AI Search untuk RAG:

Aktifkan pemecahan dokumen saat Anda membuat penyimpanan data.

Atau, upload potongan Anda sendiri (Pratinjau dengan daftar yang diizinkan) jika Anda telah membagi dokumen Anda sendiri.
Mengambil dan melihat potongan dengan cara berikut:
Menampilkan potongan dalam permintaan penelusuran.

Batasan

Batasan berikut berlaku untuk pembuatan potongan:

Pengelompokan dokumen tidak dapat diaktifkan atau dinonaktifkan setelah pembuatan penyimpanan data.
Anda dapat membuat permintaan penelusuran untuk dokumen, bukan potongan, dari penyimpanan data dengan pengelompokan dokumen diaktifkan. Namun, penyimpanan data dengan chunking dokumen diaktifkan tidak dioptimalkan untuk menampilkan dokumen. Dokumen ditampilkan dengan menggabungkan potongan menjadi dokumen.
Jika pengelompokan dokumen diaktifkan, ringkasan penelusuran dan penelusuran dengan tindak lanjut didukung dalam Pratinjau publik, tetapi tidak didukung sebagai GA.

Opsi pemecahan dokumen

Bagian ini menjelaskan opsi yang Anda tentukan untuk mengaktifkan pemecahan dokumen.

Selama pembuatan penyimpanan data, aktifkan opsi berikut agar Vertex AI Search dapat mengindeks dokumen Anda sebagai potongan.

Pengelompokan dokumen yang memperhatikan tata letak. Untuk mengaktifkan opsi ini, sertakan kolom documentProcessingConfig dalam permintaan pembuatan penyimpanan data dan tentukan ChunkingConfig.LayoutBasedChunkingConfig.

Jika chunking dokumen yang memperhatikan tata letak diaktifkan, Vertex AI Search mendeteksi tata letak dokumen dan memperhitungkannya selama chunking. Hal ini meningkatkan koherensi semantik dan mengurangi derau dalam konten saat digunakan untuk pengambilan dan pembuatan LLM. Semua teks dalam potongan akan berasal dari entity tata letak yang sama, seperti judul, subjudul, dan daftar.
Penguraian tata letak. Untuk mengaktifkan opsi ini, tentukan ParsingConfig.LayoutParsingConfig selama pembuatan penyimpanan data.

Pengurai tata letak mendeteksi tata letak untuk file PDF, HTML, dan DOCX. Fitur ini mengidentifikasi elemen seperti blok teks, tabel, daftar, judul, dan tajuk, lalu menggunakannya untuk menentukan organisasi dan hierarki dokumen.

Untuk mengetahui informasi selengkapnya tentang parsing tata letak, lihat Parsing tata letak.

Mengaktifkan pemecahan dokumen

Anda dapat mengaktifkan pemecahan dokumen dengan menyertakan objek documentProcessingConfig dalam permintaan pembuatan penyimpanan data dan mengaktifkan pemecahan dokumen yang memahami tata letak dan penguraian tata letak.

REST

Untuk mengaktifkan pemecahan dokumen:

Saat membuat penyimpanan data penelusuran menggunakan API, sertakan objek documentProcessingConfig.chunkingConfig dalam permintaan pembuatan penyimpanan data.
```
 "documentProcessingConfig": {
   "chunkingConfig": {
       "layoutBasedChunkingConfig": {
           "chunkSize": CHUNK_SIZE_LIMIT,
           "includeAncestorHeadings": HEADINGS_BOOLEAN,
       }
   },
   "defaultParsingConfig": {
     "layoutParsingConfig": {}
   }
 }
```
Ganti kode berikut:
- CHUNK_SIZE_LIMIT: Opsional. Batas ukuran token untuk setiap potongan. Nilai defaultnya adalah 500. Nilai yang didukung adalah 100-500 (inklusif).
- HEADINGS_BOOLEAN: Opsional. Menentukan apakah heading disertakan dalam setiap bagian. Nilai defaultnya adalah false. Menambahkan judul dan heading di semua tingkat ke potongan dari bagian tengah dokumen dapat membantu mencegah hilangnya konteks dalam pengambilan dan peringkat potongan.

Konsol

Saat membuat penyimpanan data penelusuran melalui konsol, Anda dapat mengaktifkan pemecahan dokumen.

Menyediakan potongan Anda sendiri (Pratinjau dengan daftar yang diizinkan)

Jika sudah membagi dokumen Anda sendiri menjadi beberapa bagian, Anda dapat menguploadnya ke Vertex AI Search, bukan mengaktifkan opsi pembagian dokumen menjadi beberapa bagian.

Menyediakan chunk Anda sendiri adalah fitur Pratinjau dengan daftar yang diizinkan. Untuk menggunakan fitur ini, hubungi tim akun Google Anda.

Mencantumkan potongan dokumen

Untuk mencantumkan semua bagian untuk dokumen tertentu, panggil metode Chunks.list.

REST

Untuk mencantumkan bagian dokumen, ikuti langkah berikut:

Panggil metode Chunks.list:

curl -X GET \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID/chunks"

Ganti kode berikut:

PROJECT_ID: ID project Anda.
DATA_STORE_ID: ID penyimpanan data Anda.
DOCUMENT_ID: ID dokumen yang akan dicantumkan chunk-nya.

Mendapatkan potongan dalam JSON dari dokumen yang diproses

Anda bisa mendapatkan semua bagian dari dokumen tertentu dalam format JSON dengan memanggil metode getProcessedDocument. Mendapatkan potongan dalam JSON dapat berguna jika Anda perlu mengupload potongan di tempat lain atau jika Anda memutuskan untuk mengimpor ulang potongan ke Aplikasi AI menggunakan fitur bawa potongan Anda sendiri.

REST

Untuk mendapatkan potongan JSON untuk dokumen, ikuti langkah berikut:

Panggil metode getProcessedDocument:

curl -X GET \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID:getProcessedDocument?processed_document_type=CHUNKED_DOCUMENT"

Ganti kode berikut:

PROJECT_ID: ID project Anda.
DATA_STORE_ID: ID penyimpanan data Anda.
DOCUMENT_ID: ID dokumen yang akan diambil chunk-nya.

Mendapatkan potongan tertentu

Untuk mendapatkan chunk tertentu, panggil metode Chunks.get.

REST

Untuk mendapatkan potongan tertentu, ikuti langkah ini:

Panggil metode Chunks.get:

curl -X GET \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID/chunks/CHUNK_ID"

Ganti kode berikut:

PROJECT_ID: ID project Anda.
DATA_STORE_ID: ID penyimpanan data Anda.
DOCUMENT_ID: ID dokumen asal potongan.
CHUNK_ID: ID chunk yang akan ditampilkan.

Menampilkan potongan dalam permintaan penelusuran

Setelah Anda mengonfirmasi bahwa data Anda telah dikelompokkan dengan benar, Vertex AI Search dapat menampilkan data yang dikelompokkan dalam hasil penelusurannya.

Respons menampilkan potongan yang relevan dengan kueri penelusuran. Selain itu, Anda dapat memilih untuk menampilkan potongan berdekatan yang muncul sebelum dan setelah potongan yang relevan dalam dokumen sumber. Potongan yang berdekatan dapat menambahkan konteks dan akurasi.

REST

Untuk mendapatkan data yang di-chunk:

Saat membuat permintaan penelusuran, tentukan ContentSearchSpec.SearchResultMode sebagai chunks.
```
contentSearchSpec": {
  "searchResultMode": "RESULT_MODE",
  "chunkSpec": {
       "numPreviousChunks": NUMBER_OF_PREVIOUS_CHUNKS,
       "numNextChunks": NUMBER_OF_NEXT_CHUNKS
   }
}
```
- RESULT_MODE: Menentukan apakah hasil penelusuran ditampilkan sebagai dokumen lengkap atau dalam potongan. Untuk mendapatkan potongan, penyimpanan data harus mengaktifkan pemotongan dokumen. Nilai yang diterima adalah documents dan chunks. Jika chunking dokumen diaktifkan untuk penyimpanan data Anda, nilai defaultnya adalah chunks.
- NUMBER_OF_PREVIOUS_CHUNKS: Jumlah potongan yang akan ditampilkan yang langsung mendahului potongan yang relevan. Nilai maksimum yang diizinkan adalah 5.
- NUMBER_OF_NEXT_CHUNKS: Jumlah potongan yang akan ditampilkan yang langsung mengikuti potongan yang relevan. Nilai maksimum yang diizinkan adalah 5.

Contoh

Contoh permintaan kueri penelusuran berikut menetapkan SearchResultMode ke chunks, meminta satu bagian sebelumnya dan satu bagian berikutnya, serta membatasi jumlah hasil ke satu bagian yang relevan menggunakan pageSize.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1/projects/exampleproject/locations/global/collections/default_collection/dataStores/datastore123/servingConfigs/default_search:search" \
-d '{
  "query": "animal",
  "pageSize": 1,
  "contentSearchSpec": {
    "searchResultMode": "CHUNKS",
    "chunkSpec": {
           "numPreviousChunks": 1,
           "numNextChunks": 1
       }
  }
}'

Contoh berikut menunjukkan respons yang ditampilkan untuk contoh kueri. Respons berisi potongan yang relevan, potongan sebelumnya dan berikutnya, metadata dokumen asli, dan rentang halaman dokumen yang menjadi asal setiap potongan.

Respons

{
  "results": [
    {
      "chunk": {
        "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c17",
        "id": "c17",
        "content": "\n# ESS10: Stakeholder Engagement and Information Disclosure\nReaders should also refer to ESS10 and its guidance notes, plus the template available for a stakeholder engagement plan. More detail on stakeholder engagement in projects with risks related to animal health is contained in section 4 below. The type of stakeholders (men and women) that can be engaged by the Borrower as part of the project's environmental and social assessment and project design and implementation are diverse and vary based on the type of intervention. The stakeholders can include: Pastoralists, farmers, herders, women's groups, women farmers, community members, fishermen, youths, etc. Cooperatives members, farmer groups, women's livestock associations, water user associations, community councils, slaughterhouse workers, traders, etc. Veterinarians, para-veterinary professionals, animal health workers, community animal health workers, faculties and students in veterinary colleges, etc. 8 \n# 4. Good Practice in Animal Health Risk Assessment and Management\n\n# Approach\nRisk assessment provides the transparent, adequate and objective evaluation needed by interested parties to make decisions on health-related risks associated with project activities involving live animals. As the ESF requires, it is conducted throughout the project cycle, to provide or indicate likelihood and impact of a given hazard, identify factors that shape the risk, and find proportionate and appropriate management options. The level of risk may be reduced by mitigation measures, such as infrastructure (e.g., diagnostic laboratories, border control posts, quarantine stations), codes of practice (e.g., good animal husbandry practices, on-farm biosecurity, quarantine, vaccination), policies and regulations (e.g., rules for importing live animals, ban on growth hormones and promotors, feed standards, distance required between farms, vaccination), institutional capacity (e.g., veterinary services, surveillance and monitoring), changes in individual behavior (e.g., hygiene, hand washing, care for animals). Annex 2 provides examples of mitigation practices. This list is not an exhaustive one but a compendium of most practiced interventions and activities. The cited measures should take into account social, economic, as well as cultural, gender and occupational aspects, and other factors that may affect the acceptability of mitigation practices by project beneficiaries and other stakeholders. Risk assessment is reviewed and updated through the project cycle (for example to take into account increased trade and travel connectivity between rural and urban settings and how this may affect risks of disease occurrence and/or outbreak). Projects monitor changes in risks (likelihood and impact) b               by using data, triggers or indicators. ",
        "documentMetadata": {
          "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
          "title": "AnimalHealthGoodPracticeNote"
        },
        "pageSpan": {
          "pageStart": 14,
          "pageEnd": 15
        },
        "chunkMetadata": {
          "previousChunks": [
            {
              "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c16",
              "id": "c16",
              "content": "\n# ESS6: Biodiversity Conservation and Sustainable Management of Living Natural Resources\nThe risks associated with livestock interventions under ESS6 include animal welfare (in relation to housing, transport, and slaughter); diffusion of pathogens from domestic animals to wildlife, with risks for endemic species and biodiversity (e.g., sheep and goat plague in Mongolia affecting the saiga, an endemic species of wild antelope); the introduction of new breeds with potential risk of introducing exotic or new diseases; and the release of new species that are not endemic with competitive advantage, potentially putting endemic species at risk of extinction. Animal welfare relates to how an animal is coping with the conditions in which it lives. An animal is in a good state of welfare if it is healthy, comfortable, well nourished, safe, able to express innate behavior, 7 Good Practice Note - Animal Health and related risks and is not suffering from unpleasant states such as pain, fear or distress. Good animal welfare requires appropriate animal care, disease prevention and veterinary treatment; appropriate shelter, management and nutrition; humane handling, slaughter or culling. The OIE provides standards for animal welfare on farms, during transport and at the time of slaughter, for their welfare and for purposes of disease control, in its Terrestrial and Aquatic Codes. The 2014 IFC Good Practice Note: Improving Animal Welfare in Livestock Operations is another example of practical guidance provided to development practitioners for implementation in investments and operations. Pastoralists rely heavily on livestock as a source of food, income and social status. Emergency projects to restock the herds of pastoralists affected by drought, disease or other natural disaster should pay particular attention to animal welfare (in terms of transport, access to water, feed, and animal health) to avoid potential disease transmission and ensure humane treatment of animals. Restocking also entails assessing the assets of pastoralists and their ability to maintain livestock in good conditions (access to pasture and water, social relationship, technical knowledge, etc.). Pastoralist communities also need to be engaged by the project to determine the type of animals and breed and the minimum herd size to be considered for restocking. \n# Box 5. Safeguarding the welfare of animals and related risks in project activities\nIn Haiti, the RESEPAG project (Relaunching Agriculture: Strengthening Agriculture Public Services) financed housing for goats and provided technical recommendations for improving their welfare, which is critical to avoid the respiratory infections, including pneumonia, that are serious diseases for goats. To prevent these diseases, requires optimal sanitation and air quality in herd housing. This involves ensuring that buildings have adequate ventilation and dust levels are reduced to minimize the opportunity for infection. Good nutrition, water and minerals are also needed to support the goats' immune function. The project paid particular attention to: (i) housing design to ensure good ventilation; (ii) locating housing close to water sources and away from human habitation and noisy areas; (iii) providing mineral blocks for micronutrients; (iv) ensuring availability of drinking water and clean food troughs. ",
              "documentMetadata": {
                "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
                "title": "AnimalHealthGoodPracticeNote"
              },
              "pageSpan": {
                "pageStart": 13,
                "pageEnd": 14
              }
            }
          ],
          "nextChunks": [
            {
              "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c18",
              "id": "c18",
              "content": "\n# Scoping of risks\nEarly scoping of risks related to animal health informs decisions to initiate more comprehensive risk assessment according to the type of livestock interventions and activities. It can be based on the following considerations: • • • • Type of livestock interventions supported by the project (such as expansion of feed resources, improvement of animal genetics, construction/upgrading and management of post-farm-gate facilities, etc. – see also Annex 2); Geographic scope and scale of the livestock interventions; Human and animal populations that are likely to be affected (farmers, women, children, domestic animals, wildlife, etc.); and Changes in the project or project context (such as emerging disease outbreak, extreme weather or climatic conditions) that would require a re-assessment of risk levels, mitigation measures and their likely effect on risk reduction. Scenario planning can also help to identify project-specific vulnerabilities, country-wide or locally, and help shape pragmatic analyses that address single or multiple hazards. In this process, some populations may be identified as having disproportionate exposure or vulnerability to certain risks because of occupation, gender, age, cultural or religious affiliation, socio-economic or health status. For example, women and children may be the main caretakers of livestock in the case of 9 Good Practice Note - Animal Health and related risks household farming, which puts them into close contact with animals and animal products. In farms and slaughterhouses, workers and veterinarians are particularly exposed, as they may be in direct contact with sick animals (see Box 2 for an illustration). Fragility, conflict, and violence (FCV) can exacerbate risk, in terms of likelihood and impact. Migrants new to a geographic area may be immunologically naïve to endemic zoonotic diseases or they may inadvertently introduce exotic diseases; and refugees or internally displaced populations may have high population density with limited infrastructure, leaving them vulnerable to disease exposure. Factors such as lack of access to sanitation, hygiene, housing, and health and veterinary services may also affect disease prevalence, contributing to perpetuation of poverty in some populations. Risk assessment should identify populations at risk and prioritize vulnerable populations and circumstances where risks may be increased. It should be noted that activities that seem minor can still have major consequences. See Box 6 for an example illustrating how such small interventions in a project may have large-scale consequences. It highlights the need for risk assessment, even for simple livestock interventions and activities, and how this can help during the project cycle (from concept to implementation). ",
              "documentMetadata": {
                "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
                "title": "AnimalHealthGoodPracticeNote"
              },
              "pageSpan": {
                "pageStart": 15,
                "pageEnd": 16
              }
            }
          ]
        }
      }
    }
  ],
  "totalSize": 61,
  "attributionToken": "jwHwjgoMCICPjbAGEISp2J0BEiQ2NjAzMmZhYS0wMDAwLTJjYzEtYWQxYS1hYzNlYjE0Mzc2MTQiB0dFTkVSSUMqUMLwnhXb7Ygtq8SKLa3Eii3d7Ygtj_enIqOAlyLm7Ygtt7eMLduPmiKN96cijr6dFcXL8xfdj5oi9-yILdSynRWCspoi-eyILYCymiLk7Ygt",
  "nextPageToken": "ANxYzNzQTMiV2MjFWLhFDZh1SMjNmMtADMwATL5EmZyMDM2YDJaMQv3yagQYAsciPgIwgExEgC",
  "guidedSearchResult": {},
  "summary": {}
}

Langkah berikutnya

Membuat penyimpanan data penelusuran

Mengurai dan memotong dokumen Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Mengurai dokumen

Perbandingan ketersediaan parser

Parser digital

Parser OCR untuk PDF

Parser tata letak

Anotasi gambar (Pratinjau)

Anotasi tabel (Pratinjau)

Mengecualikan konten HTML

Menentukan parser default

REST

Konsol

Contoh

Menentukan penggantian parser untuk jenis file

REST

Konsol

Contoh

Mengedit penguraian dokumen untuk penyimpanan data yang ada

Mengonfigurasi parser tata letak untuk mengecualikan konten HTML

REST

Contoh

Mendapatkan dokumen yang diuraikan dalam JSON

REST

Membawa dokumen yang diuraikan sendiri

Memotong dokumen untuk RAG

Batasan

Opsi pemecahan dokumen

Mengaktifkan pemecahan dokumen

REST

Konsol

Menyediakan potongan Anda sendiri (Pratinjau dengan daftar yang diizinkan)

Mencantumkan potongan dokumen

REST

Mendapatkan potongan dalam JSON dari dokumen yang diproses

REST

Mendapatkan potongan tertentu

REST

Menampilkan potongan dalam permintaan penelusuran

REST

Contoh

Respons

Langkah berikutnya

Mengurai dan memotong dokumen