Menyesuaikan transformasi RAG

Setelah dokumen diserap, Vertex AI RAG Engine menjalankan serangkaian transformasi untuk menyiapkan data untuk pengindeksan. Anda dapat mengontrol kasus penggunaan menggunakan parameter berikut:

Parameter Deskripsi
chunk_size Saat dokumen dimasukkan ke dalam indeks, dokumen tersebut akan dibagi menjadi beberapa bagian. Parameter chunk_size (dalam token) menentukan ukuran potongan. Ukuran potongan default adalah 1.024 token.
chunk_overlap Secara default, dokumen dibagi menjadi beberapa bagian dengan jumlah tumpang-tindih tertentu untuk meningkatkan relevansi dan kualitas pengambilan. Tumpang-tindih potongan default adalah 256 token.

Ukuran potongan yang lebih kecil berarti embedding lebih presisi. Ukuran potongan yang lebih besar berarti sematan mungkin lebih umum, tetapi mungkin melewatkan detail tertentu.

Misalnya, jika Anda mengonversi 1.000 kata menjadi array sematan yang dimaksudkan untuk 200 kata, Anda mungkin akan kehilangan detail. Kapasitas embedding ditetapkan untuk setiap potongan. Sebagian besar teks mungkin tidak sesuai dengan model jendela kecil.

Langkah berikutnya