Cette page a été traduite par l'API Cloud Translation.

Affiner les transformations RAG

Une fois un document ingéré, le moteur RAG Vertex AI exécute un ensemble de transformations pour préparer les données à l'indexation. Vous pouvez contrôler vos cas d'utilisation à l'aide des paramètres suivants :

Paramètre	Description
`chunk_size`	Lorsque des documents sont ingérés dans un index, ils sont divisés en blocs. Le paramètre `chunk_size` (en jetons) spécifie la taille du bloc. La taille des fragments par défaut est de 1 024 jetons.
`chunk_overlap`	Par défaut, les documents sont divisés en fragments qui se chevauchent légèrement pour améliorer la pertinence et la qualité de récupération. Le chevauchement de fragments par défaut est de 256 jetons.

Une taille de fragment plus petite signifie que les embeddings sont plus précis. Une taille de fragment plus importante signifie que les embeddings peuvent être plus généraux, mais peuvent passer à côté de détails spécifiques.

Par exemple, si vous convertissez 1 000 mots en un tableau de représentations vectorielles continues qui était destiné à 200 mots, vous risquez de perdre des détails. La capacité d'embedding est fixe pour chaque bloc. Il est possible qu'un grand bloc de texte ne tienne pas dans un modèle à petite fenêtre.

Étapes suivantes

Utilisez l'analyseur de mise en page Document AI avec le moteur RAG Vertex AI.