Maximums pour l'ensemble de données d'entraînement : 300 documents, 300 pages
Ensemble de données d'entraînement : chaque libellé doit figurer sur au moins trois documents.
Ensemble de données de test : 2 000 documents maximum et 8 000 pages maximum
Ensemble de données de test : chaque étiquette doit figurer sur au moins trois documents.
20 pages maximum par document
Limites pour entraîner un classificateur de documents personnalisé (CDC) ou un séparateur de documents personnalisé (CDS)
Nombre maximal de documents dans l'ensemble de données d'entraînement : 30 000 ; nombre maximal de pages : 100 000
Ensemble de données d'entraînement : chaque étiquette doit figurer sur au moins 10 documents
Ensemble de données de test : 2 000 documents maximum et 8 000 pages maximum
Ensemble de données de test : chaque étiquette doit figurer sur au moins deux documents.
200 pages maximum par document
Étiquetage
Pour commencer, vérifiez que les libellés de document respectent les seuils d'entraînement et d'évaluation minimaux définis.
Pour commencer à évaluer les performances du modèle pour les documents dont la mise en page varie, libellez au moins 100 documents. Plus précisément, vérifiez que chaque libellé figure sur 50 documents d'entraînement et 50 documents d'évaluation.
Nombre maximal d'étiquettes (champs) autorisé : 150
Limites de taille des libellés (caractères) : les éléments longs ne sont pas bien pris en charge, mais il n'y a pas de limite explicite. Fragmentez les documents en morceaux de 800 ou 1 000 jetons, avec un chevauchement de 100 à 200 jetons entre les fragments. (Les éléments plus longs que la zone de chevauchement peuvent présenter des problèmes de qualité.)
Occurrences de libellés dans un document : aucune limite
Couverture géographique
Régions généralement acceptées : États-Unis, UE (multirégion)
Régions où l'accessibilité est limitée : Allemagne, Australie, Canada, Inde, Royaume-Uni, Singapour
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/10 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/10 (UTC)."],[],[],null,[]]