Préparer les données d'entraînement
Cloud Translation entraîne des modèles personnalisés en utilisant des paires de segments correspondantes dans les langues source et cible. Le service traite chaque paire de segments comme un élément d'entraînement indépendant, sans supposer de corrélation entre paires distinctes.
Les paires de segments utilisées pour entraîner votre modèle personnalisé doivent se trouver dans les valeurs séparées par des tabulations (.tsv
) ou au format Translation Memory eXchange (.tmx
).
Pour en savoir plus, consultez la page Préparer des exemples de traductions.
Les doublons sont toujours éliminés dans toutes les paires importées. Une paire de segments est un double d'une autre paire lorsque son segment source correspond à un autre segment source. Cloud Translation ne vous permet pas d'importer des fichiers ayant le même contenu.
Répartition des données
AutoML Translation utilise les paires de segments que vous fournissez à différentes fins lors de la création de votre modèle personnalisé :
- Entraînement : utilisez des paires de segments pour entraîner le modèle. Attribuez la majeure partie de vos données à cette fin.
- Validation : paires de segments pour valider les résultats renvoyés par le modèle pendant l'entraînement.
- Test : segmentez les paires pour générer les métriques d'évaluation finales de votre modèle. Indique les performances potentielles du modèle en production.
Vous pouvez contrôler les paires de segments qu'utilise AutoML Translation à chaque étape, en important des fichiers distincts pour les ensembles d'entraînement, de validation et de test. Si vous ne spécifiez pas explicitement les fichiers à utiliser à chaque étape, AutoML Translation divise automatiquement vos paires de segments en trois ensembles. AutoML Translation utilise environ 80 % de vos données pour l'entraînement, 10 % pour la validation et 10 % pour les tests. AutoML Translation attribue de manière aléatoire vos paires de segments dans les trois ensembles. Vous pouvez utiliser au maximum 10 000 paires de segments pour les ensembles de validation et de test. Après 10 000 paires, les paires de segments sont envoyées vers l'ensemble d'entraînement.
Si vous effectuez plusieurs importations de données dans un même ensemble de données, vous pouvez spécifier manuellement la répartition des données pour une importation et utiliser la répartition automatique pour une autre importation. Les données sont toujours rééquilibrées par rapport à votre répartition manuelle après chaque importation et suppression de fichier.
Exigences en matière de données
Vos données d'entraînement doivent respecter les exigences suivantes :
- Si vous laissez AutoML Translation répartir automatiquement vos données, vous devez envoyer au moins 1000 paires de segments pour entraîner un modèle personnalisé.
- Si vous répartissez manuellement vos données, vous devez fournir au moins trois paires de segments pour l'ensemble
TRAIN
, et vous devez disposer d'au moins 100 paires de segments pour chacun des ensemblesVALIDATION
etTEST
. - Vous devez fournir au moins trois paires de segments pour l'ensemble
TRAIN
, et vous devez disposer d'au moins 100 paires de segments pour chacun des ensemblesVALIDATION
etTEST
. - Vous ne pouvez pas fournir plus de 10 000 paires de segments pour les ensembles
VALIDATION
etTEST
. - Votre ensemble de données ne peut pas dépasser le maximum de 15 millions de paires de segments.
Recommandations concernant les données
Les recommandations suivantes peuvent vous aider à améliorer la qualité de votre modèle :
- Utilisez au moins 5 000 paires de segments pour
TRAIN
, 500 paires de segments pourVALIDATION
et 500 paires de segments pourTEST
. Cela dit, si possible, utilisez davantage de données. Le fait d'avoir plus de données pour l'ensembleTRAIN
permet l'apprentissage de modèles récurrents. Le fait d'avoir plus de données pour les ensemblesVALIDATION
etTEST
permet de vérifier que le modèle peut être généralisé à un ensemble plus large de scénarios dans votre domaine. - Utilisez des segments d'environ 200 mots au maximum. AutoML Translation risque de supprimer les paires de segments plus grandes. Pour en savoir plus, consultez la section Problèmes d'importation.
- Corrigez les problèmes de données sources courants, comme décrit dans la section "Nettoyer les données désordonnées" de la section Préparation des données de la présentation.