Trainingsdaten vorbereiten
Cloud Translation trainiert benutzerdefinierte Modelle mithilfe von passenden Segmentpaaren in den Quell- und Zielsprachen. Jedes Segmentpaar wird als unabhängiges Trainingselement behandelt, ohne einen Zusammenhang zwischen den einzelnen Paaren anzunehmen.
Die Segmentpaare, die zum Trainieren des benutzerdefinierten Modells verwendet werden, müssen sich in den tabulatorgetrennten Werten (.tsv
) oder dem FormatTranslation Memory eXchange (.tmx
) befinden.
Weitere Informationen finden Sie unter Beispielübersetzungen vorbereiten.
Segmentpaare werden immer über alle importierten Paare hinweg dedupliziert. Ein Segmentpaar ist ein Duplikat eines anderen, wenn das Quellsegment mit einem anderen Quellsegment übereinstimmt. Mit Cloud Translation können Sie keine Dateien mit demselben Inhalt importieren.
Datenaufteilung
AutoML Translation verwendet die von Ihnen bereitgestellten Segmentpaare für verschiedene Zwecke beim Erstellen Ihres benutzerdefinierten Modells:
- Trainieren: Segmentpaare zum Trainieren des Modells. Weisen Sie den meisten Ihrer Daten diesen Zweck zu.
- Validierung: Segmentpaare, um die Ergebnisse zu validieren, die das Modell während des Trainings zurückgibt.
- Test: Segmentpaare, um die endgültigen Bewertungsmesswerte Ihres Modells zu generieren. Gibt an, wie sich das Modell in der Produktion verhalten könnte.
Sie können bestimmen, welche Segmentpaare von AutoML Translation für die einzelnen Zwecke verwendet werden. Hierzu laden Sie separate Dateien für die Trainings-, Validierungs- und Test-Sets hoch. Wenn Sie nicht ausdrücklich angeben, welche Dateien für diese drei Zwecke verwendet werden sollen, unterteilt AutoML Translation die Segmentpaare automatisch in drei Sets. AutoML Translation verwendet ungefähr 80 % Ihrer Daten für das Training, 10 % für die Validierung und 10 % für Tests. AutoML Translation weist Ihre Segmentpaare nach dem Zufallsprinzip den drei Datasets zu. Sie können jeweils maximal 10.000 Segmentpaare für die Validierungs- und Test-Sets haben. Nach 10.000 Paaren werden Segmentpaare an das Trainings-Set übertragen.
Wenn Sie mehrere Datenimporte in dasselbe Dataset laden, können Sie die Datenaufteilung manuell für einen Import angeben und die automatische Aufteilung für einen anderen nutzen. Die Daten werden nach jedem Import und jedem Löschen von Dateien neu in Bezug auf die manuelle Aufteilung verteilt.
Datenanforderungen
Ihre Trainingsdaten müssen folgende Anforderungen erfüllen:
- Wenn Sie AutoML Translation Ihre Daten automatisch aufteilen lassen, müssen Sie mindestens 1.000 Segmentpaare senden, um ein benutzerdefiniertes Modell zu trainieren.
- Wenn Sie Ihre Daten manuell aufteilen, müssen Sie mindestens drei Segmentpaare für das
TRAIN
-Set angeben und mindestens 100 Segmentpaare für dieVALIDATION
- undTEST
-Sets bereitstellen. - Sie müssen mindestens drei Segmentpaare für das Set
TRAIN
angeben und mindestens 100 Segmentpaare für das SetVALIDATION
undTEST
bereitstellen. - Für die Sets
VALIDATION
undTEST
können Sie maximal 10.000 Segmentpaare angeben. - Das Dataset darf nicht mehr als 15 Millionen Segmentpaare enthalten.
Datenempfehlungen
Mit den folgenden Empfehlungen können Sie die Qualität Ihres Modells verbessern:
- Verwenden Sie mindestens 5.000 Segmentpaare für
TRAIN
, 500 Segmentpaare fürVALIDATION
und 500 Segmentpaare fürTEST
. Verwenden Sie daher nach Möglichkeit mehr Daten. Mehr Daten für das SetTRAIN
helfen dem Modell, Muster zu lernen, und mehr Daten für die SetsVALIDATION
undTEST
helfen zu überprüfen, ob das Modell auf eine größere Vielfalt von Szenarien in Ihrem Bereich verallgemeinert werden kann. - Verwenden Sie Segmente mit maximal 200 Wörtern. AutoML Translation kann Segmentpaare auslassen, die größer sind. Weitere Informationen finden Sie unter Importprobleme.
- Beheben Sie häufige Quelldatenprobleme, wie im Abschnitt „Unstrukturierte Daten bereinigen“ im Abschnitt Datenvorbereitung der Übersicht beschrieben.