Trainingsdaten vorbereiten

Cloud Translation trainiert benutzerdefinierte Modelle mithilfe von passenden Segmentpaaren in den Quell- und Zielsprachen. Jedes Segmentpaar wird als unabhängiges Trainingselement behandelt, ohne einen Zusammenhang zwischen den einzelnen Paaren anzunehmen.

Die Segmentpaare, die zum Trainieren des benutzerdefinierten Modells verwendet werden, müssen sich in den tabulatorgetrennten Werten (.tsv) oder dem Format Translation Memory eXchange (.tmx) befinden. Weitere Informationen finden Sie unter Beispielübersetzungen vorbereiten.

Segmentpaare werden immer über alle importierten Paare hinweg dedupliziert. Ein Segmentpaar ist ein Duplikat eines anderen, wenn das Ausgangssegment mit einem anderen Ausgangssegment übereinstimmt. Mit Cloud Translation können Sie keine Dateien mit demselben Inhalt importieren.

Datenaufteilung

AutoML Translation verwendet die von Ihnen bereitgestellten Segmentpaare für verschiedene Zwecke beim Erstellen Ihres benutzerdefinierten Modells:

Training: Segmentpaare zum Trainieren des Modells. Stellen Sie den Großteil Ihrer Daten für diesen Zweck bereit.
Validierung: Segmentpaare, um die Ergebnisse zu validieren, die das Modell während des Trainings zurückgibt.
Test: Segmentpaare, um die endgültigen Bewertungsmesswerte Ihres Modells zu generieren. Gibt an, wie das Modell in der Produktion abschneiden könnte.

Sie können bestimmen, welche Segmentpaare von AutoML Translation für die einzelnen Zwecke verwendet werden. Hierzu laden Sie separate Dateien für die Trainings-, Validierungs- und Test-Datasets hoch. Wenn Sie nicht ausdrücklich angeben, welche Dateien für diese drei Zwecke verwendet werden sollen, unterteilt AutoML Translation die Segmentpaare automatisch in drei Datasets. AutoML Translation verwendet ungefähr 80 % Ihrer Daten für das Training, 10 % für die Validierung und 10 % für Tests. AutoML Translation weist Ihre Segmentpaare nach dem Zufallsprinzip den drei Datasets zu. Sie können jeweils maximal 10.000 Segmentpaare für das Validierungs- und das Test-Dataset haben. Nach 10.000 Paaren werden Segmentpaare an das Trainings-Dataset übertragen.

Wenn Sie mehrere Datenimporte in dasselbe Dataset laden, können Sie die Datenaufteilung manuell für einen Import angeben und die automatische Aufteilung für einen anderen nutzen. Die Daten werden nach jedem Import und jedem Löschen von Dateien neu in Bezug auf die manuelle Aufteilung verteilt.

Datenanforderungen

Ihre Trainingsdaten müssen folgende Anforderungen erfüllen:

Wenn Sie AutoML Translation Ihre Daten automatisch aufteilen lassen, müssen Sie mindestens 1.000 Segmentpaare senden, um ein benutzerdefiniertes Modell zu trainieren.
Wenn Sie Ihre Daten manuell aufteilen, müssen Sie mindestens drei Segmentpaare für das TRAIN-Dataset angeben und mindestens 100 Segmentpaare für das VALIDATION- und das TEST-Dataset bereitstellen.
Sie müssen mindestens drei Segmentpaare für das TRAIN-Dataset angeben und mindestens 100 Segmentpaare für das VALIDATION- und das TEST-Dataset bereitstellen.
Für das VALIDATION- und das TEST-Dataset können Sie maximal 10.000 Segmentpaare angeben.
Das Dataset darf nicht mehr als 15 Millionen Segmentpaare enthalten.

Datenempfehlungen

Die folgenden Empfehlungen können dabei helfen, die Qualität Ihres Modells zu steigern:

Verwenden Sie mindestens 5.000 Segmentpaare für TRAIN, 500 Segmentpaare für VALIDATION und 500 Segmentpaare für TEST. Verwenden Sie nach Möglichkeit aber mehr Daten. Mehr Daten für das TRAIN-Dataset helfen dem Modell, Muster zu lernen, und mehr Daten für das VALIDATION- und das TEST-Dataset helfen zu überprüfen, ob das Modell auf eine größere Vielfalt von Szenarien in Ihrem Bereich verallgemeinert werden kann.
Verwenden Sie Segmente mit maximal 200 Wörtern. AutoML Translation könnte Segmentpaare auslassen, die größer sind. Weitere Informationen finden Sie unter Importprobleme.
Beheben Sie häufige Quelldatenprobleme, wie im Abschnitt Datenvorbereitung der Übersicht unter „Unstrukturierte Daten bereinigen“ beschrieben.

Weitere Informationen

Beispielübersetzungen vorbereiten