Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Preparar dados de treinamento
O Cloud Translation treina modelos personalizados usando pares correspondentes de segmentos nos idiomas de origem e de destino. Ele considera cada par de segmentos um item de treinamento independente, sem pressupor uma correlação entre os pares.
Os pares de segmentos usados para treinar o modelo personalizado precisam estar
nos valores separados por tabulação (.tsv) ou Memória de tradução
eXchange (.tmx).
Para saber mais, consulte Preparar traduções de exemplos.
Os pares de segmentos são sempre duplicados em todos os pares importados. Um par de segmentos
é uma cópia de outro quando o segmento de origem corresponde a outro
segmento de origem. O Cloud Translation não permite importar arquivos com o mesmo
conteúdo.
Divisão de dados
O AutoML Translation usa os pares de segmentos fornecidos para diferentes finalidades ao criar o modelo personalizado:
Treinamento: segmente pares para treinar o modelo. Aloque a maioria dos seus dados para essa finalidade.
Validação: pares de segmentos para validar os resultados retornados pelo modelo
durante o treinamento.
Teste: segmente pares para gerar as métricas de avaliação final do
modelo. Indica o desempenho do modelo na produção.
É possível controlar quais pares de segmentos o AutoML Translation usa para cada
finalidade, fazendo upload de arquivos separados para os conjuntos de treinamento, validação e
teste. Se você não especificar de maneira clara quais arquivos serão usados para essas três
finalidades, o AutoML Translation dividirá automaticamente os pares de segmentos
em três conjuntos. O AutoML Translation usa aproximadamente 80% dos seus dados
para treinamento, 10% para validação e 10% para teste. O AutoML Translation
atribui aleatoriamente seus pares de segmentos nos três conjuntos. É possível ter no máximo 10.000
pares de segmentos para cada conjunto de conjuntos de validação e teste. Depois de 10.000 pares,
os pares de segmentos são enviados para o conjunto de treinamento.
Se você fizer várias importações de dados no mesmo conjunto de dados, poderá especificar manualmente
a divisão de dados para uma importação e usar a divisão automática para outra. Os dados são
sempre re-equilibrados em relação à divisão manual após cada exclusão de importação e
de arquivo.
Requisitos de dados
Os dados de treinamento precisam estar em conformidade com os seguintes requisitos:
Se você permitir que o AutoML Translation divida seus dados automaticamente, envie
pelo menos 1.000 pares de segmentos para treinar um modelo personalizado.
Se você dividir manualmente seus dados, forneça pelo menos três pares
de segmentos para o conjunto TRAIN e precisará ter pelo menos 100 pares de segmentos cada
para os conjuntos VALIDATION e TEST.
Você precisa fornecer pelo menos três pares de segmentos para o conjunto TRAIN e
ter pelo menos 100 pares de segmentos para cada conjunto
VALIDATION e TEST.
Não é possível fornecer mais de 10.000 pares de segmentos cada para os conjuntos de VALIDATION
e TEST.
O conjunto de dados não pode exceder o máximo de 15 milhões de pares de segmentos.
Recomendações de dados
As recomendações a seguir podem ajudar a aumentar a qualidade do modelo:
Use pelo menos 5.000 pares de segmentos para TRAIN, 500 pares de segmentos para
VALIDATION e 500 pares de segmentos para TEST. Se possível, use mais
dados. Ter mais dados para o conjunto TRAIN ajuda o modelo a aprender padrões.
Ter mais dados para os conjuntos VALIDATION e TEST ajuda a verificar
se o modelo pode ser generalizado para uma variedade maior. de cenários no seu domínio.
Mantenha segmentos com, no máximo, 200 palavras. O AutoML Translation pode descartar
pares de segmentos maiores que isso. Para mais informações, consulte Problemas
de importação.
Corrija problemas comuns de dados de origem, conforme descrito na seção "Limpar dados confusos"
na seção Preparação
de dados
da visão geral.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-09-01 UTC."],[],[],null,["# Prepare training data\n=====================\n\nCloud Translation trains custom models by using matching pairs of segments in the\nsource and target languages. It treats each segment pair as an independent\ntraining item, without assuming any correlation between separate pairs.\n\nThe segment pairs that are used to train your custom model must be in the\ntab-separated values (`.tsv`) or Translation Memory eXchange (`.tmx`) format.\nFor more information, see [Prepare example translations](/translate/docs/advanced/custom-translations#file-prep).\n\nSegment pairs are always de-duplicated across all imported pairs. A segment pair\nis a duplicate of another when their source segment matches another source\nsegment. Cloud Translation doesn't allow you to import files with the same\ncontent.\n\nData split\n----------\n\nAutoML Translation uses the segment pairs that you provide to for\ndifferent purposes while creating your custom model:\n\n- **Train** - Segment pairs to train the model. Allocate most of your data for this purpose.\n- **Validation** - Segment pairs to validate the results that the model returns during training.\n- **Test** - Segment pairs to generate the final evaluation metrics of your model. Indicates how the model might perform in production.\n\nYou can control which segment pairs AutoML Translation uses for each\npurpose by uploading separate files for the training, validation, and testing\nsets. If you don't explicitly specify which files to use for these three\npurposes, AutoML Translation automatically divides your segment pairs\ninto three sets. AutoML Translation uses approximately 80% of your data\nfor training, 10% for validation, and 10% for testing. AutoML Translation\nrandomly assigns your segment pairs into the three sets. You can have a maximum\nof 10,000 segment pairs each for the validation and testing sets. After 10,000\npairs, segment pairs are pushed to the training set.\n\nIf you do multiple data imports into the same dataset, you can manually specify\nthe data split for one import and use the automatic split for another. Data is\nalways re-balanced with respect to your manual division after each import and\nfile deletion.\n| **Note:** If you exceed 100,000 segment pairs, you might have an unbalanced data split because you can only include a maximum of 10,000 segment pairs for the validation and test sets. AutoML Translation warns you but still allows training to proceed.\n\nData requirements\n-----------------\n\nYour training data must conform to the following requirements:\n\n- If you let AutoML Translation automatically split your data, you must submit at least 1,000 segment pairs to train a custom model.\n- If you manually split your data, you must provide at least three segment pairs for the `TRAIN` set, and you must have at least 100 segment pairs each for the `VALIDATION` and `TEST` sets.\n- You must provide at least three segment pairs for the `TRAIN` set, and you must have at least 100 segment pairs each for the `VALIDATION` and `TEST` sets.\n- You cannot provide more than 10,000 segment pairs each for the `VALIDATION` and `TEST` sets.\n- Your dataset cannot exceed the maximum of 15 million segment pairs.\n\n| **Important:** Do not use this product with any personal identifiable information (PII) or any data or images that have been obtained from a website or online service (including mobile apps) directed to children or from children under the age of 13, as covered by the Children's Online Privacy Protection Act, regardless of any parental consent. Data should be sanitized before sending it to the API. For support with removing PII or sensitive data visit \u003chttps://cloud.google.com/dlp\u003e\n\nData recommendations\n--------------------\n\nThe following recommendations can help you increase the quality of your model:\n\n- Use at least 5,000 segment pairs for `TRAIN`, 500 segment pairs for `VALIDATION`, and 500 segment pairs for `TEST`. That said, use more data if possible. Having more data for the `TRAIN` set helps the model learn patterns, and having more data for the `VALIDATION` and `TEST` sets help verify that the model can be generalized to a wider variety of scenarios in your domain.\n- Keep segments to roughly 200 words or less. AutoML Translation might drop segment pairs larger than that. For more information, see [Import\n issues](/translate/docs/advanced/automl-datasets#issues).\n- Fix common source data issues, as described in the \"Clean up messy data\" part in the [data\n preparation](/translate/docs/advanced/automl-beginner#data-preparation) section of the overview.\n\nWhat's next\n-----------\n\n- [Create a dataset and import your data](/translate/docs/advanced/custom-translations#file-prep)."]]