학습 데이터 준비

Cloud Translation은 출발어와 도착어로 작성되고 의미가 일치하는 세그먼트 쌍을 사용하여 커스텀 모델을 학습시킵니다. 각 세그먼트 쌍은 독립적인 학습 항목으로 취급되며, 서로 다른 쌍 사이에 어떠한 연관성도 가정되지 않습니다.

커스텀 모델을 학습시키는 데 사용되는 세그먼트 쌍은 탭으로 구분된 값(.tsv) 또는 Translation Memory eXchange(.tmx) 형식이어야 합니다. 자세한 내용은 번역 예시 준비를 참조하세요.

세그먼트 쌍은 항상 가져온 모든 쌍에서 중복 제거됩니다. 세그먼트 쌍은 출발어 세그먼트가 다른 출발어 세그먼트와 일치할 때 중복 쌍으로 처리됩니다. Cloud Translation에서는 콘텐츠가 동일한 파일을 가져올 수 없습니다.

데이터 분할

AutoML Translation은 커스텀 모델을 만들 때 다음과 같은 다양한 목적으로 제공된 세그먼트 쌍을 사용합니다.

학습 - 세그먼트 쌍을 이용해 모델을 학습시킵니다. 이 목적으로 대부분의 데이터를 할당합니다.
검증 - 세그먼트 쌍을 이용해 모델이 학습 중에 반환하는 결과를 검증합니다.
테스트 - 세그먼트 쌍을 이용해 모델의 최종 평가 측정항목을 생성합니다. 이는 프로덕션에서 모델의 성능을 나타냅니다.

학습, 검증, 테스트 세트에 개별 파일을 업로드하여 AutoML Translation에서 각각의 용도로 사용되는 세그먼트 쌍을 제어할 수 있습니다. 이 세 가지 용도로 사용할 파일을 명시적으로 지정하지 않은 경우 AutoML Translation에서는 세그먼트 쌍을 자동으로 3세트로 나눕니다. AutoML Translation은 데이터 중 약 80%를 학습에, 10%를 검증에, 10%를 테스트에 사용합니다. AutoML Translation은 세그먼트 쌍을 3세트에 무작위로 할당합니다. 검증 및 테스트 세트에 최대 10,000개의 세그먼트 쌍을 사용할 수 있습니다. 10,000개가 넘으면 세그먼트 쌍이 학습 세트로 푸시됩니다.

동일한 데이터 세트로 여러 개의 데이터 가져오기를 수행하는 경우 하나의 가져오기에 데이터 분할을 수동으로 지정하고 다른 데이터 세트에 자동 분할을 사용할 수 있습니다. 데이터는 가져오기 및 파일 삭제 후 수동 분할과 관련하여 항상 재조정됩니다.

데이터 요구사항

학습 데이터는 다음 요구사항을 준수해야 합니다.

AutoML Translation에서 자동으로 데이터를 분할하도록 하려면 세그먼트 쌍을 1,000개 이상 제출하여 커스텀 모델을 학습시켜야 합니다.
데이터를 수동으로 분할하는 경우 TRAIN 세트에 세그먼트 쌍을 최소 3개 제공해야 하며 VALIDATION과 TEST에 각각 최소 100개의 세그먼트 쌍이 있어야 합니다.
TRAIN 세트에 최소 3개의 세그먼트 쌍을 제공해야 하며 VALIDATION과 TEST 세트에 각각 100개 이상의 세그먼트 쌍이 있어야 합니다.
VALIDATION 세트와 TEST 세트에 제공하는 세그먼트 쌍은 각각 10,000개를 초과할 수 없습니다.
데이터 세트는 최대 1,500만 개의 세그먼트 쌍을 초과할 수 없습니다.

데이터 권장사항

다음 권장사항은 모델의 품질을 높이는 데 도움이 될 수 있습니다.

TRAIN에는 세그먼트 쌍 5,000개 이상, VALIDATION에는 세그먼트 쌍 500개 이상, TEST에는 세그먼트 쌍 500개 이상을 사용하세요. 말하자면, 가능하면 더 많은 데이터를 사용하세요. TRAIN 세트에 대한 데이터가 많으면 모델이 패턴을 학습하는 데 도움이 되고 VALIDATION와 TEST 세트에 대한 데이터가 많으면 모델이 도메인의 다양한 시나리오로 일반화하는 데 도움이 됩니다.
약 200단어 이하로 세그먼트를 유지합니다. 세그먼트가 그보다 더 길면 AutoML Translation에서 세그먼트 쌍을 삭제할 수 있습니다. 자세한 내용은 가져오기 문제를 참조하세요.
개요의 데이터 준비 섹션에 있는 '복잡한 데이터 정리' 부분에 설명된 대로 일반적인 소스 데이터 문제를 해결합니다.

다음 단계

데이터 세트를 만들고 학습 데이터 가져오기