음성 텍스트 변환은 동영상 또는 동영상 세그먼트의 음성 오디오를 텍스트로 변환하고 텍스트로 변환된 오디오의 각 부분에 해당하는 텍스트 블록을 반환합니다.
지원되는 모델
Video Intelligence에는 영어(미국)만 지원됩니다. 다른 언어의 경우 사용 가능한 모든 언어를 지원하는 Speech-to-Text API를 사용하세요. 사용 가능한 언어 목록은 Speech-to-Text 문서의 언어 지원을 참고하세요.
동영상에서 음성을 스크립트로 변환하려면 annotate
메서드를 호출하고 SPEECH_TRANSCRIPTION
을 features
필드에 지정합니다.
음성 텍스트 변환 시 다음 기능을 사용할 수 있습니다.
대체 단어: 인식된 텍스트 번역 옵션 중 최대 몇 개까지 응답에 포함할지를 지정하려면
maxAlternatives
옵션을 사용하세요. 이 값은 1~30의 정수일 수 있습니다. 기본값은 1입니다. API는 텍스트 변환의 신뢰도 값에 따라 여러 텍스트 변환을 내림차순으로 반환합니다. 대체 텍스트 변환에는 단어 수준의 개체가 포함되지 않습니다.욕설 필터링: 텍스트 변환에서 알려진 욕설을 필터링하려면
filterProfanity
옵션을 사용하세요. 일치하는 단어는 단어의 선두 문자 앞에 별표가 붙습니다. 기본값은 false입니다.텍스트 변환 힌트: 오디오에 일반적인 문구나 색다른 문구를 제공하려면
speechContexts
옵션을 사용하세요. 그러면 이러한 문구가 텍스트 변환 서비스를 지원하는 데 사용되어 더 정확한 텍스트 변환이 생성됩니다. 텍스트 변환 힌트를 SpeechContext 객체로 제공하세요.오디오 트랙 선택: 다중 트랙 동영상에서 텍스트로 변환하려는 트랙을 지정하려면
audioTracks
옵션을 사용합니다. 최대 2개까지 트랙을 지정할 수 있습니다. 기본값은 0입니다. 언어 코드가 en-US로 설정된 다음에는 요청이 향상된 모드로 라우팅되어, en-US 오디오로 학습됩니다. 오디오가 실제로 en-US인지 또는 다른 언어인지는 인식하지 않습니다. 향상된 모델로 스페인어 오디오를 입력하면 설정에 따라 텍스트 변환이 실행되지만, 올바른 모델에서 기대할 수 있는 방식에 따라 신뢰도 점수가 낮게 결과가 출력되거나 결과가 전혀 출력되지 않습니다.자동 구두점: 변환된 텍스트에 구두점을 포함하려면
enableAutomaticPunctuation
옵션을 사용합니다. 기본값은 false입니다.여러 화자: 하나의 동영상에서 여러 화자를 식별하려면
enableSpeakerDiarization
옵션을 사용하세요. 응답에서 인식된 각 단어에는 인식된 단어에 해당하는 화자를 식별하는speakerTag
필드가 포함됩니다.
최상의 결과를 얻기 위해 16,000Hz 이상의 샘플링 레이트로 녹음된 오디오를 제공합니다.
Video Intelligence API 시각화에서 이 기능의 사용 사례를 참조하세요.
음성 텍스트 변환 요청의 예시는 음성 텍스트 변환을 참조하세요.