Text-to-Speech는 사람과 비슷한 자연스러운 품질의 오디오를 생성하여 실제 사람처럼 들리는 음성을 만듭니다. 시작하려면 합성 요청을 보낼 때 음성을 지정합니다.
Text-to-Speech는 언어, 성별, 억양에 따라 다양한 음성을 제공합니다. 일부 언어는 여러 옵션이 있습니다. 전체 목록은 지원되는 음성 페이지를 확인하세요. 음성을 선택하려면 API 요청에서 VoiceSelectionParams
필드를 사용합니다. synthesize
요청을 만드는 방법에 관한 안내는 빠른 시작을 참고하세요.
개요
음성 유형 | 대상 | 출시 단계 | 제어 가능성 | 스트리밍 | |
---|---|---|---|---|---|
Journey |
대화형 에이전트
|
미리보기 | - | 예 | |
Studio | 스피커 2대 그룹 |
미디어 - 토론 및 인터뷰
|
실험용 | - | - |
발표자 1명 인원 |
미디어 - 내레이션
|
GA | SSML | - | |
Neural2 |
범용
|
GA | SSML | - | |
Standard |
비용 효율적
|
GA | SSML | - |
Journey 음성
AudioLM 엔진을 기반으로 하는 Journey 음성을 사용하면 대화형 애플리케이션에 보다 몰입도 높고 공감가는 음성을 만들 수 있습니다. Journey 음성은 텍스트 스트리밍을 통해 지연 시간이 짧은 실시간 커뮤니케이션을 생성하고 지원되는 음성 테이블에 나열된 언어를 지원합니다.
채팅 환경
음성: en-US-Journey-F
기타 예
가상 어시스턴트
en-US-Journey-D
고객 서비스 챗봇
en-US-Journey-F
상호작용 교육 애플리케이션
en-US-Journey-O
판매 및 피치
en-US-Journey-D
스토리타임
en-US-Journey-F
스튜디오 멀티스피커 음성
Journey 음성의 동일한 기술을 기반으로 새로운 멀티스피커 스튜디오 음성으로 토론 및 인터뷰를 제작하세요.
Studio 음성
스튜디오 음성은 뉴스 읽기 및 방송 콘텐츠를 위해 설계되었습니다.
예시 1. '위대한 개츠비'를 읽는 en-US-Studio-O
음성
Neural2 음성
Text-to-Speech API는 Neural2라는 음성 등급을 제공합니다. Neural2 음성은 Custom Voice를 만드는 데 사용된 것과 동일한 기술을 기반으로 합니다. Neural2에서는 누구나 자신의 커스텀 음성을 학습시키지 않고도 Custom Voice 기술을 사용할 수 있습니다. 전역 및 단일 리전 엔드포인트에서 사용할 수 있습니다.
예시 1. Neural2 음성
표준 음성
Text-to-Speech에서 제공되는 음성은 제작 방법, 음성의 머신 모델을 만드는 데 사용되는 합성 음성 기술에 따라 다릅니다. 일반적인 음성 기술인 파라메트릭 텍스트 음성 변환은 일반적으로 vocoder라고 하는 신호 처리 알고리즘을 통해 출력을 전달하여 오디오 데이터를 생성합니다. Text-to-Speech에서 사용할 수 있는 표준 음성의 대부분은 이러한 종류의 기술을 사용합니다.