양방향 스트리밍으로 음성 합성
이 문서에서는 양방향 스트리밍을 사용하여 오디오를 합성하는 과정을 안내합니다.
양방향 스트리밍을 사용하면 텍스트 입력을 전송하고 동시에 오디오 데이터를 수신할 수 있습니다. 즉, 전체 입력 텍스트가 전송되기 전에 음성 합성을 시작할 수 있으므로, 지연 시간을 줄이고 실시간 상호작용을 지원할 수 있습니다. 음성 어시스턴트와 대화형 게임은 양방향 스트리밍을 이용해서 보다 역동적이고 응답성이 뛰어난 애플리케이션을 만듭니다.
Text-to-Speech의 기본 개념에 대한 자세한 내용은 Text-to-Speech 기본 사항을 참조하세요.
시작하기 전에
Text-to-Speech API에 요청을 보내려면 먼저 다음 작업을 완료해야 합니다. 자세한 내용은 시작하기 전에 페이지를 참조하세요.
- Google Cloud 프로젝트에서 Text-to-Speech를 사용 설정합니다.
- Text-to-Speech에 결제가 사용 설정되었는지 확인하기
-
After installing the Google Cloud CLI, configure the gcloud CLI to use your federated identity and then initialize it by running the following command:
gcloud init
양방향 스트리밍으로 음성 합성
클라이언트 라이브러리 설치
Python
라이브러리를 설치하기 전에 Python 개발을 위한 환경이 준비됐는지 확인하세요.
pip install --upgrade google-cloud-texttospeech
텍스트 스트림을 전송하고 오디오 스트림 수신
API는 StreamingSynthesisInput
또는 StreamingSynthesizeConfig
가 포함된 StreamingSynthesizeRequest
유형의 요청 스트림을 수락합니다.
텍스트 입력을 제공하는 StreamingSynthesisInput
으로 StreamingSynthesizeRequest
스트림을 전송하기 전에 StreamingSynthesizeConfig
가 포함된 StreamingSynthesizeRequest
를 정확히 하나만 전송합니다.
Text-to-Speech 스트리밍에는 Journey 음성만 호환됩니다.
Python
예시를 실행하기 전에 Python 개발 환경이 준비됐는지 확인합니다.
삭제
불필요한 Google Cloud Platform 요금이 부과되지 않도록 하려면 Google Cloud 콘솔에서 필요하지 않은 프로젝트를 삭제해야 합니다.
다음 단계