Text-to-Speech Chirp 3: as vozes HD representam a tecnologia de conversão de texto em voz mais recente. Com nossos LLMs de última geração, essas vozes oferecem um nível incomparável de realismo e ressonância emocional.
![]() |
![]() |
Opções de voz
Há várias opções de voz disponíveis, cada uma com características distintas:
Nome | Gênero | Demonstração |
---|---|---|
Aoede | Feminino | |
Puck | Masculino | |
Caronte | Masculino | |
Kore | Feminino | |
Fenrir | Masculino | |
Leda | Feminino | |
Orus | Masculino | |
Zéfiro | Feminino |
Disponibilidade de idiomas
Chirp 3: as vozes em HD são compatíveis com os seguintes idiomas:
Idioma | Código BCP-47 |
---|---|
Alemão (Alemanha) | de-DE |
Inglês (Austrália) | en-AU |
Inglês (Reino Unido) | en-GB |
Inglês (Índia) | en-IN |
Espanhol (Estados Unidos) | es-US |
Francês (França) | fr-FR |
Híndi (Índia) | hi-IN |
Português (Brasil) | pt-BR |
Árabe (genérico) | ar-XA |
Espanhol (Espanha) | es-ES |
Francês (Canadá) | fr-CA |
Indonésio (Indonésia) | id-ID |
Italiano (Itália) | it-IT |
Japonês (Japão) | ja-JP |
Turco (Turquia) | tr-TR |
Vietnamita (Vietnã) | vi-VN |
Bengali (Índia) | bn-IN |
Gujarati (Índia) | gu-IN |
Canarês (Índia) | kn-IN |
Malaiala (Índia) | ml-IN |
Marati (Índia) | mr-IN |
Tâmil (Índia) | ta-IN |
Telugo (Índia) | te-IN |
Holandês (Holanda) | nl-NL |
Coreano (Coreia do Sul) | ko-KR |
Mandarim (China) | cmn-CN |
Polonês (Polônia) | pl-PL |
Russo (Rússia) | ru-RU |
Tailandês (Tailândia) | th-TH |
Disponibilidade regional
Chirp 3: as vozes HD estão disponíveis nas seguintes Google Cloud regiões:
Google Cloud Zona | Preparação para o lançamento |
---|---|
global |
GA |
us |
GA |
eu |
GA |
asia-southeast1 |
GA |
Formatos de saída aceitos
O formato de resposta padrão é LINEAR16, mas outros formatos compatíveis incluem:
Método de API | Formato |
---|---|
streaming |
ALAW, MULAW, OGG_OPUS e PCM |
batch |
ALAW, MULAW, MP3, OGG_OPUS e PCM |
Usar o Chirp 3: vozes em alta definição
Descubra como usar o Chirp 3: vozes HD para sintetizar a fala.
Realizar a solicitação de síntese de fala em streaming
Python
Para saber como instalar e usar a biblioteca de cliente da Text-to-Speech, consulte Bibliotecas de cliente da Text-to-Speech. Para mais informações, consulte a documentação de referência da API Python Text-to-Speech.
Para autenticar na Text-to-Speech, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Fazer uma solicitação de síntese de fala on-line
Python
Para saber como instalar e usar a biblioteca de cliente da Text-to-Speech, consulte Bibliotecas de cliente da Text-to-Speech. Para mais informações, consulte a documentação de referência da API Python Text-to-Speech.
Para autenticar na Text-to-Speech, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Dicas sobre scripts e comandos
Para criar áudios interessantes e com som natural a partir de texto, é preciso entender as nuances da linguagem falada e traduzi-las para a forma de roteiro. As dicas a seguir vão ajudar você a criar roteiros que pareçam autênticos e capturem o tom escolhido.
Como entender a meta: fala natural
O objetivo principal é fazer com que a voz sintetizada soe o mais próximo possível de uma pessoa humana. Isso envolve:
- Imitação do ritmo natural:quão rápido ou devagar alguém fala.
- Como criar um fluxo tranquilo:garantir transições perfeitas entre frases e expressões.
- Adicionar pausas realistas:incorporar pausas para enfatizar e esclarecer.
- Capturar o tom de conversa:fazer com que o áudio pareça uma conversa real.
Principais técnicas para fala natural
Pontuação para ritmo e fluxo
- Pontos (.): indicam uma parada completa e uma pausa mais longa. Use-as para separar pensamentos completos e criar limites claros para as frases.
- Vírgulas (,): indicam pausas mais curtas nas frases. Use-as para separar cláusulas, itens de lista ou introduzir pausas breves para respirar.
- Três pontos (...): representam uma pausa mais longa e deliberada. Eles podem indicar pensamentos finais, hesitação ou uma pausa dramática.
- Exemplo: "E então... aconteceu."
- Hifens (-): podem ser usados para indicar uma breve pausa ou uma interrupção repentina no pensamento.
- Exemplo: "Eu queria dizer algo, mas não consegui."
Como incorporar pausas e disfluências
- Pausas estratégicas: use reticências, vírgulas ou hifens para criar pausas em lugares em que um orador humano naturalmente pausaria para respirar ou enfatizar.
- Disfluências (hesitações): embora alguns modelos de conversão de texto em fala processem as disfluências automaticamente, entender o papel delas é fundamental. Elas adicionam autenticidade e fazem a fala parecer menos robótica. Mesmo que o modelo as adicione, saber onde elas ocorreriam naturalmente na fala humana ajuda a entender o fluxo geral do roteiro.
Experimentação e iteração
- Refazer a síntese: não tenha medo de sintetizar a mesma mensagem com a mesma voz várias vezes. Pequenas mudanças na pontuação, no espaçamento ou na escolha das palavras podem afetar significativamente o áudio final.
- Ouvir com atenção: preste atenção ao ritmo, ao fluxo e ao tom geral do áudio sintetizado. Identifique áreas que soem não naturais e ajuste o roteiro de acordo.
- Variação de voz: se o sistema permitir, use vozes diferentes para saber qual se adapta melhor ao seu roteiro e ao tom escolhido.
Dicas práticas de scripting
- Ler em voz alta: antes de sintetizar, leia o roteiro em voz alta. Isso vai ajudar você a identificar frases estranhas, pausas não naturais e áreas que precisam de ajustes.
- Escrever de forma coloquial: use contrações (por exemplo, "it's", "we're") e linguagem informal para deixar o roteiro mais natural.
- Considere o contexto: o tom e o ritmo do script precisam corresponder ao contexto do áudio. Uma apresentação formal exige uma abordagem diferente de uma conversa casual.
- Dividir frases complexas: frases longas e complicadas podem ser difíceis de serem processadas pelos mecanismos de TTS. Divida-as em frases mais curtas e fáceis de gerenciar.
Exemplos de melhorias de script
Roteiro original (robótico): "O produto está disponível. Temos novos recursos. É muito legal."
Roteiro melhorado (natural): "O produto já está disponível... e adicionamos alguns recursos incríveis. É muito legal."
Roteiro original (robótico): "Esta é uma mensagem de confirmação automática. Sua reserva foi processada. Os detalhes a seguir se referem à sua próxima estadia. O número da reserva é 12345. O nome do hóspede registrado é Anthony Vasquez e a data de chegada é 14 de março. A data de partida é 16 de março. O tipo de quarto é "suíte de luxo". O número de hóspedes é 1. O horário de check-in é às 15h. O horário de check-out é 11h. A política de cancelamento exige notificação 48 horas antes da chegada. Se você não fizer isso dentro desse período, vai receber uma cobrança de uma noite de hospedagem. Outras comodidades incluídas na sua reserva são: Wi-Fi gratuito, acesso à academia e café da manhã gratuito. Para mais informações, entre em contato diretamente com o hotel pelo número 855-555-6689. Agradecemos por escolher nosso hotel."
Roteiro melhorado (natural): "Olá, Anthony Vasquez. É um prazer confirmar sua reserva. Sua estadia de 14 a 16 de março na nossa linda suíte Deluxe está confirmada. Isso é para 1 hóspede. Seu número de confirmação é 12345, caso você precise.
Só um lembrete: o check-in é às 15h e o check-out é às 11h.
Agora, um aviso sobre nossa política de cancelamento: se você precisar cancelar, nos avise pelo menos 48 horas antes da chegada. Caso contrário, será cobrada a estadia de uma noite.
Para tornar sua estadia ainda melhor, você terá Wi-Fi gratuito, acesso à nossa academia e um delicioso café da manhã de cortesia todas as manhãs.
Se você tiver dúvidas, ligue para 855-555-6689. Mal podemos esperar para receber você no hotel!"
Explicação sobre as mudanças:
- Os pontos (...) criam uma pausa para enfatizar.
- "and we've" usa uma contração para um tom mais coloquial.
- "É muito legal" adiciona um pouco de dificuldade e ênfase.
- "Tudo bem?" Um lembrete amigável ameniza o tom.
Ao seguir essas diretrizes, você pode criar scripts de texto para áudio que soem naturais, envolventes e humanos. Lembre-se de que a prática e a experimentação são fundamentais para dominar essa habilidade.
Chirp 3: controles de voz em alta definição
Os recursos de comando de voz são específicos para a síntese de voz em alta definição. As vozes em alta definição não são compatíveis com SSML, e a pausa e o controle de velocidade podem produzir resultados inconsistentes.
Disponibilidade de idiomas para controles de voz
Chirp 3: no momento, os controles de voz em alta definição estão disponíveis apenas em inglês (EUA).
Controle de ritmo
É possível ajustar a velocidade do áudio gerado usando o parâmetro de ritmo. Esse parâmetro permite desacelerar ou acelerar a fala, com valores que variam de 0,25x (muito lento) a 2x (muito rápido), em incrementos de 0,25x. Para definir o ritmo, use o parâmetro "speaking_rate" na solicitação, escolhendo um valor flutuante entre 0,25 e 2,0. Valores abaixo de 1,0 diminuem a velocidade da fala, enquanto valores acima de 1,0 aumentam a velocidade. Um valor de 1,0 indica um ritmo não ajustado.
Exemplo de SynthesizeSpeechRequest usando o controle de ritmo:
{
"audio_config": {
"audio_encoding": "LINEAR16",
"speaking_rate": 2.0,
},
"input": {
"text": "Once upon a time, there was a cute cat. He was so cute that he got lots of treats.",
},
"voice": {
"language_code": "en-US",
"name": "en-us-Chirp3-HD-Leda",
}
}
Exemplo de StreamingSynthesizeConfig usando o controle de ritmo:
{
"streaming_audio_config": {
"audio_encoding": "LINEAR16",
"speaking_rate": 2.0,
},
"voice": {
"language_code": "en-US",
"name": "en-us-Chirp3-HD-Leda",
}
}
Exemplos de áudio do controle de ritmo:
Velocidade de fala | Saída |
---|---|
0,5 | |
1,0 | |
2.0 |
Pausar o controle
É possível inserir pausas na fala gerada por IA incorporando tags especiais diretamente ao texto usando o campo de entrada markup
. As tags de pausa só funcionam no campo markup
, não no text
.
Essas tags sinalizam a IA para criar silêncios, mas a duração exata dessas pausas não é fixa. A IA ajusta a duração com base no contexto, assim como a fala humana natural varia com o orador, o local e a estrutura da frase. As tags de pausa disponíveis são [pause short]
, [pause long]
e [pause]
. Para métodos alternativos de criação de pausas sem usar tags de marcação, consulte nossas diretrizes de comando e criação.
O modelo de IA pode ignorar as tags de pausa, especialmente se elas forem colocadas em posições não naturais no texto. É possível combinar várias tags de pausa para silêncios mais longos, mas o uso excessivo pode causar problemas.
Exemplo de SynthesizeSpeechRequest usando o controle de pausa:
{
"audio_config": {
"audio_encoding": "LINEAR16",
},
"input": {
"markup": "Let me take a look, [pause long] yes, I see it.",
},
"voice": {
"language_code": "en-US",
"name": "en-us-Chirp3-HD-Leda",
}
}
Exemplo de StreamingSynthesisInput usando o controle de pausa:
{
"markup": "Let me take a look, [pause long] yes, I see it.",
}
Pausar amostras de áudio de controle:
Entrada de marcação | Saída |
---|---|
"Deixa eu dar uma olhada. Sim, eu vejo." | |
"Deixe-me dar uma olhada. [pausa longa] Sim, eu vejo." |
Perguntas frequentes
Perguntas comuns e respostas:
Como controlar o ritmo e o fluxo para melhorar a fala?
Você pode usar nossas diretrizes de comando e criação e melhorar o comando de texto para melhorar a saída de fala.
Como faço para acessar vozes nos idiomas compatíveis?
Os nomes de voz seguem um formato específico, permitindo o uso em todos os idiomas com suporte ao especificar a voz de forma exclusiva. O formato segue \<locale\>-\<model\>-\<voice\>
. Por exemplo, para usar a voz Kore em inglês (Estados Unidos) com o modelo de voz Chirp 3: HD, especifique en-US-Chirp3-HD-Kore
.
As vozes Chirp 3: HD são compatíveis com SSML?
Embora as vozes Chirp 3: HD não funcionem com SSML, ainda é possível gerenciar o ritmo e o controle de pausa usando as opções de controle de voz HD.