Índice
SpeechTranslationService
(interface)StreamingTranslateSpeechConfig
(mensagem)StreamingTranslateSpeechRequest
(mensagem)StreamingTranslateSpeechResponse
(mensagem)StreamingTranslateSpeechResponse.SpeechEventType
(enum)StreamingTranslateSpeechResult
(mensagem)StreamingTranslateSpeechResult.TextTranslationResult
(mensagem)TranslateSpeechConfig
(mensagem)
SpeechTranslationService
Fornece tradução de/para tipos de mídia.
StreamingTranslateSpeech |
---|
Executa tradução de fala em streaming bidirecional: recebe resultados durante o envio de áudio. Este método só está disponível por meio da gRPC API (não REST).
|
StreamingTranslateSpeechConfig
Configuração usada para tradução de streaming.
Campos | |
---|---|
audio_config |
Obrigatório. A configuração comum para todos os conteúdos de áudio. |
single_utterance |
Opcional. Se for Se for |
stability |
Opcional. Controle de estabilidade do texto de tradução de mídia. A estabilidade e a velocidade seriam uma compensação. O valor precisa ser "LOW", "MEDIUM" ou "HIGH". Uma string vazia padrão será tratada como "LOW". (1) "LOW": no modo baixo, o serviço de tradução começa a fazer a tradução logo após receber a resposta de reconhecimento. A velocidade será maior. (2) "MEDIUM": no modo médio, o serviço de tradução verifica se a resposta de reconhecimento é estável o suficiente e traduz somente a resposta de reconhecimento, que provavelmente não será alterada posteriormente. (3) "HIGH": no modo alto, o serviço de tradução aguardará respostas de reconhecimento mais estáveis e começará a fazer a tradução. Além disso, as seguintes respostas de reconhecimento não podem modificar respostas de reconhecimento anteriores. Dessa forma, isso pode afetar a qualidade em algumas situações. A estabilidade "HIGH" gera respostas "finais" com mais frequência. |
StreamingTranslateSpeechRequest
A mensagem de nível superior enviada pelo cliente para o método StreamingTranslateSpeech
. Várias mensagens StreamingTranslateSpeechRequest
são enviadas. A primeira mensagem precisa conter uma mensagem streaming_config
e não deve conter dados audio_content
. Todas as mensagens subsequentes precisam conter dados audio_content
e não devem conter uma mensagem streaming_config
.
Campos | |
---|---|
Campo de união streaming_request . A solicitação de streaming, que é uma configuração ou um conteúdo de streaming. streaming_request pode ser apenas de um dos tipos a seguir: |
|
streaming_config |
São fornecidas ao reconhecedor as informações que especificam como processar a solicitação. A primeira mensagem |
audio_content |
Os dados de áudio a serem traduzidos. Os blocos sequenciais de dados de áudio são enviados em mensagens |
StreamingTranslateSpeechResponse
Uma resposta de tradução de fala em streaming correspondente a uma parte do áudio processada no momento.
Campos | |
---|---|
error |
Apenas saída. Se definido, retorna uma mensagem |
result |
Apenas saída. O resultado da tradução que está sendo processada no momento (is_final pode ser verdadeiro ou falso). |
speech_event_type |
Apenas saída. Indica o tipo de evento de fala. |
SpeechEventType
Indica o tipo de evento de fala.
Enums | |
---|---|
SPEECH_EVENT_TYPE_UNSPECIFIED |
Nenhum evento de fala especificado. |
END_OF_SINGLE_UTTERANCE |
Esse evento indica que o servidor detectou o fim da fala do usuário e não espera nenhuma fala adicional. Portanto, o servidor não processará áudio adicional, ainda que possa retornar resultados adicionais posteriormente. Ao receber o evento "END_OF_SINGLE_UTTERANCE", o cliente deve parar de enviar as solicitações. No entanto, os clientes devem continuar recebendo as demais respostas até que o stream seja encerrado. Para construir a frase completa em modo streaming, é necessário substituir (se "is_final" da resposta anterior for falso) ou anexar (se "is_final" da resposta anterior for verdadeiro). Este evento só é enviado se single_utterance tiver sido definido como true e não for usado de outra forma. |
StreamingTranslateSpeechResult
O resultado de uma tradução de fala em streaming correspondente a uma parte do áudio que está sendo processado.
Campos | |
---|---|
recognition_result |
Apenas saída. A depuração reconhece apenas resultados no idioma original. Este campo deve ser usado somente para depuração e será definido como uma string vazia se não estiver disponível. Esse é o detalhe de implementação e não será compatível com versões anteriores. |
text_translation_result |
Resultado da tradução do texto. |
TextTranslationResult
Resultado da tradução do texto.
Campos | |
---|---|
translation |
Apenas saída. A frase traduzida. |
is_final |
Apenas saída. Se for |
TranslateSpeechConfig
Fornece informações para a tradução de fala que especifica como processar a solicitação.
Campos | |
---|---|
audio_encoding |
Obrigatório. Codificação de dados de áudio. Formatos compatíveis:
Amostras pouco elaboradas de 16 bits sem compactação (PCM Linear).
Amostras de 8 bits resultantes do compand de amostras de áudio de 14 bits em que foi usado G.711 PCMU/mu-law.
Codec de banda estreita multitaxa adaptável.
Codec de banda larga multitaxa adaptável.
Frames de áudio codificados pelo Opus no contêiner Ogg.
Áudio MP3. Compatível com todas as taxas de bits padrão de MP3, que variam de 32 a 320 kbps. Ao usar essa codificação, |
source_language_code |
Obrigatório. Código do idioma de origem (BCP-47) do áudio de entrada. |
target_language_code |
Obrigatório. Código de idioma de destino (BCP-47) da saída. |
sample_rate_hertz |
Opcional. Taxa de amostragem em Hertz dos dados de áudio. Os valores válidos de: 8.000-48.000. 16.000 é o ideal. Para melhores resultados, defina a taxa de amostragem da fonte de áudio para 16.000 Hz. Se isso não for possível, use a taxa de amostragem nativa da fonte de áudio em vez de fazer nova amostragem. |
model |
Opcional. |