Package google.cloud.mediatranslation.v1beta1

Índice

SpeechTranslationService

Fornece tradução de/para tipos de mídia.

StreamingTranslateSpeech

rpc StreamingTranslateSpeech(StreamingTranslateSpeechRequest) returns (StreamingTranslateSpeechResponse)

Executa tradução de fala em streaming bidirecional: recebe resultados durante o envio de áudio. Este método só está disponível por meio da gRPC API (não REST).

Escopos de autorização

Requer o seguinte escopo OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

StreamingTranslateSpeechConfig

Configuração usada para tradução de streaming.

Campos
audio_config

TranslateSpeechConfig

Obrigatório. A configuração comum para todos os conteúdos de áudio.

single_utterance

bool

Opcional. Se for false ou omitido, o sistema realizará tradução contínua (continuando a aguardar e processar o áudio, mesmo que o usuário pause a fala) até que o cliente feche o stream de entrada (API gRPC) ou o limite de tempo seja atingido. Pode retornar vários StreamingTranslateSpeechResults com a sinalização is_final definida como true.

Se for true, o tradutor de fala detectará um único enunciado. Ao detectar que o usuário fez uma pausa ou parou de falar, ele retornará um evento END_OF_SINGLE_UTTERANCE e interromperá a tradução. Ao receber o evento "END_OF_SINGLE_UTTERANCE", o cliente deve parar de enviar as solicitações. No entanto, os clientes devem continuar recebendo as demais respostas até que o stream seja encerrado. Para construir a frase completa em modo streaming, é necessário substituir (se "is_final" da resposta anterior for falso) ou anexar (se "is_final" da resposta anterior for verdadeiro).

stability

string

Opcional. Controle de estabilidade do texto de tradução de mídia. A estabilidade e a velocidade seriam uma compensação. O valor precisa ser "LOW", "MEDIUM" ou "HIGH". Uma string vazia padrão será tratada como "LOW". (1) "LOW": no modo baixo, o serviço de tradução começa a fazer a tradução logo após receber a resposta de reconhecimento. A velocidade será maior. (2) "MEDIUM": no modo médio, o serviço de tradução verifica se a resposta de reconhecimento é estável o suficiente e traduz somente a resposta de reconhecimento, que provavelmente não será alterada posteriormente. (3) "HIGH": no modo alto, o serviço de tradução aguardará respostas de reconhecimento mais estáveis e começará a fazer a tradução. Além disso, as seguintes respostas de reconhecimento não podem modificar respostas de reconhecimento anteriores. Dessa forma, isso pode afetar a qualidade em algumas situações. A estabilidade "HIGH" gera respostas "finais" com mais frequência.

StreamingTranslateSpeechRequest

A mensagem de nível superior enviada pelo cliente para o método StreamingTranslateSpeech. Várias mensagens StreamingTranslateSpeechRequest são enviadas. A primeira mensagem precisa conter uma mensagem streaming_config e não deve conter dados audio_content. Todas as mensagens subsequentes precisam conter dados audio_content e não devem conter uma mensagem streaming_config.

Campos
Campo de união streaming_request. A solicitação de streaming, que é uma configuração ou um conteúdo de streaming. streaming_request pode ser apenas de um dos tipos a seguir:
streaming_config

StreamingTranslateSpeechConfig

São fornecidas ao reconhecedor as informações que especificam como processar a solicitação. A primeira mensagem StreamingTranslateSpeechRequest precisa conter uma mensagem streaming_config.

audio_content

bytes

Os dados de áudio a serem traduzidos. Os blocos sequenciais de dados de áudio são enviados em mensagens StreamingTranslateSpeechRequest sequenciais. A primeira mensagem StreamingTranslateSpeechRequest não pode conter dados audio_content, e todas as mensagens StreamingTranslateSpeechRequest subsequentes precisam conter dados audio_content. Os bytes de áudio precisam ser codificados conforme especificado em StreamingTranslateSpeechConfig. Observação: como em todos os campos de bytes, os protobuffers usam uma representação binária pura, não base64.

StreamingTranslateSpeechResponse

Uma resposta de tradução de fala em streaming correspondente a uma parte do áudio processada no momento.

Campos
error

Status

Apenas saída. Se definido, retorna uma mensagem google.rpc.Status que especifica o erro para a operação.

result

StreamingTranslateSpeechResult

Apenas saída. O resultado da tradução que está sendo processada no momento (is_final pode ser verdadeiro ou falso).

speech_event_type

SpeechEventType

Apenas saída. Indica o tipo de evento de fala.

SpeechEventType

Indica o tipo de evento de fala.

Enums
SPEECH_EVENT_TYPE_UNSPECIFIED Nenhum evento de fala especificado.
END_OF_SINGLE_UTTERANCE Esse evento indica que o servidor detectou o fim da fala do usuário e não espera nenhuma fala adicional. Portanto, o servidor não processará áudio adicional, ainda que possa retornar resultados adicionais posteriormente. Ao receber o evento "END_OF_SINGLE_UTTERANCE", o cliente deve parar de enviar as solicitações. No entanto, os clientes devem continuar recebendo as demais respostas até que o stream seja encerrado. Para construir a frase completa em modo streaming, é necessário substituir (se "is_final" da resposta anterior for falso) ou anexar (se "is_final" da resposta anterior for verdadeiro). Este evento só é enviado se single_utterance tiver sido definido como true e não for usado de outra forma.

StreamingTranslateSpeechResult

O resultado de uma tradução de fala em streaming correspondente a uma parte do áudio que está sendo processado.

Campos
recognition_result

string

Apenas saída. A depuração reconhece apenas resultados no idioma original. Este campo deve ser usado somente para depuração e será definido como uma string vazia se não estiver disponível. Esse é o detalhe de implementação e não será compatível com versões anteriores.

text_translation_result

TextTranslationResult

Resultado da tradução do texto.

TextTranslationResult

Resultado da tradução do texto.

Campos
translation

string

Apenas saída. A frase traduzida.

is_final

bool

Apenas saída. Se for false, esse StreamingTranslateSpeechResult representará um resultado intermediário que pode mudar. Se for true, esta será a última vez que o serviço de tradução retornará esse StreamingTranslateSpeechResult específico. O tradutor de streaming não retornará mais hipóteses para essa parte da transcrição e do áudio correspondente.

TranslateSpeechConfig

Fornece informações para a tradução de fala que especifica como processar a solicitação.

Campos
audio_encoding

string

Obrigatório. Codificação de dados de áudio. Formatos compatíveis:

  • linear16

Amostras pouco elaboradas de 16 bits sem compactação (PCM Linear).

  • flac

flac (Free Lossless Audio Codec) é a codificação recomendada porque não tem perdas. Portanto, o reconhecimento não fica comprometido e requer apenas cerca de metade da largura de banda do linear16.

  • mulaw

Amostras de 8 bits resultantes do compand de amostras de áudio de 14 bits em que foi usado G.711 PCMU/mu-law.

  • amr

Codec de banda estreita multitaxa adaptável. sample_rate_hertz precisa ser 8.000.

  • amr-wb

Codec de banda larga multitaxa adaptável. sample_rate_hertz precisa ser 16.000.

  • ogg-opus

Frames de áudio codificados pelo Opus no contêiner Ogg. sample_rate_hertz precisa ser 8.000, 12.000, 16.000, 24.000 ou 48.000.

  • mp3

Áudio MP3. Compatível com todas as taxas de bits padrão de MP3, que variam de 32 a 320 kbps. Ao usar essa codificação, sample_rate_hertz precisa corresponder à taxa de amostragem do arquivo sendo usado.

source_language_code

string

Obrigatório. Código do idioma de origem (BCP-47) do áudio de entrada.

target_language_code

string

Obrigatório. Código de idioma de destino (BCP-47) da saída.

sample_rate_hertz

int32

Opcional. Taxa de amostragem em Hertz dos dados de áudio. Os valores válidos de: 8.000-48.000. 16.000 é o ideal. Para melhores resultados, defina a taxa de amostragem da fonte de áudio para 16.000 Hz. Se isso não for possível, use a taxa de amostragem nativa da fonte de áudio em vez de fazer nova amostragem.

model

string

Opcional. google-provided-model/video e google-provided-model/enhanced-phone-call são modelos premium. google-provided-model/phone-call não é um modelo premium.