Selecione um modelo de transcrição

Esta página descreve como usar um modelo de aprendizagem automática específico para pedidos de transcrição de áudio para o Speech-to-Text.

Modelos de transcrição

A conversão de voz em texto deteta palavras num clipe de áudio comparando a entrada com um dos muitos modelos de aprendizagem automática. Cada modelo foi preparado através da análise de milhões de exemplos. Neste caso, muitas gravações de áudio de pessoas a falar.

A API Speech-to-Text tem modelos especializados que são preparados a partir de áudio para origens específicas. Estes modelos oferecem melhores resultados quando aplicados a tipos semelhantes de dados de áudio aos dados com base nos quais foram preparados.

Por exemplo, o Speech-to-Text tem um modelo de transcrição formado para reconhecer a voz gravada ao telefone. Quando a conversão de voz em texto usa o modelo telephony_short ou telephony para transcrever o áudio do telemóvel, produz resultados de transcrição mais precisos do que se tivesse transcrito o áudio do telemóvel usando os modelos short ou long.

A tabela seguinte mostra os modelos de transcrição disponíveis para utilização com o Speech-to-Text.

Nome do modelo Descrição
long Use este modelo para qualquer tipo de conteúdo de formato longo, como multimédia ou conversas e discurso espontâneos. Considere usar este modelo em vez do modelo `video` ou `default`, especialmente se não estiverem disponíveis no seu idioma de destino.
short Use este modelo para expressões curtas com alguns segundos de duração. É útil para tentar captar comandos ou outros exemplos de utilização de voz direcionada curta e única. Considere usar este modelo em vez do modelo de comando e pesquisa.
telephony Use este modelo para áudio proveniente de uma chamada telefónica de áudio, normalmente gravado a uma taxa de amostragem de 8 kHz. Ideal para serviço de apoio ao cliente, teleconferências e aplicações de quiosque automatizadas.
telephony_short Versão dedicada do modelo `telephony` para expressões curtas ou até mesmo de uma palavra para áudio proveniente de uma chamada telefónica, normalmente gravado a uma taxa de amostragem de 8 kHz. Útil para comandos de voz com apenas alguns segundos de duração no serviço de apoio ao cliente, teleconferências e aplicações de quiosques automatizados.
medical_dictation Use este modelo para transcrever notas ditadas por um profissional médico, por exemplo, um médico a ditar notas sobre os resultados de um exame de sangue de um paciente.
medical_conversation Use este modelo para conversas entre um prestador de serviços médicos, por exemplo, um médico ou um enfermeiro, e um paciente. Use o modelo `medical_conversation` quando um prestador e um paciente estiverem a falar. As palavras proferidas por cada orador são detetadas e etiquetadas automaticamente.
chirp_2 Use a próxima geração do nosso modelo de voz (conteúdo extenso) universal (USM) com tecnologia de modelo de linguagem (conteúdo extenso) para streaming e processamento em lote, bem como transcrições e traduções em conteúdo linguístico diversificado e capacidades multilingues.
chirp_telephony Modelo de voz grande universal (USM) otimizado para áudio proveniente de uma chamada telefónica (normalmente gravado a uma taxa de amostragem de 8 kHz).
chirp Use o nosso modelo de voz (conteúdo extenso) universal (USM) para transcrições não em streaming de vanguarda em conteúdo linguístico diversificado e capacidades multilingues.

Selecione um modelo para a transcrição de áudio

O modelo é especificado pelo Recognizer usado para o pedido de reconhecimento. Chame speech/projects.locations.recognizers/create para criar um reconhecedor e use o campo model para especificar o modelo. Pode encontrar modelos válidos para cada idioma na tabela Idiomas suportados.