Esta página descreve como usar um modelo de aprendizagem automática específico para pedidos de transcrição de áudio para o Speech-to-Text.
Modelos de transcrição
A conversão de voz em texto deteta palavras num clipe de áudio comparando a entrada com um dos muitos modelos de aprendizagem automática. Cada modelo foi preparado através da análise de milhões de exemplos. Neste caso, muitas gravações de áudio de pessoas a falar.
A API Speech-to-Text tem modelos especializados que são preparados a partir de áudio para origens específicas. Estes modelos oferecem melhores resultados quando aplicados a tipos semelhantes de dados de áudio aos dados com base nos quais foram preparados.
Por exemplo, o Speech-to-Text tem um modelo de transcrição formado para reconhecer a voz gravada ao telefone. Quando a conversão de voz em texto usa o modelo telephony_short
ou telephony
para transcrever o áudio do telemóvel, produz resultados de transcrição mais precisos do que se tivesse transcrito o áudio do telemóvel usando os modelos short
ou long
.
A tabela seguinte mostra os modelos de transcrição disponíveis para utilização com o Speech-to-Text.
Nome do modelo | Descrição |
---|---|
long |
Use este modelo para qualquer tipo de conteúdo de formato longo, como multimédia ou conversas e discurso espontâneos. Considere usar este modelo em vez do modelo `video` ou `default`, especialmente se não estiverem disponíveis no seu idioma de destino. |
short |
Use este modelo para expressões curtas com alguns segundos de duração. É útil para tentar captar comandos ou outros exemplos de utilização de voz direcionada curta e única. Considere usar este modelo em vez do modelo de comando e pesquisa. |
telephony |
Use este modelo para áudio proveniente de uma chamada telefónica de áudio, normalmente gravado a uma taxa de amostragem de 8 kHz. Ideal para serviço de apoio ao cliente, teleconferências e aplicações de quiosque automatizadas. |
telephony_short |
Versão dedicada do modelo `telephony` para expressões curtas ou até mesmo de uma palavra para áudio proveniente de uma chamada telefónica, normalmente gravado a uma taxa de amostragem de 8 kHz. Útil para comandos de voz com apenas alguns segundos de duração no serviço de apoio ao cliente, teleconferências e aplicações de quiosques automatizados. |
medical_dictation |
Use este modelo para transcrever notas ditadas por um profissional médico, por exemplo, um médico a ditar notas sobre os resultados de um exame de sangue de um paciente. |
medical_conversation |
Use este modelo para conversas entre um prestador de serviços médicos, por exemplo, um médico ou um enfermeiro, e um paciente. Use o modelo `medical_conversation` quando um prestador e um paciente estiverem a falar. As palavras proferidas por cada orador são detetadas e etiquetadas automaticamente. |
chirp_2 |
Use a próxima geração do nosso modelo de voz (conteúdo extenso) universal (USM) com tecnologia de modelo de linguagem (conteúdo extenso) para streaming e processamento em lote, bem como transcrições e traduções em conteúdo linguístico diversificado e capacidades multilingues. |
chirp_telephony |
Modelo de voz grande universal (USM) otimizado para áudio proveniente de uma chamada telefónica (normalmente gravado a uma taxa de amostragem de 8 kHz). |
chirp |
Use o nosso modelo de voz (conteúdo extenso) universal (USM) para transcrições não em streaming de vanguarda em conteúdo linguístico diversificado e capacidades multilingues. |
Selecione um modelo para a transcrição de áudio
O modelo é especificado pelo Recognizer usado para o pedido de reconhecimento. Chame speech/projects.locations.recognizers/create
para criar um reconhecedor e use o campo model
para especificar o modelo. Pode encontrar modelos válidos para cada idioma na tabela Idiomas suportados.