Veja nesta página como usar um modelo de machine learning específico para solicitações de transcrição de áudio para o Speech-to-Text.
Modelos de transcrição
O Speech-to-Text detecta palavras em um clipe de áudio comparando a entrada com um dos vários modelos de machine learning. Cada modelo foi treinado por meio da análise de milhões de exemplos (nesse caso, muitas gravações de áudio de pessoas falando).
O Speech-to-Text tem modelos especializados treinados com áudio de fontes específicas. Esses modelos fornecem resultados melhores quando aplicados a tipos de dados de áudio semelhantes aos dados em que foram treinados.
Por exemplo, o Speech-to-Text tem um modelo de transcrição treinado
para reconhecer a fala gravada pelo telefone. Quando o Speech-to-Text
usa o modelo telephony_short
ou telephony
para transcrever o áudio do telefone,
ela produz resultados de transcrição mais precisos do que se tivesse transcrito
o áudio usando os modelos short
ou long
.
Veja na tabela a seguir os modelos de transcrição disponíveis para uso com o Speech-to-Text.
Nome do modelo | Descrição |
---|---|
long |
Use esse modelo para qualquer tipo de conteúdo em formato longo, como mídia ou fala e conversas espontâneas. Considere usar esse modelo em vez do modelo "video" ou "default", especialmente se eles não estiverem disponíveis no idioma-alvo. |
short |
Use este modelo para enunciados curtos com alguns segundos de duração. Ele é útil para tentar capturar comandos ou outros casos de uso de fala direcionados uma única vez. Considere usar esse modelo em vez do comando e do modelo de pesquisa. |
telephony |
Use esse modelo para áudio que se originou de uma ligação telefônica, normalmente gravado a uma taxa de amostragem de 8 kHz. Ideal para atendimento ao cliente, teleconferência e aplicativos de quiosque automatizados. |
telephony_short |
Versão dedicada do modelo "telefonia" para enunciados curtos ou mesmo de palavras únicas para áudio de chamada telefônica, geralmente gravada a uma taxa de amostragem de 8 kHz. Útil para enunciados curtos de apenas alguns segundos em atendimento ao cliente, teleconferências e aplicativos de quiosque automatizados. |
medical_dictation |
Use este modelo para transcrever notas ditadas por um profissional médico, por exemplo, um médico que dita notas sobre os resultados de um exame de sangue de um paciente. |
medical_conversation |
Use este modelo para conversas entre um profissional de saúde, por exemplo, um médico, enfermeiro ou um paciente. Use o modelo "medical_conversation" quando um profissional de saúde e um paciente estiverem falando. As palavras ditas por cada locutor são detectadas e identificadas automaticamente. |
chirp_2 |
Use a última geração do nosso Modelo de Fala Universal grande (USM, na sigla em inglês) com tecnologia de modelo de linguagem grande para streaming e lote, além de transcrições e traduções em diversos conteúdos linguísticos e recursos multilíngues. |
chirp_telephony |
Modelo de Fala Universal grande (USM) ajustado para áudios originados de uma chamada telefônica, geralmente gravada a uma taxa de amostragem de 8 kHz. |
chirp |
Use nosso Modelo de Fala Universal grande (USM) para transcrições de última geração sem streaming em diversos conteúdos linguísticos e recursos multilíngues. |
Selecionar um modelo para a transcrição de áudio
O modelo é especificado pelo reconhecedor
usado para a solicitação de reconhecimento. Chame speech/projects.locations.recognizers/create
para criar um reconhecedor e use o campo model
para especificar o modelo. Encontre
modelos válidos para cada idioma na tabela Idiomas compatíveis.