Nesta página, você aprende a usar um modelo de machine learning específico para fazer solicitações de transcrição de áudio à Speech-to-Text.
Modelos de transcrição
A Speech-to-Text detecta palavras em clipes de áudio comparando a entrada com um dos vários modelos de machine learning. Cada modelo foi treinado por meio da análise de milhões de exemplos (nesse caso, muitas gravações de áudio de pessoas falando).
A Speech-to-Text tem modelos especializados treinados com áudio de fontes específicas, como chamadas telefônicas ou vídeos. Devido a esse processo de treinamento, esses modelos especializados fornecem melhores resultados quando aplicados a tipos semelhantes de dados de áudio.
Por exemplo, a Speech-to-Text tem um modelo de transcrição treinado
para reconhecer fala gravada por telefone. Quando a Speech-to-Text
usa o modelo telephony
ou telephony_short
para transcrever áudios por telefone,
ela produz resultados de transcrição com mais acurácia do que se os tivesse transcrito
usando os modelos latest_short
ou latest_long
.
Confira na tabela a seguir os modelos de transcrições disponíveis para uso com a Speech-to-Text.
Nome do modelo | Descrição |
---|---|
latest_long |
Use esse modelo para qualquer tipo de conteúdo em formato longo, como mídia ou fala e conversas espontâneas. Considere usar esse modelo no lugar do modelo de vídeo, principalmente se o segundo não estiver disponível no idioma de destino. Também é possível usá-lo no lugar do modelo padrão. |
latest_short |
Use esse modelo para enunciados curtos com alguns segundos de duração. Ele é útil para tentar capturar comandos ou outros casos de uso de fala direcionados uma única vez. Considere usar esse modelo em vez do comando e do modelo de pesquisa. |
telephony |
Versão aprimorada do modelo phone_call, ideal para áudios originados de uma chamada telefônica, geralmente gravados a uma taxa de amostragem de 8 kHz. |
telephony_short |
Versão dedicada do modelo moderno de telefonia para enunciados curtos ou mesmo de palavras únicas em áudios de chamada telefônica, geralmente gravados a uma taxa de amostragem de 8 kHz. |
medical_dictation |
Use esse modelo para transcrever notas ditadas por um profissional
da saúde.
Este é um modelo premium que custa mais do que a taxa padrão. Consulte a página de preços para mais detalhes. |
medical_conversation |
Use esse modelo para transcrever uma conversa entre um profissional
da saúde e um paciente.
Esse é um modelo premium que custa mais do que a taxa padrão. Consulte a página de preços para mais detalhes. |
Os modelos a seguir são baseados principalmente em arquiteturas clássicas sem conformidade e são mantidos majoritariamente por motivos legados e de compatibilidade com versões anteriores. | |
command_and_search |
Indicado para enunciados curtos ou de palavra única, como comandos de voz ou pesquisa por voz. |
default |
Indicado para áudios que não se encaixam nos outros modelos, como áudios ou ditados de formato longo. O modelo padrão vai produzir resultados de transcrição para qualquer tipo de áudio, incluindo áudios como clipes de vídeo, que são transcritos por um modelo separado e especificamente adaptado. No entanto, o reconhecimento de áudio de clipes de vídeo usando o modelo padrão vai produzir resultados de qualidade inferior em comparação com o uso do modelo de vídeo. O ideal é que o áudio seja de alta fidelidade e gravado com uma taxa de amostragem de 16 kHz ou mais. |
phone_call |
Ideal para áudios de chamadas telefônicas, geralmente gravados com uma taxa de amostragem de 8 kHz. |
video |
Indicado para áudios de clipes de vídeo ou outras fontes (como podcasts) com vários interlocutores. Esse modelo também costuma ser a melhor opção para áudios gravados com um microfone de alta qualidade ou que tenham muito ruído de fundo. Para conseguir resultados melhores, forneça um áudio gravado a uma taxa de amostragem de 16.000 Hz ou mais. |
Selecionar um modelo para a transcrição de áudio
Para especificar um modelo específico a ser usado para transcrição de áudio,
defina o campo model
com um dos valores permitidos: latest_long
,
latest_short
, telephony
ou telephony_short
, nos
parâmetros RecognitionConfig
da solicitação.
A Speech-to-Text aceita a seleção de modelos para todos os métodos de
reconhecimento de fala: speech:recognize
,
speech:longrunningrecognize
e streaming.
Realizar a transcrição de um arquivo de áudio local
Protocolo
Consulte o endpoint da API speech:recognize
para
conferir todos os detalhes.
Para realizar o reconhecimento de fala síncrono, faça uma solicitação POST
e forneça o
corpo de solicitação apropriado. Confira a seguir um exemplo de uma solicitação POST
que usa
curl
. O exemplo usa a CLI do Google Cloud para gerar um token
de acesso. Para instruções sobre como instalar a gcloud CLI,
consulte o guia de início rápido.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "sampleRateHertz": 16000, "languageCode": "en-US", "model": "video" }, "audio": { "uri": "gs://cloud-samples-tests/speech/Google_Gnome.wav" } }'
Consulte a documentação de referência de RecognitionConfig
para saber como configurar o corpo da solicitação.
Quando a solicitação é bem-sucedida, o servidor retorna um código de status HTTP 200 OK
e a resposta no formato JSON:
{ "results": [ { "alternatives": [ { "transcript": "OK Google stream stranger things from Netflix to my TV okay stranger things from Netflix playing on TV from the people that brought you Google home comes the next evolution of the smart home and it's just outside your window me Google know hi how can I help okay no what's the weather like outside the weather outside is sunny and 76 degrees he's right okay no turn on the hose I'm holding sure okay no I'm can I eat this lemon tree leaf yes what about this Daisy yes but I wouldn't recommend it but I could eat it okay Nomad milk to my shopping list I'm sorry that sounds like an indoor request I keep doing that sorry you do keep doing that okay no is this compost really we're all compost if you think about it pretty much everything is made up of organic matter and will return", "confidence": 0.9251011 } ] } ] }
Go
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Go.
Para se autenticar na Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Java
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Java.
Para se autenticar na Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Node.js.
Para se autenticar na Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Python.
Para se autenticar na Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Linguagens adicionais
C#: siga as instruções de configuração de C# na página das bibliotecas de cliente e acesse a documentação de referência da Speech-to-Text para .NET.
PHP: siga as instruções de configuração de PHP na página das bibliotecas de cliente e acesse a documentação de referência da Speech-to-Text para PHP.
Ruby: siga as instruções de configuração do Ruby na página das bibliotecas de cliente e acesse a documentação de referência da Speech-to-Text para Ruby.
Realizar a transcrição de um arquivo de áudio do Cloud Storage
Go
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Go.
Para se autenticar na Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Java
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Java.
Para se autenticar na Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Node.js.
Para se autenticar na Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Linguagens adicionais
C#: siga as instruções de configuração de C# na página das bibliotecas de cliente e acesse a documentação de referência da Speech-to-Text para .NET.
PHP: siga as instruções de configuração de PHP na página das bibliotecas de cliente e acesse a documentação de referência da Speech-to-Text para PHP.
Ruby: siga as instruções de configuração do Ruby na página das bibliotecas de cliente e acesse a documentação de referência da Speech-to-Text para Ruby.