Esta página descreve como usar um modelo de aprendizagem automática específico para pedidos de transcrição de áudio para o Speech-to-Text.
Modelos de transcrição
A conversão de voz em texto deteta palavras num clipe de áudio comparando a entrada com um dos muitos modelos de aprendizagem automática. Cada modelo foi preparado através da análise de milhões de exemplos. Neste caso, muitas gravações de áudio de pessoas a falar.
A conversão de voz em texto tem modelos especializados com formação a partir de áudio de fontes específicas, por exemplo, chamadas telefónicas ou vídeos. Devido a este processo de preparação, estes modelos especializados oferecem melhores resultados quando aplicados a tipos semelhantes de dados de áudio.
Por exemplo, o Speech-to-Text tem um modelo de transcrição formado para reconhecer a voz gravada ao telefone. Quando a conversão de voz em texto usa o modelo telephony
ou telephony_short
para transcrever o áudio do telemóvel, produz resultados de transcrição mais precisos do que se tivesse transcrito o áudio do telemóvel usando os modelos latest_short
ou latest_long
.
A tabela seguinte mostra os modelos de transcrição disponíveis para utilização com o Speech-to-Text.
Nome do modelo | Descrição |
---|---|
latest_long |
Use este modelo para qualquer tipo de conteúdo de formato longo, como multimédia ou conversas e discurso espontâneos. Considere usar este modelo em vez do modelo de vídeo, especialmente se o modelo de vídeo não estiver disponível no seu idioma de destino. Também pode usar este modelo em vez do modelo predefinido. |
latest_short |
Use este modelo para expressões curtas com alguns segundos de duração. É útil para tentar captar comandos ou outros exemplos de utilização de voz direcionada de disparo único. Considere usar este modelo em vez do modelo de comando e pesquisa. |
telephony |
Versão melhorada do modelo "phone_call", ideal para áudio proveniente de uma chamada telefónica, normalmente gravado a uma taxa de amostragem de 8 kHz. |
telephony_short |
Versão dedicada do modelo de "telefonia" moderno para expressões curtas ou até de uma única palavra para áudio com origem numa chamada telefónica, normalmente gravado a uma taxa de amostragem de 8 kHz. |
medical_dictation |
Use este modelo para transcrever notas ditadas por um profissional de saúde.
Este é um modelo premium que custa mais do que a tarifa padrão. Consulte a página de preços para ver mais detalhes. |
medical_conversation |
Use este modelo para transcrever uma conversa entre um profissional médico e um paciente.
Este é um modelo premium que custa mais do que a tarifa padrão. Consulte a página de preços para ver mais detalhes. |
Os seguintes modelos baseiam-se principalmente em arquiteturas não conformes clássicas e são mantidos principalmente por motivos de compatibilidade com versões anteriores e antigas. | |
command_and_search |
Ideal para expressões curtas ou de uma única palavra, como comandos de voz ou pesquisa por voz. |
default |
Ideal para áudio que não se enquadra nos outros modelos de áudio, como áudio de formato longo ou ditado. O modelo predefinido produz resultados de transcrição para qualquer tipo de áudio, incluindo áudio, como clipes de vídeo, que têm um modelo separado especificamente adaptado. No entanto, o reconhecimento do áudio de clipes de vídeo através do modelo predefinido vai provavelmente gerar resultados de qualidade inferior em comparação com a utilização do modelo de vídeo. Idealmente, o áudio deve ser de alta fidelidade, gravado a uma taxa de amostragem de 16 kHz ou superior. |
phone_call |
Ideal para áudio proveniente de uma chamada telefónica (normalmente gravado a uma taxa de amostragem de 8 kHz). |
video |
Ideal para áudio de clipes de vídeo ou outras fontes (como podcasts) com vários falantes. Este modelo também é frequentemente a melhor escolha para áudio gravado com um microfone de alta qualidade ou que tenha muito ruído de fundo. Para obter os melhores resultados, forneça áudio gravado a 16 000 Hz ou uma taxa de amostragem superior. |
Selecione um modelo para a transcrição de áudio
Para especificar um modelo específico a usar para a transcrição de áudio, tem de definir o campo model
para um dos valores permitidos, como latest_long
, latest_short
, telephony
ou telephony_short
, nos parâmetros RecognitionConfig
do pedido.
A API Speech-to-Text suporta a seleção de modelos para todos os métodos de reconhecimento de voz: speech:recognize
, speech:longrunningrecognize
e Streaming.
Faça a transcrição de um ficheiro de áudio local
Protocolo
Consulte o ponto final da API speech:recognize
para ver os detalhes completos.
Para realizar o reconhecimento de voz síncrono, faça um pedido POST
e forneça o corpo do pedido adequado. O exemplo seguinte mostra um pedido POST
com curl
. O exemplo usa a Google Cloud CLI para gerar um token de acesso. Para ver instruções sobre a instalação da CLI gcloud,
consulte o início rápido.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "sampleRateHertz": 16000, "languageCode": "en-US", "model": "video" }, "audio": { "uri": "gs://cloud-samples-tests/speech/Google_Gnome.wav" } }'
Consulte a documentação de referência RecognitionConfig
para mais informações sobre a configuração do corpo do pedido.
Se o pedido for bem-sucedido, o servidor devolve um código de estado HTTP 200 OK
e a resposta no formato JSON:
{ "results": [ { "alternatives": [ { "transcript": "OK Google stream stranger things from Netflix to my TV okay stranger things from Netflix playing on TV from the people that brought you Google home comes the next evolution of the smart home and it's just outside your window me Google know hi how can I help okay no what's the weather like outside the weather outside is sunny and 76 degrees he's right okay no turn on the hose I'm holding sure okay no I'm can I eat this lemon tree leaf yes what about this Daisy yes but I wouldn't recommend it but I could eat it okay Nomad milk to my shopping list I'm sorry that sounds like an indoor request I keep doing that sorry you do keep doing that okay no is this compost really we're all compost if you think about it pretty much everything is made up of organic matter and will return", "confidence": 0.9251011 } ] } ] }
Go
Para saber como instalar e usar a biblioteca cliente do Speech-to-Text, consulte o artigo Bibliotecas cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Go Speech-to-Text.
Para se autenticar no Speech-to-Text, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Java
Para saber como instalar e usar a biblioteca cliente do Speech-to-Text, consulte o artigo Bibliotecas cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Java Speech-to-Text.
Para se autenticar no Speech-to-Text, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Node.js
Para saber como instalar e usar a biblioteca cliente do Speech-to-Text, consulte o artigo Bibliotecas cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Node.js Speech-to-Text.
Para se autenticar no Speech-to-Text, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar e usar a biblioteca cliente do Speech-to-Text, consulte o artigo Bibliotecas cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Python Speech-to-Text.
Para se autenticar no Speech-to-Text, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Idiomas adicionais
C#: Siga as instruções de configuração do C# na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Speech-to-Text para .NET.
PHP: Siga as instruções de configuração do PHP na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Speech-to-Text para PHP.
Ruby: Siga as instruções de configuração do Ruby na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Speech-to-Text para Ruby.
Faça a transcrição de um ficheiro de áudio do Cloud Storage
Go
Para saber como instalar e usar a biblioteca cliente do Speech-to-Text, consulte o artigo Bibliotecas cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Go Speech-to-Text.
Para se autenticar no Speech-to-Text, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Java
Para saber como instalar e usar a biblioteca cliente do Speech-to-Text, consulte o artigo Bibliotecas cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Java Speech-to-Text.
Para se autenticar no Speech-to-Text, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Node.js
Para saber como instalar e usar a biblioteca cliente do Speech-to-Text, consulte o artigo Bibliotecas cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Node.js Speech-to-Text.
Para se autenticar no Speech-to-Text, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Idiomas adicionais
C#: Siga as instruções de configuração do C# na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Speech-to-Text para .NET.
PHP: Siga as instruções de configuração do PHP na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Speech-to-Text para PHP.
Ruby: Siga as instruções de configuração do Ruby na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Speech-to-Text para Ruby.