É possível especificar que o Speech-to-Text indique um valor de acurácia ou nível de confiança para palavras individuais em uma transcrição.
Nível de confiança por palavra
Ao transcrever um clipe de áudio, a Speech-to-Text também mede o grau de acurácia da resposta. O nível de confiança da solicitação de transcrição completa é indicado como um número entre 0,0 e 1,0 na resposta enviada pela Speech-to-Text. Confira o exemplo de código abaixo com o nível de confiança retornado pelo Speech-to-Text.
{
"results": [
{
"alternatives": [
{
"transcript": "how old is the Brooklyn Bridge",
"confidence": 0.96748614
}
]
}
]
}
Além do nível de confiança da transcrição completa,
o Speech-to-Text também pode indicar o nível de confiança de
palavras individuais da transcrição. Nesse caso, a resposta
inclui os detalhes WordInfo na transcrição,
indicando o nível de confiança de palavras individuais, conforme mostrado no
exemplo a seguir.
{
"results": [
{
"alternatives": [
{
"transcript": "how old is the Brooklyn Bridge",
"confidence": 0.98360395,
"words": [
{
"startTime": "0s",
"endTime": "0.300s",
"word": "how",
"confidence": SOME NUMBER
},
...
]
}
]
}
]
}
Ativar o nível de confiança por palavra em uma solicitação
O snippet de código a seguir demonstra como ativar o nível de confiança por palavra em uma solicitação de transcrição para o Speech-to-Text usando arquivos locais e remotos.
Usar um arquivo local
Protocolo
Consulte o endpoint de API speech:recognize
para conferir todos os detalhes.
Para realizar o reconhecimento de fala síncrono, faça uma solicitação POST e forneça o
corpo de solicitação apropriado. Confira a seguir um exemplo de uma solicitação POST que usa
curl. O exemplo usa a CLI do Google Cloud para gerar um token
de acesso. Para saber como instalar a gcloud CLI,
consulte o guia de início rápido.
O exemplo a seguir mostra como enviar uma solicitação POST usando curl,
em que o corpo da solicitação ativa o nível de confiança por palavra.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1p1beta1/speech:recognize \ --data '{ "config": { "encoding": "FLAC", "sampleRateHertz": 16000, "languageCode": "en-US", "enableWordTimeOffsets": true, "enableWordConfidence": true }, "audio": { "uri": "gs://cloud-samples-tests/speech/brooklyn.flac" } }' > word-level-confidence.txt
Quando a solicitação é feita corretamente, o servidor retorna um código de status HTTP 200 OK
e a resposta no formato JSON, e os salva em um arquivo
chamado word-level-confidence.txt.
{
"results": [
{
"alternatives": [
{
"transcript": "how old is the Brooklyn Bridge",
"confidence": 0.98360395,
"words": [
{
"startTime": "0s",
"endTime": "0.300s",
"word": "how",
"confidence": 0.98762906
},
{
"startTime": "0.300s",
"endTime": "0.600s",
"word": "old",
"confidence": 0.96929157
},
{
"startTime": "0.600s",
"endTime": "0.800s",
"word": "is",
"confidence": 0.98271006
},
{
"startTime": "0.800s",
"endTime": "0.900s",
"word": "the",
"confidence": 0.98271006
},
{
"startTime": "0.900s",
"endTime": "1.100s",
"word": "Brooklyn",
"confidence": 0.98762906
},
{
"startTime": "1.100s",
"endTime": "1.500s",
"word": "Bridge",
"confidence": 0.98762906
}
]
}
],
"languageCode": "en-us"
}
]
}
Java
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Java.
Para se autenticar na Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Node.js.
Para se autenticar na Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Python.
Para se autenticar na Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Usar um arquivo remoto
Java
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Java.
Para se autenticar na Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Node.js
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Node.js.
Para se autenticar na Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Para aprender a instalar e usar a biblioteca de cliente da Speech-to-Text, consulte Bibliotecas de cliente da Speech-to-Text. Para mais informações, consulte a documentação de referência da API Speech-to-Text Python.
Para se autenticar na Speech-to-Text, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.