Use um modelo de conversão de voz em texto personalizado preparado na sua aplicação de produção ou fluxos de trabalho de testes de referência. Assim que implementar o seu modelo através de um ponto final dedicado, recebe automaticamente acesso programático através de um objeto de reconhecimento, que pode ser usado diretamente através da API Speech-to-Text V2 ou na Google Cloud consola.
Antes de começar
Certifique-se de que se inscreveu numa Google Cloud conta, criou um projeto, preparou um modelo de voz personalizado e implementou-o através de um ponto final.
Realize a inferência na V2
Para que um modelo de conversão de voz em texto personalizado esteja pronto para utilização, o estado do modelo no separador Modelos deve ser Ativo e o ponto final dedicado no separador Pontos finais tem de estar Implementado.
No nosso exemplo, em que um Google Cloud ID do projeto é custom-models-walkthrough
, o ponto final que corresponde ao modelo Speech-to-Text personalizado quantum-computing-lectures-custom-model
é quantum-computing-lectures-custom-model-prod-endpoint
. A região em que está disponível é us-east1
, e o pedido de transcrição em lote é o seguinte:
from google.api_core import client_options
from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech
def quickstart_v2(
project_id: str,
audio_file: str,
) -> cloud_speech.RecognizeResponse:
"""Transcribe an audio file."""
# Instantiates a client
client = SpeechClient(
client_options=client_options.ClientOptions(
api_endpoint="us-east1-speech.googleapis.com"
)
)
# Reads a file as bytes
with open(audio_file, "rb") as f:
content = f.read()
config = cloud_speech.RecognitionConfig(
auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
language_codes=["en-US"],
model="projects/custom-models-walkthrough/locations/us-east1/endpoints/quantum-computing-lectures-custom-model-prod-endpoint",
)
request = cloud_speech.RecognizeRequest(
recognizer=f"projects/custom-models-walkthrough/locations/us-east1/recognizers/_",
config=config,
content=content,
)
# Transcribes the audio into text
response = client.recognize(request=request)
for result in response.results:
print(f"Transcript: {result.alternatives[0].transcript}")
return response
O que se segue?
Siga os recursos para tirar partido dos modelos de voz personalizados na sua aplicação. Consulte o artigo Avalie os seus modelos personalizados.