Envie um pedido de reconhecimento com adaptação do modelo

Pode melhorar a precisão dos resultados da transcrição que obtém do Speech-to-Text através da adaptação do modelo. A funcionalidade de adaptação do modelo permite-lhe especificar palavras e/ou expressões que o Speech-to-Text tem de reconhecer com mais frequência nos seus dados de áudio do que outras alternativas que possam ser sugeridas. A adaptação do modelo é particularmente útil para melhorar a precisão da transcrição nos seguintes exemplos de utilização:

  1. O áudio contém palavras ou expressões que ocorrem com frequência.
  2. É provável que o seu áudio contenha palavras raras (como nomes próprios) ou palavras que não são usadas geralmente.
  3. O áudio contém ruído ou não é muito claro.

Para mais informações sobre a utilização desta funcionalidade, consulte o artigo Melhore os resultados da transcrição com a adaptação do modelo. Para obter informações sobre os limites de expressões e carateres por pedido de adaptação do modelo, consulte Quotas e limites. Nem todos os modelos suportam a adaptação da voz. Consulte o artigo Suporte de idiomas para ver que modelos suportam a adaptação.

Exemplo de código

A adaptação de voz é uma configuração opcional de conversão de voz em texto que pode usar para personalizar os resultados da transcrição de acordo com as suas necessidades. Consulte a RecognitionConfig documentação para mais informações sobre a configuração do corpo do pedido de reconhecimento.

O seguinte exemplo de código mostra como melhorar a precisão da transcrição através de um recurso SpeechAdaptation : PhraseSet, CustomClass e aumento da adaptação do modelo. Para usar um PhraseSet ou CustomClass em pedidos futuros, tome nota do respetivo recurso name, devolvido na resposta quando cria o recurso.

Para ver uma lista das classes pré-criadas disponíveis para o seu idioma, consulte o artigo Tokens de classe suportados.

Python

Para saber como instalar e usar a biblioteca cliente do Speech-to-Text, consulte o artigo Bibliotecas cliente do Speech-to-Text. Para mais informações, consulte a documentação de referência da API Python Speech-to-Text.

Para se autenticar no Speech-to-Text, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.

import os

from google.cloud import speech_v1p1beta1 as speech

PROJECT_ID = os.getenv("GOOGLE_CLOUD_PROJECT")


def transcribe_with_model_adaptation(
    audio_uri: str,
    custom_class_id: str,
    phrase_set_id: str,
) -> str:
    """Create `PhraseSet` and `CustomClasses` for custom item lists in input data.
    Args:
        audio_uri (str): The Cloud Storage URI of the input audio. e.g. gs://[BUCKET]/[FILE]
        custom_class_id (str): The unique ID of the custom class to create
        phrase_set_id (str): The unique ID of the PhraseSet to create.
    Returns:
        The transcript of the input audio.
    """
    # Specifies the location where the Speech API will be accessed.
    location = "global"

    # Audio object
    audio = speech.RecognitionAudio(uri=audio_uri)

    # Create the adaptation client
    adaptation_client = speech.AdaptationClient()

    # The parent resource where the custom class and phrase set will be created.
    parent = f"projects/{PROJECT_ID}/locations/{location}"

    # Create the custom class resource
    adaptation_client.create_custom_class(
        {
            "parent": parent,
            "custom_class_id": custom_class_id,
            "custom_class": {
                "items": [
                    {"value": "sushido"},
                    {"value": "altura"},
                    {"value": "taneda"},
                ]
            },
        }
    )
    custom_class_name = (
        f"projects/{PROJECT_ID}/locations/{location}/customClasses/{custom_class_id}"
    )
    # Create the phrase set resource
    phrase_set_response = adaptation_client.create_phrase_set(
        {
            "parent": parent,
            "phrase_set_id": phrase_set_id,
            "phrase_set": {
                "boost": 10,
                "phrases": [
                    {"value": f"Visit restaurants like ${{{custom_class_name}}}"}
                ],
            },
        }
    )
    phrase_set_name = phrase_set_response.name
    # The next section shows how to use the newly created custom
    # class and phrase set to send a transcription request with speech adaptation

    # Speech adaptation configuration
    speech_adaptation = speech.SpeechAdaptation(phrase_set_references=[phrase_set_name])

    # speech configuration object
    config = speech.RecognitionConfig(
        encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
        sample_rate_hertz=24000,
        language_code="en-US",
        adaptation=speech_adaptation,
    )

    # Create the speech client
    speech_client = speech.SpeechClient()

    response = speech_client.recognize(config=config, audio=audio)

    for result in response.results:
        print(f"Transcript: {result.alternatives[0].transcript}")