Configura un proyecto de reconocimiento de voz

En esta página, se ayuda a los desarrolladores a configurar un proyecto para usar el servicio de Speech-to-Text. Este proceso incluye la creación de un proyecto, la habilitación de la API de Speech-to-Text, la instalación de bibliotecas cliente, la definición de variables de entorno y la autenticación de tus credenciales. Si eres nuevo en Vertex AI, obtén más información sobre las funciones de reconocimiento de voz.

Configura un proyecto de reconocimiento de voz con la consola de GDC y la CLI de gdcloud de la siguiente manera:

  • Consola de GDC: Habilita la API de Speech-to-Text y consulta el estado del servicio y el extremo.
  • Google Cloud CLI: Configura cuentas de servicio para interactuar con la API de Speech-to-Text, instala bibliotecas cliente y autentica solicitudes a la API.

Crea un proyecto

Crear un proyecto de reconocimiento de voz dentro de tu jerarquía de recursos de Distributed Cloud organiza tus recursos de Speech-to-Text, que incluyen colaboradores, APIs habilitadas, herramientas de supervisión, información de facturación, credenciales de autenticación y controles de acceso.

Para crear tu proyecto, consulta Configura un proyecto para Vertex AI. Necesitas el ID del proyecto cuando realices llamadas a la API.

Cómo solicitar permisos de desarrollador

Debes tener el rol de desarrollador de voz con IA en tu proyecto para acceder a las funciones de reconocimiento de voz y generar un token de API para la autenticación y autorización de solicitudes.

Pídele al administrador de IAM del proyecto que otorgue el rol de desarrollador de AI Speech (ai-speech-developer) a tu usuario o cuenta de servicio dentro del espacio de nombres de tu proyecto. Para obtener información sobre este rol, consulta Cómo preparar permisos de IAM.

Habilita la API de Speech-to-Text

Debes habilitar la API de Speech-to-Text previamente entrenada para tu proyecto. Si está habilitada, puedes ver el estado del servicio y el extremo de la API de Speech-to-Text previamente entrenada.

Instala bibliotecas cliente

Las bibliotecas cliente están disponibles para el lenguaje de programación Python. Te recomendamos que uses estas bibliotecas cliente para realizar llamadas a la API de Speech-to-Text, ya que facilitan el acceso a las APIs.

Instala la biblioteca cliente de Speech-to-Text y sigue estos pasos para asegurarte de tener la versión correcta:

  1. Verifica si la biblioteca cliente de Speech-to-Text está instalada y obtén el número de versión:

    pip freeze | grep speech
    

    Si la biblioteca cliente ya está instalada, obtendrás un resultado similar al siguiente ejemplo:

    google-cloud-speech==2.15.0
    

    El número de versión que obtengas debe coincidir con la biblioteca cliente en el siguiente extremo:

    https://GDC_URL/.well-known/static/client-libraries
    

    Reemplaza GDC_URL por la URL de tu organización en GDC.

  2. Si los números de versión no coinciden, desinstala la biblioteca cliente:

    pip uninstall google-cloud-speech
    
  3. Si desinstalaste la biblioteca cliente de Speech-to-Text, debes volver a instalarla especificando el nombre de archivo correspondiente a tu sistema operativo.

Configura las variables de entorno

Después de instalar la biblioteca cliente de Speech-to-Text, puedes interactuar con la API desde una secuencia de comandos de Python.

Si configuras una cuenta de servicio en tu proyecto para realizar llamadas a la API autorizadas de forma programática, puedes definir variables de entorno en la secuencia de comandos de Python para acceder a valores como las claves de la cuenta de servicio durante la ejecución.

Sigue estos pasos para configurar las variables de entorno requeridas en una secuencia de comandos de Python:

  1. Crea un notebook de JupyterLab para interactuar con la API previa al entrenamiento de Speech-to-Text.

  2. Crea una secuencia de comandos de Python en el notebook de JupyterLab.

  3. Agrega el siguiente código a la secuencia de comandos de Python:

    import os
    
    os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "APPLICATION_DEFAULT_CREDENTIALS_FILENAME"
    

    Reemplaza APPLICATION_DEFAULT_CREDENTIALS_FILENAME por el nombre del archivo JSON que contiene las claves de la cuenta de servicio que creaste en el proyecto, como my-service-key.json.

  4. Guarda la secuencia de comandos de Python con un nombre, como speech.py.

  5. Ejecuta la secuencia de comandos de Python para establecer las variables de entorno:

    python SCRIPT_NAME
    

    Reemplaza SCRIPT_NAME por el nombre que le diste a tu secuencia de comandos de Python, como speech.py.

Configura la autenticación

Antes de comenzar a usar la API de Speech-to-Text, debes autenticar tus credenciales de cliente y solicitar acceso a la cuenta de los recursos de tu proyecto. Para obtener más información, consulta Autentica solicitudes a la API.