Configurer un projet de reconnaissance vocale

Cette page aide les développeurs à configurer un projet pour utiliser le service Speech-to-Text. Ce processus inclut la création d'un projet, l'activation de l'API Speech-to-Text, l'installation de bibliothèques clientes, la définition de variables d'environnement et l'authentification de vos identifiants. Si vous ne connaissez pas Vertex AI, découvrez les fonctionnalités de reconnaissance vocale.

Configurez un projet de reconnaissance vocale à l'aide de la console GDC et de la CLI gdcloud comme suit :

  • Console GDC : activez l'API Speech-to-Text et consultez l'état du service et le point de terminaison.
  • gdcloud CLI : configurez des comptes de service pour interagir avec l'API Speech-to-Text, installez des bibliothèques clientes et authentifiez les requêtes d'API.

Créer un projet

La création d'un projet de reconnaissance vocale dans votre hiérarchie de ressources Distributed Cloud permet d'organiser vos ressources Speech-to-Text, qui incluent les collaborateurs, les API activées, les outils de surveillance, les informations de facturation, les identifiants d'authentification et les contrôles d'accès.

Pour créer votre projet, consultez Configurer un projet pour Vertex AI. Vous avez besoin de l'ID de votre projet pour effectuer des appels d'API.

Demander des autorisations de développeur

Vous devez disposer du rôle "Développeur AI Speech" dans votre projet pour accéder aux fonctionnalités de reconnaissance vocale et générer un jeton d'API pour l'authentification et l'autorisation des requêtes.

Demandez à l'administrateur IAM de votre projet d'attribuer le rôle Développeur AI Speech (ai-speech-developer) à votre compte d'utilisateur ou de service dans l'espace de noms de votre projet. Pour en savoir plus sur ce rôle, consultez Préparer les autorisations IAM.

Activer l'API Speech-to-Text

Vous devez activer l'API Speech-to-Text préentraînée pour votre projet. Si elle est activée, vous pouvez afficher l'état du service et le point de terminaison de l'API Speech-to-Text pré-entraînée.

Installer les bibliothèques clientes

Des bibliothèques clientes sont disponibles pour le langage de programmation Python. Nous vous recommandons d'utiliser ces bibliothèques clientes pour appeler l'API Speech-to-Text, car elles facilitent l'accès aux API.

Installez la bibliothèque cliente Speech-to-Text et suivez ces étapes pour vous assurer d'avoir la bonne version :

  1. Vérifiez si la bibliothèque cliente Speech-to-Text est installée et obtenez le numéro de version :

    pip freeze | grep speech
    

    Si la bibliothèque cliente est déjà installée, vous obtenez un résultat semblable à l'exemple suivant :

    google-cloud-speech==2.15.0
    

    Le numéro de version que vous obtenez doit correspondre à la bibliothèque cliente au point de terminaison suivant :

    https://GDC_URL/.well-known/static/client-libraries
    

    Remplacez GDC_URL par l'URL de votre organisation dans GDC.

  2. Si les numéros de version ne correspondent pas, désinstallez la bibliothèque cliente :

    pip uninstall google-cloud-speech
    
  3. Si vous avez désinstallé la bibliothèque cliente Speech-to-Text, vous devez la réinstaller en spécifiant le nom de fichier correspondant à votre système d'exploitation.

Définir les variables d'environnement

Après avoir installé la bibliothèque cliente Speech-to-Text, vous pouvez interagir avec l'API à partir d'un script Python.

Si vous configurez un compte de service dans votre projet pour effectuer des appels d'API autorisés de manière programmatique, vous pouvez définir des variables d'environnement dans le script Python pour accéder à des valeurs telles que les clés de compte de service lors de l'exécution.

Pour définir les variables d'environnement requises dans un script Python, procédez comme suit :

  1. Créez un notebook JupyterLab pour interagir avec l'API Speech-to-Text préentraînée.

  2. Créez un script Python dans le notebook JupyterLab.

  3. Ajoutez le code suivant au script Python :

    import os
    
    os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "APPLICATION_DEFAULT_CREDENTIALS_FILENAME"
    

    Remplacez APPLICATION_DEFAULT_CREDENTIALS_FILENAME par le nom du fichier JSON contenant les clés de compte de service que vous avez créées dans le projet, par exemple my-service-key.json.

  4. Enregistrez le script Python sous un nom, par exemple speech.py.

  5. Exécutez le script Python pour définir les variables d'environnement :

    python SCRIPT_NAME
    

    Remplacez SCRIPT_NAME par le nom que vous avez donné à votre script Python, par exemple speech.py.

Configurer l'authentification

Avant de pouvoir utiliser l'API Speech-to-Text, vous devez authentifier vos identifiants client et demander l'accès au compte pour les ressources de votre projet. Pour en savoir plus, consultez Authentifier les requêtes API.