设置语音识别项目

本页可帮助开发者设置项目以使用 Speech-to-Text 服务。此过程包括创建项目、启用 Speech-to-Text API、安装客户端库、定义环境变量以及验证您的凭据。如果您刚开始接触 Vertex AI,请详细了解语音识别功能

您可以使用 GDC 控制台和 gdcloud CLI 设置语音识别项目,如下所示:

  • GDC 控制台:启用 Speech-to-Text API,并查看服务状态和端点。
  • gdcloud CLI:配置服务账号以与 Speech-to-Text API 互动、安装客户端库并对 API 请求进行身份验证。

创建项目

在分布式 Cloud 资源层次结构中创建语音识别项目可整理您的 Speech-to-Text 资源,包括协作者、已启用的 API、监控工具、结算信息、身份验证凭据和访问权限控制。

如需创建项目,请参阅为 Vertex AI 设置项目。 进行 API 调用时,您需要提供项目 ID。

请求开发者权限

您必须在项目中拥有 AI Speech 开发者角色,才能访问语音识别功能并生成 API 令牌以进行请求身份验证和授权。

请让您的项目 IAM 管理员在您的项目命名空间内向您的用户或服务账号授予 AI Speech Developer (ai-speech-developer) 角色。如需了解此角色,请参阅准备 IAM 权限

启用 Speech-to-Text API

您必须为项目启用 Speech-to-Text 预训练 API。启用后,您可以查看 Speech-to-Text 预训练 API 的服务状态和端点

安装客户端库

客户端库支持 Python 编程语言。我们建议您使用这些客户端库来调用 Speech-to-Text API,因为它们可以更轻松地访问 API。

安装 Speech-to-Text 客户端库,然后按照以下步骤确保您使用的是正确的版本:

  1. 检查 Speech-to-Text 客户端库是否已安装,并获取版本号:

    pip freeze | grep speech
    

    如果已安装客户端库,您将获得类似于以下示例的输出:

    google-cloud-speech==2.15.0
    

    您获取的版本号必须与以下端点处的客户端库相匹配:

    https://GDC_URL/.well-known/static/client-libraries
    

    GDC_URL 替换为您组织在 GDC 中的网址。

  2. 如果版本号不匹配,请卸载客户端库:

    pip uninstall google-cloud-speech
    
  3. 如果您卸载了 Speech-to-Text 客户端库,则必须通过指定与您的操作系统对应的文件名来重新安装该库

设置环境变量

安装 Speech-to-Text 客户端库后,您可以通过 Python 脚本与该 API 进行交互。

如果您在项目中设置服务账号以通过编程方式进行授权的 API 调用,则可以在 Python 脚本中定义环境变量,以便在运行时访问服务账号密钥等值。

请按以下步骤在 Python 脚本中设置所需的环境变量:

  1. 创建 JupyterLab 笔记本,以便与 Speech-to-Text 预训练 API 进行交互。

  2. 在 JupyterLab 笔记本上创建 Python 脚本。

  3. 将以下代码添加到 Python 脚本中:

    import os
    
    os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "APPLICATION_DEFAULT_CREDENTIALS_FILENAME"
    

    APPLICATION_DEFAULT_CREDENTIALS_FILENAME 替换为包含您在项目中创建的服务账号密钥的 JSON 文件的名称,例如 my-service-key.json

  4. 保存 Python 脚本,并为其命名,例如 speech.py

  5. 运行 Python 脚本以设置环境变量:

    python SCRIPT_NAME
    

    SCRIPT_NAME 替换为您为 Python 脚本指定的名称,例如 speech.py

设置身份验证

在开始使用 Speech-to-Text API 之前,您必须对客户端凭据进行身份验证,并请求账号访问您的项目资源。如需了解详情,请参阅对 API 请求进行身份验证