本页可帮助开发者设置项目以使用 Speech-to-Text 服务。此过程包括创建项目、启用 Speech-to-Text API、安装客户端库、定义环境变量以及验证您的凭据。如果您刚开始接触 Vertex AI,请详细了解语音识别功能。
您可以使用 GDC 控制台和 gdcloud CLI 设置语音识别项目,如下所示:
- GDC 控制台:启用 Speech-to-Text API,并查看服务状态和端点。
- gdcloud CLI:配置服务账号以与 Speech-to-Text API 互动、安装客户端库并对 API 请求进行身份验证。
创建项目
在分布式 Cloud 资源层次结构中创建语音识别项目可整理您的 Speech-to-Text 资源,包括协作者、已启用的 API、监控工具、结算信息、身份验证凭据和访问权限控制。
如需创建项目,请参阅为 Vertex AI 设置项目。 进行 API 调用时,您需要提供项目 ID。
请求开发者权限
您必须在项目中拥有 AI Speech 开发者角色,才能访问语音识别功能并生成 API 令牌以进行请求身份验证和授权。
请让您的项目 IAM 管理员在您的项目命名空间内向您的用户或服务账号授予 AI Speech Developer (ai-speech-developer
) 角色。如需了解此角色,请参阅准备 IAM 权限。
启用 Speech-to-Text API
您必须为项目启用 Speech-to-Text 预训练 API。启用后,您可以查看 Speech-to-Text 预训练 API 的服务状态和端点。
安装客户端库
客户端库支持 Python 编程语言。我们建议您使用这些客户端库来调用 Speech-to-Text API,因为它们可以更轻松地访问 API。
安装 Speech-to-Text 客户端库,然后按照以下步骤确保您使用的是正确的版本:
检查 Speech-to-Text 客户端库是否已安装,并获取版本号:
pip freeze | grep speech
如果已安装客户端库,您将获得类似于以下示例的输出:
google-cloud-speech==2.15.0
您获取的版本号必须与以下端点处的客户端库相匹配:
https://GDC_URL/.well-known/static/client-libraries
将
GDC_URL
替换为您组织在 GDC 中的网址。如果版本号不匹配,请卸载客户端库:
pip uninstall google-cloud-speech
如果您卸载了 Speech-to-Text 客户端库,则必须通过指定与您的操作系统对应的文件名来重新安装该库。
设置环境变量
安装 Speech-to-Text 客户端库后,您可以通过 Python 脚本与该 API 进行交互。
如果您在项目中设置服务账号以通过编程方式进行授权的 API 调用,则可以在 Python 脚本中定义环境变量,以便在运行时访问服务账号密钥等值。
请按以下步骤在 Python 脚本中设置所需的环境变量:
创建 JupyterLab 笔记本,以便与 Speech-to-Text 预训练 API 进行交互。
在 JupyterLab 笔记本上创建 Python 脚本。
将以下代码添加到 Python 脚本中:
import os os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "APPLICATION_DEFAULT_CREDENTIALS_FILENAME"
将
APPLICATION_DEFAULT_CREDENTIALS_FILENAME
替换为包含您在项目中创建的服务账号密钥的 JSON 文件的名称,例如my-service-key.json
。保存 Python 脚本,并为其命名,例如
speech.py
。运行 Python 脚本以设置环境变量:
python SCRIPT_NAME
将
SCRIPT_NAME
替换为您为 Python 脚本指定的名称,例如speech.py
。
设置身份验证
在开始使用 Speech-to-Text API 之前,您必须对客户端凭据进行身份验证,并请求账号访问您的项目资源。如需了解详情,请参阅对 API 请求进行身份验证。