音声認識プロジェクトを設定する

このページでは、Speech-to-Text サービスを使用するようにプロジェクトを設定する方法について説明します。このプロセスには、プロジェクトの作成、Speech-to-Text API の有効化、クライアント ライブラリのインストール、環境変数の定義、認証情報の認証が含まれます。Vertex AI を初めて使用する場合は、音声認識機能の詳細をご覧ください。

GDC コンソールと gdcloud CLI を使用して、次のように音声認識プロジェクトを設定します。

  • GDC コンソール: Speech-to-Text API を有効にして、サービス ステータスとエンドポイントを表示します。
  • gdcloud CLI: Speech-to-Text API とやり取りするようにサービス アカウントを構成し、クライアント ライブラリをインストールして、API リクエストを認証します。

プロジェクトを作成する

Distributed Cloud のリソース階層内に音声認識プロジェクトを作成すると、共同編集者、有効化された API、モニタリング ツール、お支払い情報、認証情報、アクセス制御などの Speech-to-Text リソースが整理されます。

プロジェクトを作成するには、Vertex AI 用にプロジェクトを設定するをご覧ください。API 呼び出しを行うには、プロジェクト ID が必要です。

デベロッパー権限をリクエストする

音声認識機能にアクセスし、リクエストの認証と認可用の API トークンを生成するには、プロジェクトで AI Speech デベロッパー ロールが必要です。

プロジェクトの IAM 管理者に、プロジェクトの Namespace 内のユーザーまたはサービス アカウントに AI Speech デベロッパー(ai-speech-developer)ロールを付与するよう依頼します。このロールの詳細については、IAM 権限を準備するをご覧ください。

Speech-to-Text API を有効にする

プロジェクトで Speech-to-Text 事前トレーニング済み API を有効にする必要があります。有効にすると、Speech-to-Text 事前トレーニング済み API のサービス ステータスとエンドポイントを表示できます。

クライアント ライブラリのインストール

クライアント ライブラリは Python プログラミング言語で使用できます。こうしたクライアント ライブラリを使用して Speech-to-Text API を呼び出すと、API へのアクセスが容易になるため、ライブラリの使用をおすすめします。

Speech-to-Text クライアント ライブラリをインストールし、次の手順に沿って正しいバージョンであることを確認します。

  1. Speech-to-Text クライアント ライブラリがインストールされているかどうかを確認し、バージョン番号を取得します。

    pip freeze | grep speech
    

    クライアント ライブラリがすでにインストールされている場合は、次の例のような出力が得られます。

    google-cloud-speech==2.15.0
    

    取得したバージョン番号は、次のエンドポイントのクライアント ライブラリと一致している必要があります。

    https://GDC_URL/.well-known/static/client-libraries
    

    GDC_URL は、GDC の組織の URL に置き換えます。

  2. バージョン番号が一致しない場合は、クライアント ライブラリをアンインストールします。

    pip uninstall google-cloud-speech
    
  3. Speech-to-Text クライアント ライブラリをアンインストールした場合は、オペレーティング システムに対応するファイル名を指定して再インストールする必要があります。

環境変数を設定する

Speech-to-Text クライアント ライブラリをインストールすると、Python スクリプトから API を操作できます。

プログラムで承認済みの API 呼び出しを行うようにプロジェクトでサービス アカウントを設定した場合は、Python スクリプトで環境変数を定義して、実行時にサービス アカウント キーなどの値にアクセスできます。

Python スクリプトで必要な環境変数を設定する手順は次のとおりです。

  1. Speech-to-Text 事前トレーニング済み API とやり取りするための JupyterLab ノートブックを作成します。

  2. JupyterLab ノートブックで Python スクリプトを作成します。

  3. Python スクリプトに次のコードを追加します。

    import os
    
    os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "APPLICATION_DEFAULT_CREDENTIALS_FILENAME"
    

    APPLICATION_DEFAULT_CREDENTIALS_FILENAME は、プロジェクトで作成したサービス アカウント キーを含む JSON ファイルの名前に置き換えます(例: my-service-key.json)。

  4. Python スクリプトを speech.py などの名前で保存します。

  5. Python スクリプトを実行して環境変数を設定します。

    python SCRIPT_NAME
    

    SCRIPT_NAME は、Python スクリプトに付けた名前(speech.py など)に置き換えます。

認証を設定する

Speech-to-Text API の使用を開始する前に、クライアント認証情報を認証し、プロジェクト リソースへのアカウント アクセスをリクエストする必要があります。詳細については、API リクエストを認証するをご覧ください。