音声のチューニング

このページでは、教師あり学習を使用して画像データで Gemini をファインチューニングするための前提条件と詳細な手順について説明します。

ユースケース

オーディオ モデルのチューニングでは、そのモデルを特定のニーズに合わせて調整することでパフォーマンスの向上を図ることができます。このようなパフォーマンスの向上として、さまざまなアクセントに対する音声認識の改善、音楽ジャンル分類のファインチューニング、音声イベント検知の最適化、音声生成のカスタマイズ、騒音が多い環境への適応、音質の向上、音声エクスペリエンスのパーソナライズなどがあります。一般的な音声チューニングのユースケースを次に示します。

  • 音声アシスタントの機能強化:

    • 音声による食事注文: 食事のシームレスな注文と配達を実現する音声起動型システムを開発します。
  • 音声コンテンツの分析:

    • 自動音声文字変換: 騒音が多い環境でも音声を正確に文字に変換できます。
    • 音声の要約: ポッドキャストやオーディオブックの要点をまとめます。
    • 音楽の分類: ジャンルやムードなどの特徴に基づいて音楽を分類します。
  • ユーザー補助と支援技術:

    • リアルタイムの字幕作成: イベントやビデオ通話でリアルタイムの字幕を作成します。
    • 音声操作のアプリ: 全面的に音声のみで操作できるアプリを開発します。
    • 言語学習: 発音に関してパーソナライズしたフィードバックを提供するツールを作成します。

制限事項

  • サンプルあたりの音声の最大長: 10 分。
  • サンプルあたりの音声ファイルの最大数: 1。
  • 音声ファイルの最大サイズ: 20 MB。

音声サンプルの要件について詳しくは、音声の理解(音声のみ)のページをご覧ください。

データセットのフォーマット

画像データセットの例を次に示します。

汎用形式の例については、Gemini 1.5 Pro と Gemini 1.5 Flash のデータセットの例をご覧ください。

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    }, 
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

次のステップ