このページでは、教師あり学習を使用して画像データで Gemini をファインチューニングするための前提条件と詳細な手順について説明します。
ユースケース
オーディオ モデルのチューニングでは、そのモデルを特定のニーズに合わせて調整することでパフォーマンスの向上を図ることができます。このようなパフォーマンスの向上として、さまざまなアクセントに対する音声認識の改善、音楽ジャンル分類のファインチューニング、音声イベント検知の最適化、音声生成のカスタマイズ、騒音が多い環境への適応、音質の向上、音声エクスペリエンスのパーソナライズなどがあります。一般的な音声チューニングのユースケースを次に示します。
音声アシスタントの機能強化:
- 音声による食事注文: 食事のシームレスな注文と配達を実現する音声起動型システムを開発します。
音声コンテンツの分析:
- 自動音声文字変換: 騒音が多い環境でも音声を正確に文字に変換できます。
- 音声の要約: ポッドキャストやオーディオブックの要点をまとめます。
- 音楽の分類: ジャンルやムードなどの特徴に基づいて音楽を分類します。
ユーザー補助と支援技術:
- リアルタイムの字幕作成: イベントやビデオ通話でリアルタイムの字幕を作成します。
- 音声操作のアプリ: 全面的に音声のみで操作できるアプリを開発します。
- 言語学習: 発音に関してパーソナライズしたフィードバックを提供するツールを作成します。
制限事項
- サンプルあたりの音声の最大長: 10 分。
- サンプルあたりの音声ファイルの最大数: 1。
- 音声ファイルの最大サイズ: 20 MB。
音声サンプルの要件について詳しくは、音声の理解(音声のみ)のページをご覧ください。
データセットのフォーマット
画像データセットの例を次に示します。
汎用形式の例については、Gemini 1.5 Pro と Gemini 1.5 Flash のデータセットの例をご覧ください。
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "audio/mpeg",
"fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
}
},
{
"text": "Please summarize the conversation in one sentence."
}
]
},
{
"role": "model",
"parts": [
{
"text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
}
]
}
]
}
次のステップ
- Gemini 音声理解モデルの詳細については、音声の理解(音声のみ)をご覧ください。
- チューニングを開始するには、教師ありファインチューニングを使用して Gemini モデルをチューニングするをご覧ください。
- 生成 AI ナレッジベースを構築するソリューションで教師ありファインチューニングを使用する方法については、ジャンプ スタート ソリューション: 生成 AI ナレッジベースをご覧ください。