モデルに送信する呼び出しの一つひとつに、モデルがどのようにレスポンスを生成するかを制御するパラメータ値が含まれています。このモデルは、パラメータ値によって異なる結果を生成できます。さまざまなパラメータ値を試して、タスクに最適な値を取得します。使用可能なパラメータはモデルによって異なる場合があります。最も一般的なパラメータは次のとおりです。
- 最大出力トークン
- 温度
- Top-K
- Top-P
最大出力トークン
レスポンスで生成できるトークンの最大数。1 トークンは約 4 文字です。100 トークンは約 60~80 語に相当します。レスポンスを短くしたい場合は小さい値を、長くしたい場合は大きい値を指定します。
温度
温度は、レスポンス生成時のサンプリングに使用されます。レスポンス生成は、topP
と topK
が適用された場合に発生します。温度は、トークン選択のランダム性の度合いを制御します。温度が低いほど、確定的で自由度や創造性を抑えたレスポンスが求められるプロンプトに適しています。一方、温度が高いと、より多様で創造的な結果を導くことができます。温度が 0
の場合、確率が最も高いトークンが常に選択されます。この場合、特定のプロンプトに対するレスポンスはほとんど確定的ですが、わずかに変動する可能性は残ります。モデルが返すレスポンスが一般的すぎたり、短すぎたり、フォールバック(代替)レスポンスが返ってきたりする場合は、Temperature を高くしてみてください。
各モデルには独自の温度範囲とデフォルト温度値があります。
gemini-1.5-flash
の範囲:0.0 - 2.0
(デフォルト:1.0
)gemini-1.5-pro
の範囲:0.0 - 2.0
(デフォルト:1.0
)gemini-1.0-pro-vision
の範囲:0.0 - 1.0
(デフォルト:0.4
)gemini-1.0-pro-002
の範囲:0.0 - 2.0
(デフォルト:1.0
)gemini-1.0-pro-001
の範囲:0.0 - 1.0
(デフォルト:0.9
)
gemini-1.5-pro
と gemini-1.0-pro-002
の温度範囲が拡大されたことで、デフォルト値を超えてランダム性を大幅に増やすことができます。
Top-K
Top-K は、モデルが出力用にトークンを選択する方法を変更します。Top-K が1
の場合、次に選択されるトークンは、モデルの語彙内のすべてのトークンで最も確率の高いものであることになります(グリーディ デコードとも呼ばれます)。Top-K が 3
の場合は、最も確率が高い上位 3 つのトークンから次のトークン選択されることになります(温度を使用します)。トークン選択のそれぞれのステップで、最も高い確率を持つ Top-K のトークンがサンプリングされます。その後、トークンはトップ P に基づいてさらにフィルタリングされ、最終的なトークンは温度サンプリングを用いて選択されます。
ランダムなレスポンスを減らしたい場合は小さい値を、ランダムなレスポンスを増やしたい場合は大きい値を指定します。
Top-P
Top-P は、モデルが出力用にトークンを選択する方法を変更します。トークンは、確率の合計が Top-P 値に等しくなるまで、確率の高いもの(Top-K を参照)から低いものへと選択されます。たとえば、トークン A、B、C の確率が 0.3、0.2、0.1 であり、トップ P 値が0.5
であるとします。この場合、モデルは温度を使用して A または B を次のトークンとして選択し、C は候補から除外します。ランダムなレスポンスを減らしたい場合は小さい値を、ランダムなレスポンスを増やしたい場合は大きい値を指定します。
次のステップ
- プロンプト ギャラリーでプロンプトの例を確認する。
- Vertex AI プロンプト オプティマイザー(プレビュー版)を使用して、Google モデルで使用するようにプロンプトを最適化する方法を学習する。