Gen AI Evaluation Service の概要

Vertex AI の Gen AI Evaluation Service を使用すると、生成モデルまたはアプリケーションを評価し、独自の評価基準に基づいて、独自の判断と照らし合わせて評価結果のベンチマークを実施できます。

リーダーボードとレポートではモデルの全般的なパフォーマンスについて分析情報を得られる一方、モデルが特定のニーズにどのように対処しているのかは明らかになりません。Gen AI Evaluation Service では、お客様が独自の評価基準を定義したうえで、生成 AI モデルとアプリケーションがお客様のユースケースにどの程度即したものであるかを明確に把握できます。

生成 AI の開発プロセスでは、モデルの選択、プロンプト エンジニアリング、モデルのカスタマイズを含めて、あらゆるステップで評価が重要な意味を持ちます。Vertex AI には生成 AI 評価機能が組み込まれているため、必要に応じて評価を実施し、再利用できます。

Gen AI Evaluation Service の機能

Gen AI Evaluation Service は、次のタスクに役立ちます。

  • モデルの選択: ベンチマークの結果や、お客様固有のデータに対するパフォーマンスに基づいて、タスクに応じた最適な事前トレーニング済みモデルを選択できます。

  • 生成設定: モデルのパラメータ(温度など)を微調整して、お客様のニーズに合わせて出力を最適化できます。

  • プロンプト エンジニアリング: 効果的なプロンプトとプロンプト テンプレートを作成して、希望する動作やレスポンスへとモデルを誘導できます。

  • 改善と安全対策のためのファインチューニング: モデルのファインチューニングによって、お客様のユースケースにおけるパフォーマンスを改善すると同時に、バイアスや望ましくない動作を防止できます。

  • RAG の最適化: 最も効果的な検索拡張生成(RAG)アーキテクチャを選択して、アプリケーションのパフォーマンスを強化できます。

  • 移行: AI ソリューションのパフォーマンスを継続的に評価し、お客様固有のユースケースで明確なメリットを得られる場合は新しいモデルに移行して、パフォーマンスを改善できます。

  • 翻訳(プレビュー版): モデルの翻訳の品質を評価します。

評価プロセス

Gen AI Evaluation Service では、次の手順に沿って、任意の生成 AI モデルまたはアプリケーションを評価基準に基づいて評価できます。

  1. 評価指標を定義する:

    • モデルベースの指標をビジネス基準に合わせて調整する方法を確認します。

    • 単一のモデルを評価する(ポイントワイズ)か、2 つのモデルを比較して勝者を決定します(ペアワイズ)。

    • 計算ベースの指標を追加して、より多くの分析情報を取得します。

  2. 評価データセットを準備する

    • 特定のユースケースを反映したデータセットを提供します。
  3. 評価を実行する

    • 最初から作成するか、テンプレートを使用するか、既存のサンプルを利用します。

    • 候補モデルを定義し、EvalTask を作成して、Vertex AI で評価ロジックを再利用します。

  4. 評価結果を表示して解釈する

ユースケース評価用のノートブック

次の表に、生成 AI 評価のさまざまなユースケース用の Vertex AI SDK for Python ノートブックを示します。

ユースケース 説明 ノートブックへのリンク
モデルを評価する クイックスタート: Gen AI Evaluation Service SDK の概要 Gen AI Evaluation Service SDK のスタートガイド
タスクのファースト パーティ(1P)基盤モデルを評価して選択します。 タスクのファースト パーティ(1P)基盤モデルを評価して選択する
Gen AI モデルの設定を評価して選択する:

要約タスクで Gemini モデルの温度、出力トークンの上限、安全性設定などのモデル生成構成を調整し、さまざまなモデル設定の評価結果を複数の指標で比較します。
Gemini のさまざまなモデル パラメータ設定を比較する
Vertex AI Model Garden でサードパーティ(3P)モデルを評価する。

このノートブックでは、Gen AI Evaluation Service SDK を使用して Google の Gemini モデルとサードパーティの言語モデルの両方を評価するための包括的なガイドを提供します。さまざまな評価指標と手法を使用して、オープンモデルとクローズドモデル、モデル エンドポイント、サードパーティ クライアント ライブラリなど、さまざまなソースのモデルを評価して比較する方法を学びます。さまざまなタスクで制御されたテストを実施し、モデルのパフォーマンスを分析する実践的な経験を積む。
Gen AI Evaluation Service SDK を使用して Vertex AI Studio、Model Garden、Model Registry でモデルを評価する
Gen AI Evaluation Service SDK を使用して、PaLM モデルから Gemini モデルに移行します。

このノートブックでは、複数の評価指標を使用して PaLM と Gemini の基盤モデルを評価し、モデル間の移行に関する意思決定をサポートする方法について説明します。これらの指標を可視化して、各モデルの長所と短所に関する分析情報を得ることで、ユースケースの特定の要件に最も適したモデルを十分な情報に基づいて選択できます。
PaLM モデルと Gemini モデルを比較して移行する
翻訳モデルを評価します。

このノートブックでは、Gen AI Evaluation Service 用の Vertex AI SDK を使用して、BLEU、MetricX、COMET を使用して大規模言語モデル(LLM)レスポンスを測定する方法について説明します。
翻訳モデルを評価する
プロンプト テンプレートを評価する Gen AI Evaluation Service SDK を使用したプロンプト エンジニアリングとプロンプト評価。 より良い結果を得るためにプロンプト テンプレートの設計を評価して最適化する
生成 AI アプリケーションを評価する Gemini モデルのツールの使用状況と関数呼び出し機能を評価します。 Gemini モデルツールの使用を評価する
Gen AI Evaluation Service SDK を使用して、質問応答タスクの検索拡張生成(RAG)から生成された回答を評価します。 検索拡張生成(RAG)から生成された回答を評価する
Vertex AI Gen AI 評価サービスを使用して LangChain チャットボットを評価する。

このノートブックでは、Vertex AI Gen AI Evaluation Service SDK を使用して LangChain 会話型 chatbot を評価する方法を示します。データの準備、LangChain チェーンの設定、カスタム評価指標の作成、結果の分析について説明します。このチュートリアルでは、レシピ候補 chatbot を例に、プロンプト設計を反復してパフォーマンスを改善する方法について説明します。
LangChain を評価する
指標のカスタマイズ 次の機能を使用して、モデルベースの指標をカスタマイズし、特定の基準に従って生成 AI モデルを評価します。

  • テンプレートによるカスタマイズ: 事前定義されたフィールドを使用して、ポイントワイズおよびペアワイズ モデルベースの指標を定義できます。
  • 完全なカスタマイズ: ポイントベースおよびペアワイズ モデルベースの指標の設計を完全に制御できます。
モデルベースの指標をカスタマイズして生成 AI モデルを評価する
ローカルで定義したカスタム指標を使用して生成 AI モデルを評価し、独自の判定モデルを使用してモデルベースの指標評価を実行します。 カスタム指標を使用した Bring-Your-Own-Autorater
独自の計算ベースのカスタム指標関数を定義し、Gen AI Evaluation Service SDK で評価に使用します。 独自の計算ベースのカスタム指標を利用する
その他のトピック Gen AI Evaluation Service SDK のプレビュー版から GA 版への移行ガイド。

このチュートリアルでは、Gen AI Evaluation Service 用の Vertex AI SDK for Python のプレビュー版から最新の GA 版への移行プロセスについて説明します。また、このガイドでは、GA バージョンの SDK を使用して検索拡張生成(RAG)を評価し、ペアワイズ評価を使用して 2 つのモデルを比較する方法についても説明します。
Gen AI Evaluation Service SDK のプレビュー版から GA 版への移行ガイド

サポートされているモデルと言語

Vertex AI Gen AI 評価サービスは、Google の基盤モデル、サードパーティのモデル、オープンモデルをサポートしています。事前に生成された予測をお客様が直接提供することや、次の方法で候補モデルのレスポンスを自動生成することもできます。

  • Google の基盤モデル(Gemini 1.5 Pro など)と Vertex AI Model Registry にデプロイされた任意のモデルのレスポンスを自動生成します。

  • 他のサードパーティやオープンモデルの SDK テキスト生成 API と統合します。

  • Vertex AI SDK を使用して、他のプロバイダのモデル エンドポイントをラップします。

Gemini モデルベースの指標の場合、Gen AI Evaluation Service は Gemini 1.5 Pro でサポートされているすべての入力言語をサポートしています。ただし、英語以外の入力に対する評価の品質は、英語の入力に対する評価の品質ほど高くない場合があります。

Gen AI Evaluation Service は、モデルベースの翻訳指標で次の言語をサポートしています。

MetricX

MetricX でサポートされている言語: アフリカーンス語、アルバニア語、アムハラ語、アラビア語、アルメニア語、アゼリー語、バスク語、ベラルーシ語、ベンガル語、ブルガリア語、ビルマ語、カタロニア語、セブアノ語、チチェワ語、中国語、コルシカ語、チェコ語、デンマーク語、オランダ語、英語、エスペラント語、エストニア語、フィリピン語、フィンランド語、フランス語、ガリシア語、グルジア語、ドイツ語、ギリシャ語、グジャラート語、ハイチ語クレオール語、ハウサ語、ハワイ語、ヘブライ語、ヒンディー語、モンゴル語、ハンガリー語、アイスランド語、イボ語、インドネシア語、アイルランド語、イタリア語、日本語、ジャワ語、カンナダ語、カザフ語、クメール語、韓国語、クルド語、キルギス語、ラオ語、ラテン語、ラトビア語、リトアニア語、ルクセンブルク語、マケドニア語、マダガスカル語、マレー語、マラヤーラム語、マルタ語、マオリ語、マラーティー語、モンゴル語、ネパール語、ノルウェー語、パシュトゥ語、ペルシア語、ポーランド語、ポルトガル語、パンジャブ語、ルーマニア語、ロシア語、サモア語、スコットランド ゲール語、セルビア語、ショナ語、シンド語、シンハラ語、スロバキア語、スロベニア語、ソマリ語、ソト語、スペイン語、スンダ語、スワヒリ語、スウェーデン語、タジク語、タミル語、テルグ語、タイ語、トルコ語、ウクライナ語、ウルドゥ語、ウズベク語、ベトナム語、ウェールズ語、西フリジア語、クワハ語、イディッシュ語、ヨルバ語、ズールー語。

COMET

COMET でサポートされている言語: アフリカーンス語、アルバニア語、アムハラ語、アラビア語、アルメニア語、アッサム語、アゼリー語、バスク語、ベラルーシ語、ベンガル語、ベンガル語(ローマ字)、ボスニア語、ブルトン語、ブルガリア語、ビルマ語、ビルマ語、カタロニア語、中国語(簡体字)、中国語(繁体字)、クロアチア語、チェコ語、デンマーク語、オランダ語、英語、エスペラント語、エストニア語、フィリピン語、フィンランド語、フランス語、ガリシア語、グルジア語、ドイツ語、ギリシャ語、グジャラート語、ハウサ語、ヘブライ語、ヒンディー語、ヒンディー語(ローマ字)、ハンガリー語、アイスランド語、インドネシア語、アイルランド語、イタリア語、日本語、ジャワ語、カンナダ語、カザフ語、クメール語、韓国語、クルド語(クルマンジー)、キルギス語、ラオ語、ラテン語、ラトビア語、リトアニア語、マケドニア語、マダガスカル語、マレー語、マラヤーラム語、マラーティー語、モンゴル語、ネパール語、ノルウェー語、オリヤー語、オロモ語、パシュトゥ語、ペルシア語、ポーランド語、ポルトガル語、パンジャブ語、ルーマニア語、ロシア語、サンスクリット語、スコットランド ゲール語、セルビア語、シンド語、シンハラ語、スロバキア語、スロベニア語、ソマリ語、スペイン語、スンダ語、スワヒリ語、スウェーデン語、タミル語、タミル語(ローマ字)、テルグ語、テルグ語(ローマ字)、タイ語、トルコ語、ウクライナ語、ウルドゥ語、ウルドゥ語(ローマ字)、ウイグル語、ウズベク語、ベトナム語、ウェールズ語、西フリジア語、クワハ語、イディッシュ語。

次のステップ