Ringkasan layanan evaluasi AI Generatif

Layanan evaluasi AI generatif di Vertex AI memungkinkan Anda mengevaluasi model atau aplikasi generatif apa pun dan membandingkan hasil evaluasi dengan penilaian Anda sendiri, menggunakan kriteria evaluasi Anda sendiri.

Meskipun papan peringkat dan laporan memberikan insight tentang performa model secara keseluruhan, keduanya tidak mengungkapkan cara model menangani kebutuhan spesifik Anda. Layanan evaluasi AI generatif membantu Anda menentukan kriteria evaluasi sendiri, sehingga memastikan pemahaman yang jelas tentang seberapa baik model dan aplikasi AI generatif sesuai dengan kasus penggunaan unik Anda.

Evaluasi penting di setiap langkah proses pengembangan AI Generatif Anda, termasuk pemilihan model, teknik pembuatan perintah, dan penyesuaian model. Evaluasi AI generatif terintegrasi dalam Vertex AI untuk membantu Anda meluncurkan dan menggunakan kembali evaluasi sesuai kebutuhan.

Kemampuan layanan evaluasi AI generatif

Layanan evaluasi AI Generatif dapat membantu Anda melakukan tugas berikut:

  • Pemilihan model: Pilih model terlatih terbaik untuk tugas Anda berdasarkan hasil tolok ukur dan performanya pada data spesifik Anda.

  • Setelan pembuatan: Sesuaikan parameter model (seperti suhu) untuk mengoptimalkan output sesuai kebutuhan Anda.

  • Rekayasa perintah: Buat perintah dan template perintah yang efektif untuk memandu model agar menghasilkan perilaku dan respons yang Anda inginkan.

  • Meningkatkan dan mengamankan penyesuaian: Sesuaikan model untuk meningkatkan performa kasus penggunaan Anda, sekaligus menghindari bias atau perilaku yang tidak diinginkan.

  • Pengoptimalan RAG: Pilih arsitektur Retrieval Augmented Generation (RAG) yang paling efektif untuk meningkatkan performa aplikasi Anda.

  • Migrasi: Terus menilai dan meningkatkan performa solusi AI Anda dengan bermigrasi ke model yang lebih baru jika model tersebut memberikan keunggulan yang jelas untuk kasus penggunaan spesifik Anda.

  • Terjemahan (pratinjau): Menilai kualitas terjemahan model Anda.

  • Mengevaluasi agen: Mengevaluasi performa agen Anda menggunakan layanan evaluasi AI generatif.

Proses evaluasi

Layanan evaluasi AI generatif memungkinkan Anda mengevaluasi model atau aplikasi AI generatif apa pun berdasarkan kriteria evaluasi Anda dengan mengikuti langkah-langkah berikut:

  1. Tentukan metrik evaluasi:

    • Pelajari cara menyesuaikan metrik berbasis model dengan kriteria bisnis Anda.

    • Mengevaluasi satu model (pointwise) atau menentukan model terbaik saat membandingkan 2 model (pairwise).

    • Sertakan metrik berbasis komputasi untuk mendapatkan insight tambahan.

  2. Siapkan set data evaluasi Anda.

    • Berikan set data yang mencerminkan kasus penggunaan spesifik Anda.
  3. Jalankan evaluasi.

    • Mulai dari awal, gunakan template, atau sesuaikan contoh yang ada.

    • Tentukan model kandidat dan buat EvalTask untuk menggunakan kembali logika evaluasi Anda melalui Vertex AI.

  4. Lihat dan tafsirkan hasil evaluasi Anda.

  5. (Opsional) Mengevaluasi dan meningkatkan kualitas model hakim:

  6. (Opsional) Evaluasi agen AI generatif.

Notebook untuk kasus penggunaan evaluasi

Tabel berikut mencantumkan notebook Vertex AI SDK untuk Python untuk berbagai kasus penggunaan evaluasi AI generatif:

Kasus penggunaan Deskripsi Link ke notebook
Mengevaluasi model Panduan memulai: Pengantar SDK layanan evaluasi Gen AI. Mulai Menggunakan SDK layanan evaluasi Gen AI
Evaluasi dan pilih model dasar pihak pertama (1P) untuk tugas Anda. Mengevaluasi dan memilih model dasar pihak pertama (1P) untuk tugas Anda
Mengevaluasi dan memilih setelan model AI Generatif:

Sesuaikan temperatur, batas token output, setelan keamanan, dan konfigurasi pembuatan model lainnya dari model Gemini pada tugas meringkas dan bandingkan hasil evaluasi dari berbagai setelan model pada beberapa metrik.
Membandingkan berbagai setelan parameter model untuk Gemini
Mengevaluasi model pihak ketiga (3P) di Vertex AI Model Garden.

Notebook ini memberikan panduan komprehensif untuk mengevaluasi model Gemini Google dan model bahasa pihak ketiga menggunakan SDK layanan evaluasi Gen AI. Pelajari cara menilai dan membandingkan model dari berbagai sumber, termasuk model terbuka dan tertutup, endpoint model, dan library klien pihak ketiga menggunakan berbagai metrik dan teknik evaluasi. Mendapatkan pengalaman praktis dalam melakukan eksperimen terkontrol dan menganalisis performa model di berbagai tugas.
Menggunakan SDK layanan evaluasi AI generatif untuk Mengevaluasi Model di Vertex AI Studio, Model Garden, dan Model Registry
Bermigrasi dari model PaLM ke Gemini dengan SDK layanan evaluasi AI generatif.

Notebook ini memandu Anda mengevaluasi model dasar PaLM dan Gemini menggunakan beberapa metrik evaluasi untuk mendukung keputusan terkait migrasi dari satu model ke model lainnya. Kami memvisualisasikan metrik ini untuk mendapatkan insight tentang kelebihan dan kekurangan setiap model, sehingga membantu Anda membuat keputusan yang tepat tentang model mana yang paling sesuai dengan persyaratan spesifik kasus penggunaan Anda.
Membandingkan dan melakukan migrasi dari model PaLM ke Gemini
Mengevaluasi model terjemahan.

Notebook ini menunjukkan cara menggunakan Vertex AI SDK untuk layanan evaluasi Gen AI guna mengukur kualitas terjemahan respons model bahasa besar (LLM) Anda menggunakan BLEU, MetricX, dan COMET.
Mengevaluasi model terjemahan
Mengevaluasi template perintah Rekayasa perintah dan evaluasi perintah dengan SDK layanan evaluasi AI generatif. Mengevaluasi dan Mengoptimalkan Desain Template Perintah untuk Hasil yang Lebih Baik
Mengevaluasi aplikasi AI generatif Mengevaluasi penggunaan alat model Gemini dan kemampuan panggilan fungsi. Mengevaluasi Penggunaan Alat Model Gemini
Mengevaluasi jawaban yang dihasilkan dari Retrieval-Augmented Generation (RAG) untuk tugas menjawab pertanyaan dengan SDK layanan evaluasi AI generatif. Mengevaluasi Jawaban yang Dibuat dari Retrieval-Augmented Generation (RAG)
Mengevaluasi chatbot LangChain dengan layanan evaluasi AI generatif Vertex AI.

Notebook ini menunjukkan cara mengevaluasi chatbot percakapan LangChain menggunakan SDK layanan evaluasi Gen AI Vertex AI. Notebook ini mencakup penyiapan data, penyiapan rantai LangChain, pembuatan metrik evaluasi kustom, dan analisis hasil. Tutorial ini menggunakan chatbot saran resep sebagai contoh dan menunjukkan cara meningkatkan performanya dengan melakukan iterasi pada desain perintah.
Mengevaluasi LangChain
Mengevaluasi agen AI Generatif Mengevaluasi agen yang dibuat dengan framework agen seperti LangGraph dan CrewAI.
Gunakan layanan evaluasi AI generatif dan Vertex AI Agent Engine untuk mengevaluasi agen yang dibangun menggunakan framework agen.
Penyesuaian metrik Sesuaikan metrik berbasis model dan evaluasi model AI generatif sesuai dengan kriteria spesifik Anda menggunakan fitur berikut:

  • Penyesuaian berbasis template: Gunakan kolom standar untuk membantu menentukan metrik berbasis model pointwise dan pairwise Anda.
  • Penyesuaian penuh: Dapatkan kontrol penuh atas desain metrik berbasis model pointwise dan pairwise Anda.
Menyesuaikan Metrik Berbasis Model untuk mengevaluasi model AI Generatif
Evaluasi model AI generatif dengan metrik kustom yang ditentukan secara lokal, dan bawa model penilai Anda sendiri untuk melakukan evaluasi metrik berbasis model. Bring-Your-Own-Autorater menggunakan Metrik Kustom
Tentukan fungsi metrik kustom berbasis komputasi Anda sendiri, dan gunakan untuk evaluasi dengan SDK layanan evaluasi AI Generatif. Membawa Metrik Kustom berbasis komputasi Anda sendiri
Topik lainnya Panduan Migrasi SDK Layanan Evaluasi AI Generatif dari Pratinjau ke GA.

Tutorial ini memandu Anda melalui proses migrasi dari versi Pratinjau ke versi GA terbaru Vertex AI SDK untuk Python untuk layanan evaluasi AI generatif. Panduan ini juga menunjukkan cara menggunakan SDK versi GA untuk mengevaluasi Retrieval-Augmented Generation (RAG) dan membandingkan dua model menggunakan evaluasi berpasangan.
Panduan Migrasi Pratinjau ke GA untuk SDK layanan evaluasi AI generatif

Model dan bahasa yang didukung

Layanan evaluasi AI generatif Vertex AI mendukung model dasar Google, model pihak ketiga, dan model terbuka. Anda dapat memberikan prediksi yang dihasilkan sebelumnya secara langsung, atau membuat respons model kandidat secara otomatis dengan cara berikut:

  • Menghasilkan respons secara otomatis untuk model dasar Google (seperti Gemini 2.0 Flash) dan model apa pun yang di-deploy di Vertex AI Model Registry.

  • Melakukan integrasi dengan API pembuatan teks SDK dari model terbuka dan pihak ketiga lainnya.

  • Menggabungkan endpoint model dari penyedia lain menggunakan Vertex AI SDK.

Untuk metrik berbasis model Gemini, layanan evaluasi AI Generatif mendukung semua bahasa input yang didukung oleh Gemini 2.0 Flash. Namun, kualitas evaluasi untuk input non-Inggris mungkin tidak setinggi kualitas untuk input dalam bahasa Inggris.

Layanan evaluasi AI Generatif mendukung bahasa berikut untuk metrik terjemahan berbasis model:

MetricX

Bahasa yang didukung untuk MetricX: Afrikaans, Albania, Amharik, Arab, Armenia, Azerbaijan, Basque, Belarusia, Bengali, Bulgaria, Burma, Catalan, Cebuano, Chichewa, China, Korsika, Ceko, Denmark, Belanda, Inggris, Esperanto, Estonia, Filipina, Finlandia, Prancis, Galicia, Georgia, Jerman, Yunani, Gujarati, Haiti, Hausa, Hawaii, Ibrani, Hindi, Hmong, Hungaria, Islandia, Igbo, Indonesia, Irlandia, Italia, Jepang, Jawa, Kannada, Kazakh, Khmer, Korea, Kurdi, Kirgiz, Laos, Latin, Latvia, Lituania, Luksemburg, Makedonia, Malagasi, Melayu, Malayalam, Malta, Maori, Marathi, Mongolia, Nepal, Norwegia, Pashto, Persia, Polandia, Portugis, Punjabi, Rumania, Rusia, Samoa, Gaelik Skotlandia, Serbia, Shona, Sindhi, Sinhala, Slovakia, Slovenia, Somalia, Sotho, Spanyol, Sunda, Swahili, Swedia, Tajik, Tamil, Telugu, Thailand, Turkiye, Ukraina, Urdu, Uzbekistan, Vietnam, Wales, Frisia Barat, Xhosa, Yiddish, Yoruba, Zulu.

COMET

Bahasa yang didukung untuk COMET: Afrikaans, Albania, Amharik, Arab, Armenia, Assam, Azerbaijan, Basque, Belarusia, Bengali, Bengali Romanisasi, Bosnia, Breton, Bulgaria, Burma, Burma, Katalan, China (Sederhana), China (Tradisional), Kroasia, Ceko, Denmark, Belanda, Inggris, Esperanto, Estonia, Filipina, Finlandia, Prancis, Galisia, Georgia, Jerman, Yunani, Gujarati, Hausa, Ibrani, Hindi, Hindi Romanisasi, Hungaria, Islandia, Indonesia, Irlandia, Italia, Jepang, Jawa, Kannada, Kazakh, Khmer, Korea, Kurdi (Kurmanji), Kirgiz, Laos, Latin, Latvia, Lituania, Makedonia, Malagasi, Melayu, Malayalam, Marathi, Mongolia, Nepal, Norwegia, Oriya, Oromo, Pashto, Persia, Polandia, Portugis, Punjabi, Rumania, Rusia, Sanskerta, Skotlandia, Gaelik, Serbia, Sindhi, Sinhala, Slovakia, Slovenia, Somalia, Spanyol, Sunda, Swahili, Swedia, Tamil, Tamil Romanisasi, Telugu, Telugu Romanisasi, Thai, Turkiye, Ukraina, Urdu, Urdu Romanisasi, Uighur, Uzbekistan, Vietnam, Welsh, Frisia Barat, Xhosa, Yiddish.

Langkah berikutnya