Panoramica del servizio di valutazione dell'IA generativa

Gen AI evaluation service in Vertex AI ti consente di valutare qualsiasi modello o applicazione generativa e confrontare i risultati della valutazione in base al tuo giudizio, utilizzando i tuoi criteri di valutazione.

Anche se le classifiche e i report offrono approfondimenti sul rendimento complessivo del modello, non rivelano come un modello gestisce le tue esigenze specifiche. Gen AI evaluation service ti aiuta a definire i tuoi criteri di valutazione, garantendo una chiara comprensione di quanto i modelli e le applicazioni di AI generativa siano in linea con il tuo caso d'uso unico.

La valutazione è importante in ogni fase del processo di sviluppo dell'AI generativa, inclusi la selezione del modello, l'ingegneria dei prompt e la personalizzazione del modello. La valutazione dell'AI generativa è integrata in Vertex AI per aiutarti a eseguire il lancio e il riutilizzo delle valutazioni in base alle tue esigenze.

Funzionalità di Gen AI evaluation service

Gen AI evaluation service può aiutarti con le seguenti attività:

  • Selezione del modello: scegli il modello preaddestrato migliore per la tua attività in base ai risultati del benchmark e alle sue prestazioni sui tuoi dati specifici.

  • Impostazioni di generazione: modifica i parametri del modello (come la temperatura) per ottimizzare l'output in base alle tue esigenze.

  • Prompt engineering: crea prompt e modelli di prompt efficaci per guidare il modello verso il comportamento e le risposte che preferisci.

  • Migliorare e salvaguardare il perfezionamento: perfeziona un modello per migliorare le prestazioni per il tuo caso d'uso, evitando pregiudizi o comportamenti indesiderati.

  • Ottimizzazione RAG: seleziona l'architettura RAG (Retrieval Augmented Generation) più efficace per migliorare le prestazioni della tua applicazione.

  • Migrazione: valuta e migliora continuamente il rendimento della tua soluzione di AI eseguendo la migrazione a modelli più recenti quando offrono un vantaggio evidente per il tuo caso d'uso specifico.

  • Traduzione (anteprima): valuta la qualità delle traduzioni del modello.

  • Valuta gli agenti: valuta il rendimento dei tuoi agenti utilizzando il servizio di valutazione dell'AI generativa.

Procedura di valutazione

Gen AI evaluation service ti consente di valutare qualsiasi modello o applicazione di AI generativa in base ai tuoi criteri di valutazione seguendo questi passaggi:

  1. Definisci le metriche di valutazione:

    • Scopri come personalizzare le metriche basate sul modello in base ai criteri della tua attività.

    • Valuta un singolo modello (puntuale) o determina il vincitore quando confronti due modelli (a coppie).

    • Includi metriche basate sul calcolo per ulteriori approfondimenti.

  2. Prepara il set di dati di valutazione.

    • Fornisci un set di dati che rifletta il tuo caso d'uso specifico.
  3. Esegui una valutazione.

    • Inizia da zero, utilizza un modello o adatta esempi esistenti.

    • Definisci i modelli candidati e crea un EvalTask per riutilizzare la logica di valutazione tramite Vertex AI.

  4. Visualizza e interpreta i risultati della valutazione.

  5. (Facoltativo) Valuta e migliora la qualità del modello di valutazione:

  6. (Facoltativo) Valuta gli agenti di AI generativa.

Notebooks per i casi d'uso di valutazione

La seguente tabella elenca i notebook dell'SDK Vertex AI per Python per vari casi d'uso di valutazione dell'IA generativa:

Caso d'uso Descrizione Link ai notebook
Valuta i modelli Guida rapida: introduzione all'SDK del servizio di valutazione dell'AI generativa. Guida introduttiva all'SDK del servizio di valutazione Gen AI
Valuta e seleziona i foundation model proprietari (1P) per la tua attività. Valutare e selezionare i foundation model proprietari (1P) per l'attività
Valuta e seleziona le impostazioni del modello di AI generativa:

regola la temperatura, il limite di token di output, le impostazioni di sicurezza e altre configurazioni di generazione del modello dei modelli Gemini in un'attività di riepilogo e confronta i risultati della valutazione di diverse impostazioni del modello in base a diverse metriche.
Confrontare diverse impostazioni dei parametri del modello per Gemini
Valuta i modelli di terze parti (3P) in Model Garden di Vertex AI.

Questo notebook fornisce una guida completa per valutare sia i modelli Gemini di Google sia i modelli linguistici di terze parti utilizzando l'SDK Gen AI evaluation service. Scopri come valutare e confrontare modelli di origini diverse, inclusi modelli aperti e chiusi, endpoint dei modelli e librerie client di terze parti utilizzando varie tecniche e metriche di valutazione. Acquisire esperienza pratica nella conduzione di esperimenti controllati e nell'analisi delle prestazioni del modello in una serie di attività.
Utilizza l'SDK del servizio di valutazione Gen AI per valutare i modelli in Vertex AI Studio, Model Garden e Model Registry
Esegui la migrazione dal modello PaLM al modello Gemini con l'SDK Gen AI evaluation service.

Questo blocco note ti guida nella valutazione dei modelli di base PaLM e Gemini utilizzando più metriche di valutazione per supportare le decisioni relative alla migrazione da un modello all'altro. Visualizziamo queste metriche per ottenere informazioni dettagliate sui punti di forza e di debolezza di ogni modello, aiutandoti a prendere una decisione informata su quale si allinea meglio ai requisiti specifici del tuo caso d'uso.
Confrontare ed eseguire la migrazione dal modello PaLM a Gemini
Valuta i modelli di traduzione.

Questo blocco note mostra come utilizzare l'SDK Vertex AI per il servizio di valutazione Gen AI per misurare la qualità della traduzione delle risposte del modello linguistico di grandi dimensioni (LLM) utilizzando BLEU, MetricX e COMET.
Valutare un modello di traduzione
Valutare i modelli di prompt Prompt engineering e valutazione dei prompt con l'SDK Gen AI evaluation service. Valutare e ottimizzare la progettazione dei modelli di prompt per ottenere risultati migliori
Valutare le applicazioni di AI generativa Valuta l'utilizzo degli strumenti e le funzionalità di chiamata di funzione del modello Gemini. Valutare l'utilizzo dello strumento Modello Gemini
Valuta le risposte generate dalla Retrieval-Augmented Generation (RAG) per un'attività di risposta alle domande con l'SDK Gen AI evaluation service. Valutare le risposte generate dalla Retrieval Augmented Generation (RAG)
Valuta i chatbot LangChain con Gen AI evaluation service di Vertex AI.

Questo notebook mostra come valutare un chatbot conversazionale LangChain utilizzando l'SDK del servizio di valutazione GenAI di Vertex AI. Vengono trattati la preparazione dei dati, la configurazione della catena LangChain, la creazione di metriche di valutazione personalizzate e l'analisi dei risultati. Il tutorial utilizza come esempio un chatbot di suggerimenti di ricette e mostra come migliorarne il rendimento iterando la progettazione del prompt.
Valutare LangChain
Valutare gli agenti di AI generativa Valuta un agente creato con framework di agenti come LangGraph e CrewAI.
Utilizza Gen AI evaluation service e Vertex AI Agent Engine per valutare gli agenti creati utilizzando i framework degli agenti.
Personalizzazione delle metriche Personalizza le metriche basate sul modello e valuta un modello di AI generativa in base ai tuoi criteri specifici utilizzando le seguenti funzionalità:

  • Personalizzazione basata su modelli: utilizza campi predefiniti per definire le metriche basate su modelli puntuali e a coppie.
  • Personalizzazione completa: ottieni il controllo completo sulla progettazione delle metriche basate su modelli pointwise e pairwise.
Personalizzare le metriche basate sul modello per valutare un modello di AI generativa
Valuta i modelli di AI generativa con la metrica personalizzata definita localmente e porta il tuo modello di valutazione per eseguire la valutazione delle metriche basata sul modello. Bring-Your-Own-Autorater utilizzando la metrica personalizzata
Definisci le tue funzioni di metrica personalizzata basate sul calcolo e utilizzale per la valutazione con l'SDK Gen AI evaluation service. Utilizzare una metrica personalizzata basata sul calcolo
Altri argomenti Guida alla migrazione dalla versione di anteprima alla versione GA dell'SDK Gen AI evaluation service.

Questo tutorial ti guida nel processo di migrazione dalla versione di anteprima alla versione GA più recente dell'SDK Vertex AI per Python per Gen AI evaluation service. La guida mostra anche come utilizzare l'SDK della versione GA per valutare la generazione aumentata dal recupero (RAG) e confrontare due modelli utilizzando la valutazione a coppie.
Guida alla migrazione dalla preview all'GA dell'SDK del servizio di valutazione dell'AI generativa

Modelli e lingue supportati

Il servizio di valutazione dell'AI generativa di Vertex AI supporta i modelli di base di Google, i modelli di terze parti e i modelli aperti. Puoi fornire previsioni pregenerate direttamente o generare automaticamente risposte del modello candidato nei seguenti modi:

  • Genera automaticamente risposte per i foundation model di Google (come Gemini 2.0 Flash) e per qualsiasi modello di cui è stato eseguito il deployment in Vertex AI Model Registry.

  • Integrare le API di generazione di testo dell'SDK di altri modelli di terze parti e open source.

  • Esegui il wrapping degli endpoint del modello di altri fornitori utilizzando l'SDK Vertex AI.

Per le metriche basate sul modello Gemini, Gen AI evaluation service supporta tutte le lingue di input supportate da Gemini 2.0 Flash. Tuttavia, la qualità delle valutazioni per gli input non in inglese potrebbe non essere elevata come quella per gli input in inglese.

Gen AI evaluation service supporta le seguenti lingue per le metriche di traduzione basate su modelli:

MetricX

Lingue supportate per MetricX: afrikaans, albanese, amarico, arabo, armeno, azero, basco, bielorusso, bengalese, bulgaro, birmano, catalano, cebuano, chichewa, cinese, corso, ceco, danese, olandese, inglese, esperanto, estone, filippino, finlandese, francese, galiziano, georgiano, tedesco, greco, gujarati, creolo haitiano, hausa, hawaiano, ebraico, hindi, hmong, ungherese, islandese, igbo, indonesiano, irlandese, italiano, giapponese, giavanese, kannada, kazako, khmer, coreano, curdo, kirghiso, lao, latino, lettone, lituano, lussemburghese, macedone, malgascio, malese, malayalam, maltese, maori, marathi, mongolo, nepalese, norvegese, pashto, persiano, polacco, portoghese, punjabi, rumeno, russo, samoano, gaelico scozzese, serbo, shona, sindhi, singalese, slovacco, sloveno, somalo, sotho, spagnolo, sundanese, swahili, svedese, tagiko, tamil, telugu, tailandese, turco, ucraino, urdu, uzbeko, vietnamita, gallese, frisone occidentale, xhosa, yiddish, yoruba, zulu.

COMET

Lingue supportate per COMET: afrikaans, albanese, amarico, arabo, armeno, assamese, azero, basco, bielorusso, bengalese, bengalese romanizzato, bosniaco, bretone, bulgaro, birmano, birmano, catalano, cinese (semplificato), cinese (tradizionale), croato, ceco, danese, olandese, inglese, esperanto, estone, filippino, finlandese, francese, galiziano, georgiano, tedesco, greco, gujarati, hausa, ebraico, hindi, hindi romanizzato, ungherese, islandese, indonesiano, irlandese, italiano, giapponese, giavanese, kannada, kazako, khmer, coreano, curdo (kurmanji), kirghiso, lao, latino, lettone, lituano, macedone, malgascio, malese, malayalam, marathi, mongolo, nepalese, norvegese, oriya, oromo, pashto, persiano, polacco, portoghese, punjabi, rumeno, russo, sanscrito, scozzese, gaelico, serbo, sindhi, singalese, slovacco, sloveno, somalo, spagnolo, sundanese, swahili, svedese, tamil, tamil romanizzato, telugu, telugu romanizzato, thailandese, turco, ucraino, urdu, urdu romanizzato, uiguro, uzbeko, vietnamita, gallese, frisone occidentale, xhosa, yiddish.

Passaggi successivi