Panoramica del servizio di valutazione dell'IA generativa

Il servizio di valutazione dell'IA generativa in Vertex AI ti consente di valutare qualsiasi modello o applicazione generativa e di confrontare i risultati della valutazione in base al tuo giudizio, utilizzando i tuoi criteri di valutazione.

Sebbene le classifiche e i report offrano informazioni sul rendimento complessivo del modello, non rivelano in che modo un modello gestisce le tue esigenze specifiche. Il servizio di valutazione dell'IA generativa ti aiuta a definire i tuoi criteri di valutazione, garantendoti una chiara comprensione del grado di allineamento dei modelli e delle applicazioni di AI generativa al tuo caso d'uso specifico.

La valutazione è importante in ogni fase del processo di sviluppo dell'IA generativa, inclusa la selezione del modello, la progettazione dei prompt e la personalizzazione del modello. La valutazione dell'IA generativa è integrata in Vertex AI per aiutarti a lanciare e riutilizzare le valutazioni in base alle esigenze.

Funzionalità del servizio di valutazione dell'IA generativa

Il servizio di valutazione dell'AI generativa può aiutarti con le seguenti attività:

  • Selezione del modello: scegli il modello preaddestrato migliore per la tua attività in base ai risultati del benchmark e alle sue prestazioni sui tuoi dati specifici.

  • Impostazioni di generazione: modifica i parametri del modello (ad esempio la temperatura) per ottimizzare l'output in base alle tue esigenze.

  • Prompt engineering: crea prompt e modelli di prompt efficaci per indirizzare il modello verso il comportamento e le risposte che preferisci.

  • Migliora e salvaguarda il perfezionamento: perfeziona un modello per migliorare il rendimento per il tuo caso d'uso, evitando al contempo bias o comportamenti indesiderati.

  • Ottimizzazione RAG: seleziona l'architettura RAG (Retrieval Augmented Generation) più efficace per migliorare le prestazioni della tua applicazione.

  • Migrazione: valuta e migliora continuamente il rendimento della tua soluzione di AI eseguendo la migrazione a modelli più recenti, se offrono un vantaggio evidente per il tuo caso d'uso specifico.

  • Traduzione (anteprima): valuta la qualità delle traduzioni del modello.

Procedura di valutazione

Il servizio di valutazione dell'IA generativa ti consente di valutare qualsiasi modello o applicazione di IA generativa in base ai tuoi criteri di valutazione seguendo questi passaggi:

  1. Definire le metriche di valutazione:

    • Scopri come personalizzare le metriche basate su modelli in base ai criteri della tua attività.

    • Valutare un singolo modello (puntuale) o determinare il vincitore quando si confrontano due modelli (a coppie).

    • Includi le metriche basate su calcoli per ottenere ulteriori approfondimenti.

  2. Prepara il set di dati di valutazione.

    • Fornisci un set di dati che rifletta il tuo caso d'uso specifico.
  3. Esegui una valutazione.

    • Puoi iniziare da zero, utilizzare un modello o adattare esempi esistenti.

    • Definisci i modelli candidati e crea un EvalTask per riutilizzare la logica di valutazione tramite Vertex AI.

  4. Visualizza e interpreta i risultati della valutazione.

Notebooks per i casi d'uso di valutazione

La seguente tabella elenca i notebook Vertex AI SDK per Python per vari casi d'uso di valutazione dell'IA generativa:

Caso d'uso Descrizione Link ai blocchi note
Valutare i modelli Guida rapida: introduzione all'SDK del servizio di valutazione dell'IA generativa. Introduzione all'SDK del servizio di valutazione dell'IA generativa
Valuta e seleziona i modelli di base proprietari (proprietari) per la tua attività. Valutare e selezionare i modelli di base proprietari (proprietari) per l'attività
Valuta e seleziona le impostazioni del modello di IA generativa:

regola la temperatura, il limite di token di output, le impostazioni di sicurezza e altre configurazioni di generazione del modello dei modelli Gemini in un'attività di sintesi e confronta i risultati della valutazione di impostazioni del modello diverse su diverse metriche.
Confrontare diverse impostazioni dei parametri del modello per Gemini
Valutare i modelli di terze parti (3P) in Model Garden di Vertex AI.

Questo notebook fornisce una guida completa per la valutazione sia dei modelli Gemini di Google sia dei modelli linguistici di terze parti utilizzando l'SDK del servizio di valutazione dell'IA generativa. Scopri come valutare e confrontare modelli di origini diverse, inclusi modelli aperti e chiusi, endpoint dei modelli e librerie client di terze parti, utilizzando varie tecniche e metriche di valutazione. Acquisisci esperienza pratica nella conduzione di esperimenti controllati e nell'analisi del rendimento del modello in una serie di attività.
Utilizzare l'SDK del servizio di valutazione dell'IA generativa per valutare i modelli in Vertex AI Studio, Model Garden e Model Registry
Esegui la migrazione dal modello PaLM a Gemini con l'SDK del servizio di valutazione dell'IA generativa.

Questo notebook illustra la procedura per valutare i modelli di base PaLM e Gemini utilizzando più metriche di valutazione per supportare le decisioni relative alla migrazione da un modello all'altro. Visualizziamo queste metriche per ottenere informazioni sui punti di forza e di debolezza di ciascun modello, aiutandoti a prendere una decisione consapevole su quale è più in linea con i requisiti specifici del tuo caso d'uso.
Eseguire il confronto e la migrazione dal modello PaLM a quello Gemini
Valutare i modelli di traduzione.

Questo blocco note mostra come utilizzare l'SDK Vertex AI per il servizio di valutazione dell'IA generativa per misurare la qualità della traduzione delle risposte del tuo modello linguistico di grandi dimensioni (LLM) utilizzando BLEU, MetricX e COMET.
Valutare un modello di traduzione
Valutare i modelli di prompt Progettazione e valutazione dei prompt con l'SDK del servizio di valutazione dell'IA generativa. Valutare e ottimizzare il design del modello di prompt per ottenere risultati migliori
Valutare le applicazioni di AI generativa Valuta le funzionalità di chiamata di funzioni e di utilizzo dello strumento di modelli Gemini. Valutare l'utilizzo dello strumento di creazione di modelli Gemini
Valuta le risposte generate dalla Retrieval-Augmented Generation (RAG) per un'attività di risposta alle domande con l'SDK del servizio di valutazione dell'IA generativa. Valutare le risposte generate dalla Retrieval-Augmented Generation (RAG)
Valuta i chatbot LangChain con il servizio di valutazione dell'IA generativa di Vertex AI.

Questo blocco note mostra come valutare un chatbot conversazionale LangChain utilizzando l'SDK del servizio di valutazione dell'IA generativa di Vertex AI. Copre la preparazione dei dati, la configurazione della catena LangChain, la creazione di metriche di valutazione personalizzate e l'analisi dei risultati. Il tutorial utilizza un chatbot per suggerimenti di ricette come esempio e mostra come migliorarne il rendimento mediante l'iterazione sul design del prompt.
Valutare LangChain
Personalizzazione delle metriche Personalizza le metriche basate su modelli e valuta un modello di AI generativa in base a criteri specifici utilizzando le seguenti funzionalità:

  • Personalizzazione basata su modelli: utilizza i campi predefiniti per definire le metriche basate su modelli punto per punto e a coppie.
  • Personalizzazione completa: ottieni il controllo completo sul design delle metriche basate su modelli punto per punto e a coppie.
Personalizzare le metriche basate su modello per valutare un modello di IA generativa
Valuta i modelli di AI generativa con la metrica personalizzata definita localmente e utilizza il tuo modello di valutazione per eseguire la valutazione delle metriche basate su modelli. Bring-Your-Own-Autorater (Valutazione automatica di tua proprietà) con metrica personalizzata
Definisci le tue funzioni di metrica personalizzata basate su calcoli e utilizzale per la valutazione con l'SDK di Gen AI evaluation service. Utilizzare una metrica personalizzata basata su calcoli proprietari
Altri argomenti Guida alla migrazione dall'SDK di Gen AI evaluation service in anteprima alla versione GA.

Questo tutorial descrive la procedura di migrazione dalla versione Preview alla versione GA più recente dell'SDK Vertex AI per Python per il servizio di valutazione dell'IA generativa. La guida mostra anche come utilizzare l'SDK della versione GA per valutare la generazione basata sul recupero (RAG) e confrontare due modelli utilizzando la valutazione a coppie.
Guida alla migrazione dall'anteprima alla versione GA dell'SDK del servizio di valutazione dell'IA generativa

Modelli e lingue supportati

Il servizio di valutazione dell'IA generativa di Vertex AI supporta i modelli di base di Google, i modelli di terze parti e i modelli aperti. Puoi fornire direttamente le previsioni pregenerate o generare automaticamente le risposte del modello candidato nei seguenti modi:

  • Genera automaticamente risposte per i modelli di base di Google (come Gemini 1.5 Pro) e per qualsiasi modello di cui è stato eseguito il deployment nel Model Registry di Vertex AI.

  • Integrazione con API di generazione di testo dell'SDK di altri modelli aperti e di terze parti.

  • Avvolgi gli endpoint dei modelli di altri provider utilizzando l'SDK Vertex AI.

Per le metriche basate sul modello Gemini, il servizio di valutazione dell'IA generativa supporta tutte le lingue di input supportate da Gemini 1.5 Pro. Tuttavia, la qualità delle valutazioni per gli input in lingue diverse dall'inglese potrebbe non essere elevata quanto quella per gli input in inglese.

Il servizio di valutazione dell'IA generativa supporta i seguenti linguaggi per le metriche di traduzione basate su modelli:

MetricX

Lingue supportate per MetricX: arabo, albanese, amarico, armeno, azero, basco, bielorusso, bengalese, bulgaro, birmano, catalano, cebuano, ceco, chichewa, cinese, corso, croato, danese, esperanto, estone, filippino, finlandese, francese, gallese, georgiano, giapponese, greco, gujarati, creolo haitiano, hausa, hawaiano, ebraico, hindi, hmong, húngaro, islandese, irlandese, indonesiano, italiano, klingon, coreano, kurdo, kirghizo, latino, latvese, lituano, lussegno, macedone, malgascio, malayo, malayalam, maltese, maori, marathi, mongolo, nepalese, norvegese, pashto, persiano, polacco, portoghese, punjabi, rumeno, russo, samoano, scozzese gaelico, serbo, shona, sindhi, singalese, slovacco, sloveno, somalo, sotho, spagnolo, sundanese, swahili, svedese, tagiko, tamil, telugu, thai, turco, ucraino, urdu, uzbeko, vietnamita, gallese, fiammingo occidentale, xhosa, yiddish, yoruba, Zulu.

COMET

Lingue supportate per COMET: arabo, albanese, amarico, azerbaijano, basco, bengalese, bengalese romanizzato, bosniaco, bretone, bulgaro, burmese, catalano, cinese (semplificato), cinese (tradizionale), croato, ceco, danese, ebraico, Esperanto, estone, filippino, finlandese, francese, gallese, georgiano, giapponese, greco, Gujarati, Hausa, Hindi, Hindi romanizzato, hongkongese, irlandese, italiano, islandese, indonesiano, inglese, latino, lettone, lituano, macedone, malayo, malayalam, marathi, mongolo, nepalese, norvegese, oromo, orissa, pashto, persiano, polacco, portoghese, punjabi, rumeno, russo, sanskrito, scozzese, serbo, Sindhi, Sinhala, slovacco, sloveno, somalo, spagnolo, Sundanese, swahili, svedese, Tamil, Tamil romanizzato, Telugu, Telugu romanizzato, thailandese, turco, ucraino, urdu, Urdu romanizzato, uiguro, uzbeko, vietnamita, gallese, occidentale, frisone, xhosa, yiddish.

Passaggi successivi