Questa pagina è stata tradotta dall'API Cloud Translation.

Dettagli per le metriche gestite basate su rubrica

Questa pagina fornisce un elenco completo delle metriche gestite basate su rubriche offerte da Gen AI evaluation service, che puoi utilizzare nel client GenAI nell'SDK Vertex AI.

Per saperne di più sulla valutazione basata sui test, consulta Definisci le metriche di valutazione.

Panoramica

Il servizio di valutazione dell'AI generativa offre un elenco di metriche gestite basate su rubriche per il framework di valutazione basato sui test:

Per le metriche con rubriche adattive, la maggior parte include sia il flusso di lavoro per la generazione della rubrica per ogni prompt sia la convalida della rubrica. Puoi eseguirli separatamente, se necessario. Per i dettagli, vedi Eseguire una valutazione.
Per le metriche con rubriche statiche, non vengono generate rubriche per prompt. Per i dettagli sugli output previsti, vedi Dettagli delle metriche.

Ogni metrica gestita basata su griglia ha un numero di versione. La metrica utilizza l'ultima versione per impostazione predefinita, ma puoi bloccarla su una versione specifica, se necessario:

from vertexai import types

text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')

Compatibilità con le versioni precedenti

Per le metriche offerte come Modelli di prompt delle metriche, puoi comunque accedere alle metriche puntuali tramite il client GenAI nell'SDK Vertex AI con lo stesso approccio. Le metriche pairwise non sono supportate dal client GenAI nell'SDK Vertex AI, ma consulta Eseguire una valutazione per confrontare due modelli nella stessa valutazione.

from vertexai import types

# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY

Dettagli delle metriche gestite

Questa sezione elenca le metriche gestite con dettagli quali tipo, input richiesti e output previsto:

Qualità generale
Qualità del testo
Segui le istruzioni
Grounding
Sicurezza
Qualità generale multi-turno
Qualità del testo a più turni
Corrispondenza con la risposta finale dell'agente
Agent final response reference free

Qualità generale

Ultima versione	`general_quality_v1`
Tipo	Rubriche adattive
Descrizione	Una metrica di rubrica adattiva completa che valuta la qualità complessiva della risposta di un modello. Genera e valuta automaticamente un'ampia gamma di criteri in base ai contenuti del prompt. Questo è il punto di partenza consigliato per la maggior parte delle valutazioni.
Come accedere nell'SDK	`types.RubricMetric.GENERAL_QUALITY`
Input	`prompt` `response` (Facoltativo) `rubric_groups` Se hai già generato le rubriche, puoi fornirle direttamente per la valutazione.
Output	`score` `rubrics` e `verdicts` corrispondente Il punteggio rappresenta il tasso di superamento della risposta in base alle rubriche.
Numero di chiamate LLM	6 chiamate a Gemini 2.5 Flash

Qualità del testo

Ultima versione	`text_quality_v1`
Tipo	Rubriche adattive
Descrizione	Una metrica di rubriche adattive mirata che valuta in modo specifico la qualità linguistica della risposta. Valuta aspetti come la fluidità, la coerenza e la grammatica.
Come accedere nell'SDK	`types.RubricMetric.TEXT_QUALITY`
Input	`prompt` `response` (Facoltativo) `rubric_groups` Se hai già generato le rubriche, puoi fornirle direttamente per la valutazione.
Output	`score` `rubrics` e `verdicts` corrispondente Il punteggio rappresenta il tasso di superamento della risposta in base ai criteri di valutazione.
Numero di chiamate LLM	6 chiamate a Gemini 2.5 Flash

Secondo istruzioni

Ultima versione	`instruction_following_v1`
Tipo	Rubriche adattive
Descrizione	Una metrica delle griglie adattive mirata che misura il grado di aderenza della risposta ai vincoli e alle istruzioni specifici forniti nel prompt.
Come accedere nell'SDK	`types.RubricMetric.INSTRUCTION_FOLLOWING`
Input	`prompt` `response` (Facoltativo) `rubric_groups` Se hai già generato le rubriche, puoi fornirle direttamente per la valutazione.
Output	`score` (tasso di superamento) `rubrics` e `verdicts` corrispondente Il punteggio rappresenta il tasso di superamento della risposta in base ai criteri di valutazione.
Numero di chiamate LLM	6 chiamate a Gemini 2.5 Flash

Grounding

Ultima versione	`grounding_v1`
Tipo	Griglie statiche
Descrizione	Una metrica basata sul punteggio che verifica l'accuratezza e la coerenza. Verifica che la risposta del modello sia basata sul contesto.
Come accedere nell'SDK	`types.RubricMetric.GROUNDING`
Input	`prompt` `response` `context`
Output	`score` `explanation` Il punteggio ha un intervallo di `0-1` e rappresenta il tasso di richieste etichettate come `supported` o `no_rad` (che non richiedono attribuzioni fattuali, come saluti, domande o dichiarazioni di non responsabilità) al prompt di input. La spiegazione contiene raggruppamenti di frasi, etichette, ragionamenti ed estratti dal contesto.
Numero di chiamate LLM	1 chiamata a Gemini 2.5 Flash

Sicurezza

Ultima versione	`safety_v1`
Tipo	Griglie statiche
Descrizione	Una metrica basata sul punteggio che valuta se la risposta del modello ha violato una o più delle seguenti norme: Dati demografici e PII Incitamento all'odio Contenuti pericolosi Molestie Contenuti sessualmente espliciti
Come accedere nell'SDK	`types.RubricMetric.SAFETY`
Input	`prompt` `response`
Output	`score` `explanation` Per il punteggio, `0` non è sicuro e `1` è sicuro. Il campo della spiegazione include le norme violate.
Numero di chiamate LLM	10 chiamate a Gemini 2.5 Flash

Qualità generale della conversazione a più turni

Ultima versione	`multi_turn_general_quality_v1`
Tipo	Rubriche adattive
Descrizione	Una metrica di rubrica adattiva che valuta la qualità complessiva della risposta di un modello nel contesto di un dialogo multi-turno.
Come accedere nell'SDK	`types.RubricMetric.MULTI_TURN_GENERAL_QUALITY`
Input	`prompt` con conversazioni a più turni `response` (Facoltativo) `rubric_groups` Se hai già generato le rubriche, puoi fornirle direttamente per la valutazione.
Output	`score` rubriche e relativi esiti Il punteggio rappresenta il tasso di superamento della risposta in base ai criteri di valutazione.
Numero di chiamate LLM	6 chiamate a Gemini 2.5 Flash

Qualità del testo in più passaggi

Ultima versione	`multi_turn_text_quality_v1`
Tipo	Rubriche adattive
Descrizione	Una metrica di rubriche adattive che valuta la qualità del testo della risposta di un modello nel contesto di un dialogo multi-turno.
Come accedere nell'SDK	`types.RubricMetric.TEXT_QUALITY`
Input	`prompt` con conversazioni a più turni `response` (Facoltativo) `rubric_groups` Se hai già generato le rubriche, puoi fornirle direttamente per la valutazione.
Output	`score` `rubrics` e `verdicts` corrispondente Il punteggio rappresenta il tasso di superamento della risposta in base ai criteri di valutazione.
Numero di chiamate LLM	6 chiamate a Gemini 2.5 Flash

Corrispondenza della risposta finale dell'agente

Ultima versione	`final_response_match_v2`
Tipo	Griglie statiche
Descrizione	Una metrica che valuta la qualità della risposta finale di un agente AI confrontandola con una risposta di riferimento fornita (dati empirici reali).
Come accedere nell'SDK	`types.RubricMetric.FINAL_RESPONSE_MATCH`
Input	`prompt` `response` `reference`
Output	Punteggio 1: Risposta valida che corrisponde al riferimento. 0: Risposta non valida che non corrisponde al riferimento. Spiegazione
Numero di chiamate LLM	5 chiamate a Gemini 2.5 Flash

Riferimento alla risposta finale dell'agente gratuito

Ultima versione	`final_response_reference_free_v1`
Tipo	Rubriche adattive
Descrizione	Una metrica di rubriche adattive che valuta la qualità della risposta finale di un agente AI senza richiedere una risposta di riferimento. Devi fornire i criteri per questa metrica, in quanto non supporta i criteri generati automaticamente.
Come accedere nell'SDK	`types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE`
Input	`prompt` `response` `rubric_groups`
Output	`score` `rubrics` e `verdicts` corrispondente Il punteggio rappresenta il tasso di superamento della risposta in base ai criteri di valutazione.
Numero di chiamate LLM	5 chiamate a Gemini 2.5 Flash

Passaggi successivi

Prepara il set di dati di valutazione.