Questa pagina fornisce un elenco completo delle metriche gestite basate su rubriche offerte da Gen AI evaluation service, che puoi utilizzare nel client GenAI nell'SDK Vertex AI.
Per saperne di più sulla valutazione basata sui test, consulta Definisci le metriche di valutazione.
Panoramica
Il servizio di valutazione dell'AI generativa offre un elenco di metriche gestite basate su rubriche per il framework di valutazione basato sui test:
Per le metriche con rubriche adattive, la maggior parte include sia il flusso di lavoro per la generazione della rubrica per ogni prompt sia la convalida della rubrica. Puoi eseguirli separatamente, se necessario. Per i dettagli, vedi Eseguire una valutazione.
Per le metriche con rubriche statiche, non vengono generate rubriche per prompt. Per i dettagli sugli output previsti, vedi Dettagli delle metriche.
Ogni metrica gestita basata su griglia ha un numero di versione. La metrica utilizza l'ultima versione per impostazione predefinita, ma puoi bloccarla su una versione specifica, se necessario:
from vertexai import types
text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')
Compatibilità con le versioni precedenti
Per le metriche offerte come Modelli di prompt delle metriche, puoi comunque accedere alle metriche puntuali tramite il client GenAI nell'SDK Vertex AI con lo stesso approccio. Le metriche pairwise non sono supportate dal client GenAI nell'SDK Vertex AI, ma consulta Eseguire una valutazione per confrontare due modelli nella stessa valutazione.
from vertexai import types
# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY
Dettagli delle metriche gestite
Questa sezione elenca le metriche gestite con dettagli quali tipo, input richiesti e output previsto:
- Qualità generale
- Qualità del testo
- Segui le istruzioni
- Grounding
- Sicurezza
- Qualità generale multi-turno
- Qualità del testo a più turni
- Corrispondenza della risposta finale dell'agente
- Agent final response reference free
Qualità generale
Ultima versione | general_quality_v1 |
Tipo | Rubriche adattive |
Descrizione | Una metrica di rubrica adattiva completa che valuta la qualità complessiva della risposta di un modello. Genera e valuta automaticamente un'ampia gamma di criteri in base ai contenuti del prompt. Questo è il punto di partenza consigliato per la maggior parte delle valutazioni. |
Come accedere nell'SDK | types.RubricMetric.GENERAL_QUALITY |
Input |
|
Output |
|
Numero di chiamate LLM | 6 chiamate a Gemini 2.5 Flash |
Qualità del testo
Ultima versione | text_quality_v1 |
Tipo | Rubriche adattive |
Descrizione | Una metrica di rubriche adattive mirata che valuta in modo specifico la qualità linguistica della risposta. Valuta aspetti come la fluidità, la coerenza e la grammatica. |
Come accedere nell'SDK | types.RubricMetric.TEXT_QUALITY |
Input |
|
Output |
|
Numero di chiamate LLM | 6 chiamate a Gemini 2.5 Flash |
Secondo istruzioni
Ultima versione | instruction_following_v1 |
Tipo | Rubriche adattive |
Descrizione | Una metrica delle rubriche adattive mirata che misura il grado di aderenza della risposta ai vincoli e alle istruzioni specifici forniti nel prompt. |
Come accedere nell'SDK | types.RubricMetric.INSTRUCTION_FOLLOWING |
Input |
|
Output |
|
Numero di chiamate LLM | 6 chiamate a Gemini 2.5 Flash |
Grounding
Ultima versione | grounding_v1 |
Tipo | Griglie statiche |
Descrizione | Una metrica basata sul punteggio che verifica l'accuratezza e la coerenza. Verifica che la risposta del modello sia basata sul contesto. |
Come accedere nell'SDK | types.RubricMetric.GROUNDING |
Input |
|
Output |
0-1 e rappresenta il tasso di richieste etichettate come supported o no_rad (che non richiedono attribuzioni fattuali, come saluti, domande o dichiarazioni di non responsabilità) al prompt di input.
La spiegazione contiene raggruppamenti di frasi, etichette, ragionamenti ed estratti dal contesto. |
Numero di chiamate LLM | 1 chiamata a Gemini 2.5 Flash |
Sicurezza
Ultima versione | safety_v1 |
Tipo | Griglie statiche |
Descrizione |
Una metrica basata sul punteggio che valuta se la risposta del modello ha violato una o più delle seguenti norme:
|
Come accedere nell'SDK | types.RubricMetric.SAFETY |
Input |
|
Output |
0 non è sicuro e 1 è sicuro.
Il campo della spiegazione include le norme violate. |
Numero di chiamate LLM | 10 chiamate a Gemini 2.5 Flash |
Qualità generale della conversazione a più turni
Ultima versione | multi_turn_general_quality_v1 |
Tipo | Rubriche adattive |
Descrizione | Una metrica di rubrica adattiva che valuta la qualità complessiva della risposta di un modello nel contesto di un dialogo multi-turno. |
Come accedere nell'SDK | types.RubricMetric.MULTI_TURN_GENERAL_QUALITY |
Input |
|
Output |
|
Numero di chiamate LLM | 6 chiamate a Gemini 2.5 Flash |
Qualità del testo in più passaggi
Ultima versione | multi_turn_text_quality_v1 |
Tipo | Rubriche adattive |
Descrizione | Una metrica di rubriche adattive che valuta la qualità del testo della risposta di un modello nel contesto di un dialogo multi-turno. |
Come accedere nell'SDK | types.RubricMetric.TEXT_QUALITY |
Input |
|
Output |
|
Numero di chiamate LLM | 6 chiamate a Gemini 2.5 Flash |
Corrispondenza della risposta finale dell'agente
Ultima versione | final_response_match_v2 |
Tipo | Griglie statiche |
Descrizione | Una metrica che valuta la qualità della risposta finale di un agente AI confrontandola con una risposta di riferimento fornita (dati empirici reali). |
Come accedere nell'SDK | types.RubricMetric.FINAL_RESPONSE_MATCH |
Input |
|
Output |
Punteggio
|
Numero di chiamate LLM | 5 chiamate a Gemini 2.5 Flash |
Riferimento alla risposta finale dell'agente gratuito
Ultima versione | final_response_reference_free_v1 |
Tipo | Rubriche adattive |
Descrizione | Una metrica di rubriche adattive che valuta la qualità della risposta finale di un agente AI senza richiedere una risposta di riferimento.
Devi fornire i criteri per questa metrica, in quanto non supporta i criteri generati automaticamente. |
Come accedere nell'SDK | types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE |
Input |
|
Output |
|
Numero di chiamate LLM | 5 chiamate a Gemini 2.5 Flash |