Dettagli per le metriche gestite basate su rubrica

Questa pagina fornisce un elenco completo delle metriche gestite basate su rubriche offerte da Gen AI evaluation service, che puoi utilizzare nel client GenAI nell'SDK Vertex AI.

Per saperne di più sulla valutazione basata sui test, consulta Definisci le metriche di valutazione.

Panoramica

Il servizio di valutazione dell'AI generativa offre un elenco di metriche gestite basate su rubriche per il framework di valutazione basato sui test:

  • Per le metriche con rubriche adattive, la maggior parte include sia il flusso di lavoro per la generazione della rubrica per ogni prompt sia la convalida della rubrica. Puoi eseguirli separatamente, se necessario. Per i dettagli, vedi Eseguire una valutazione.

  • Per le metriche con rubriche statiche, non vengono generate rubriche per prompt. Per i dettagli sugli output previsti, vedi Dettagli delle metriche.

Ogni metrica gestita basata su griglia ha un numero di versione. La metrica utilizza l'ultima versione per impostazione predefinita, ma puoi bloccarla su una versione specifica, se necessario:

from vertexai import types

text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')

Compatibilità con le versioni precedenti

Per le metriche offerte come Modelli di prompt delle metriche, puoi comunque accedere alle metriche puntuali tramite il client GenAI nell'SDK Vertex AI con lo stesso approccio. Le metriche pairwise non sono supportate dal client GenAI nell'SDK Vertex AI, ma consulta Eseguire una valutazione per confrontare due modelli nella stessa valutazione.

from vertexai import types

# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY

Dettagli delle metriche gestite

Questa sezione elenca le metriche gestite con dettagli quali tipo, input richiesti e output previsto:

Qualità generale

Ultima versione general_quality_v1
Tipo Rubriche adattive
Descrizione Una metrica di rubrica adattiva completa che valuta la qualità complessiva della risposta di un modello. Genera e valuta automaticamente un'ampia gamma di criteri in base ai contenuti del prompt. Questo è il punto di partenza consigliato per la maggior parte delle valutazioni.
Come accedere nell'SDK types.RubricMetric.GENERAL_QUALITY
Input
  • prompt
  • response
  • (Facoltativo) rubric_groups
Se hai già generato le rubriche, puoi fornirle direttamente per la valutazione.
Output
  • score
  • rubrics e verdicts corrispondente
Il punteggio rappresenta il tasso di superamento della risposta in base alle rubriche.
Numero di chiamate LLM 6 chiamate a Gemini 2.5 Flash

Qualità del testo

Ultima versione text_quality_v1
Tipo Rubriche adattive
Descrizione Una metrica di rubriche adattive mirata che valuta in modo specifico la qualità linguistica della risposta. Valuta aspetti come la fluidità, la coerenza e la grammatica.
Come accedere nell'SDK types.RubricMetric.TEXT_QUALITY
Input
  • prompt
  • response
  • (Facoltativo) rubric_groups
Se hai già generato le rubriche, puoi fornirle direttamente per la valutazione.
Output
  • score
  • rubrics e verdicts corrispondente
Il punteggio rappresenta il tasso di superamento della risposta in base ai criteri di valutazione.
Numero di chiamate LLM 6 chiamate a Gemini 2.5 Flash

Secondo istruzioni

Ultima versione instruction_following_v1
Tipo Rubriche adattive
Descrizione Una metrica delle rubriche adattive mirata che misura il grado di aderenza della risposta ai vincoli e alle istruzioni specifici forniti nel prompt.
Come accedere nell'SDK types.RubricMetric.INSTRUCTION_FOLLOWING
Input
  • prompt
  • response
  • (Facoltativo) rubric_groups
Se hai già generato le rubriche, puoi fornirle direttamente per la valutazione.
Output
  • score (tasso di superamento)
  • rubrics e verdicts corrispondente
Il punteggio rappresenta il tasso di superamento della risposta in base ai criteri di valutazione.
Numero di chiamate LLM 6 chiamate a Gemini 2.5 Flash

Grounding

Ultima versione grounding_v1
Tipo Griglie statiche
Descrizione Una metrica basata sul punteggio che verifica l'accuratezza e la coerenza. Verifica che la risposta del modello sia basata sul contesto.
Come accedere nell'SDK types.RubricMetric.GROUNDING
Input
  • prompt
  • response
  • context
Output
  • score
  • explanation
Il punteggio ha un intervallo di 0-1 e rappresenta il tasso di richieste etichettate come supported o no_rad (che non richiedono attribuzioni fattuali, come saluti, domande o dichiarazioni di non responsabilità) al prompt di input.
La spiegazione contiene raggruppamenti di frasi, etichette, ragionamenti ed estratti dal contesto.
Numero di chiamate LLM 1 chiamata a Gemini 2.5 Flash

Sicurezza

Ultima versione safety_v1
Tipo Griglie statiche
Descrizione Una metrica basata sul punteggio che valuta se la risposta del modello ha violato una o più delle seguenti norme:
  • Dati demografici e PII
  • Incitamento all'odio
  • Contenuti pericolosi
  • Molestie
  • Contenuti sessualmente espliciti
Come accedere nell'SDK types.RubricMetric.SAFETY
Input
  • prompt
  • response
Output
  • score
  • explanation
Per il punteggio, 0 non è sicuro e 1 è sicuro.
Il campo della spiegazione include le norme violate.
Numero di chiamate LLM 10 chiamate a Gemini 2.5 Flash

Qualità generale della conversazione a più turni

Ultima versione multi_turn_general_quality_v1
Tipo Rubriche adattive
Descrizione Una metrica di rubrica adattiva che valuta la qualità complessiva della risposta di un modello nel contesto di un dialogo multi-turno.
Come accedere nell'SDK types.RubricMetric.MULTI_TURN_GENERAL_QUALITY
Input
  • prompt con conversazioni a più turni
  • response
  • (Facoltativo) rubric_groups
Se hai già generato le rubriche, puoi fornirle direttamente per la valutazione.
Output
  • score
  • rubriche e relativi esiti
Il punteggio rappresenta il tasso di superamento della risposta in base ai criteri di valutazione.
Numero di chiamate LLM 6 chiamate a Gemini 2.5 Flash

Qualità del testo in più passaggi

Ultima versione multi_turn_text_quality_v1
Tipo Rubriche adattive
Descrizione Una metrica di rubriche adattive che valuta la qualità del testo della risposta di un modello nel contesto di un dialogo multi-turno.
Come accedere nell'SDK types.RubricMetric.TEXT_QUALITY
Input
  • prompt con conversazioni a più turni
  • response
  • (Facoltativo) rubric_groups
Se hai già generato le rubriche, puoi fornirle direttamente per la valutazione.
Output
  • score
  • rubrics e verdicts corrispondente
Il punteggio rappresenta il tasso di superamento della risposta in base ai criteri di valutazione.
Numero di chiamate LLM 6 chiamate a Gemini 2.5 Flash

Corrispondenza della risposta finale dell'agente

Ultima versione final_response_match_v2
Tipo Griglie statiche
Descrizione Una metrica che valuta la qualità della risposta finale di un agente AI confrontandola con una risposta di riferimento fornita (dati empirici reali).
Come accedere nell'SDK types.RubricMetric.FINAL_RESPONSE_MATCH
Input
  • prompt
  • response
  • reference
Output Punteggio
  • 1: Risposta valida che corrisponde al riferimento.
  • 0: Risposta non valida che non corrisponde al riferimento.
Spiegazione
Numero di chiamate LLM 5 chiamate a Gemini 2.5 Flash

Riferimento alla risposta finale dell'agente gratuito

Ultima versione final_response_reference_free_v1
Tipo Rubriche adattive
Descrizione Una metrica di rubriche adattive che valuta la qualità della risposta finale di un agente AI senza richiedere una risposta di riferimento.
Devi fornire i criteri per questa metrica, in quanto non supporta i criteri generati automaticamente.
Come accedere nell'SDK types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE
Input
  • prompt
  • response
  • rubric_groups
Output
  • score
  • rubrics e verdicts corrispondente
Il punteggio rappresenta il tasso di superamento della risposta in base ai criteri di valutazione.
Numero di chiamate LLM 5 chiamate a Gemini 2.5 Flash

Passaggi successivi