Detalhes das métricas gerenciadas com base em rubricas

Nesta página, você encontra uma lista completa de métricas gerenciadas baseadas em rubricas oferecidas pelo serviço de avaliação de IA generativa, que podem ser usadas no cliente GenAI no SDK da Vertex AI.

Para mais informações sobre a avaliação orientada por testes, consulte Definir métricas de avaliação.

Visão geral

O serviço de avaliação de IA generativa oferece uma lista de métricas gerenciadas baseadas em rubricas para o framework de avaliação orientada a testes:

  • Para métricas com rubricas adaptativas, a maioria inclui o fluxo de trabalho de geração de rubricas para cada comando e a validação delas. Você pode executá-los separadamente, se necessário. Consulte Realizar uma avaliação para mais detalhes.

  • Para métricas com rubricas estáticas, nenhuma rubrica por solicitação é gerada. Para detalhes sobre as saídas pretendidas, consulte Detalhes da métrica.

Cada métrica gerenciada com base em rubricas tem um número de controle de versão. A métrica usa a versão mais recente por padrão, mas é possível fixar uma versão específica, se necessário:

from vertexai import types

text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')

Compatibilidade com versões anteriores

Para métricas oferecidas como modelos de solicitação de métrica, ainda é possível acessar as métricas pontuais usando o cliente GenAI no SDK da Vertex AI da mesma forma. As métricas aos pares não são compatíveis com o cliente de IA generativa no SDK da Vertex AI. Consulte Executar uma avaliação para comparar dois modelos na mesma avaliação.

from vertexai import types

# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY

Detalhes das métricas gerenciadas

Esta seção lista as métricas gerenciadas com detalhes como tipo, entradas obrigatórias e saída esperada:

Qualidade geral

Versão mais recente general_quality_v1
Tipo Indicadores adaptativos
Descrição Uma métrica de rubricas adaptativa abrangente que avalia a qualidade geral da resposta de um modelo. Ele gera e avalia automaticamente uma ampla variedade de critérios com base no conteúdo do comando. Esse é o ponto de partida recomendado para a maioria das avaliações.
Como acessar no SDK types.RubricMetric.GENERAL_QUALITY
Entrada
  • prompt
  • response
  • (Opcional) rubric_groups
Se você já tiver rubricas geradas, envie-as diretamente para avaliação.
Saída
  • score
  • rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM 6 chamadas para o Gemini 2.5 Flash

Qualidade do texto

Versão mais recente text_quality_v1
Tipo Indicadores adaptativos
Descrição Uma métrica de rubricas adaptativas segmentada que avalia especificamente a qualidade linguística da resposta. Ela avalia aspectos como fluidez, coerência e gramática.
Como acessar no SDK types.RubricMetric.TEXT_QUALITY
Entrada
  • prompt
  • response
  • (Opcional) rubric_groups
Se você já tiver rubricas geradas, envie-as diretamente para avaliação.
Saída
  • score
  • rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM 6 chamadas para o Gemini 2.5 Flash

Seguir a instrução

Versão mais recente instruction_following_v1
Tipo Indicadores adaptativos
Descrição Uma métrica de rubricas adaptativas segmentada que mede a aderência da resposta às restrições e instruções específicas fornecidas no comando.
Como acessar no SDK types.RubricMetric.INSTRUCTION_FOLLOWING
Entrada
  • prompt
  • response
  • (Opcional) rubric_groups
Se você já tiver rubricas geradas, envie-as diretamente para avaliação.
Saída
  • score (taxa de aprovação)
  • rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM 6 chamadas para o Gemini 2.5 Flash

Embasamento

Versão mais recente grounding_v1
Tipo Rubricas estáticas
Descrição Uma métrica baseada em pontuação que verifica a veracidade e a consistência. Ele verifica se a resposta do modelo tem embasamento com base no contexto.
Como acessar no SDK types.RubricMetric.GROUNDING
Entrada
  • prompt
  • response
  • context
Saída
  • score
  • explanation
A pontuação tem um intervalo de 0-1 e representa a taxa de declarações rotuladas como supported ou no_rad (que não exigem atribuições factuais, como saudações, perguntas ou exonerações de responsabilidade) para o comando de entrada.
A explicação contém agrupamentos de frase, marcador, raciocínio e trecho do contexto.
Número de chamadas de LLM 1 chamada para o Gemini 2.5 Flash

Segurança

Versão mais recente safety_v1
Tipo Rubricas estáticas
Descrição Uma métrica baseada em pontuação que avalia se a resposta do modelo violou uma ou mais das seguintes políticas:
  • Dados demográficos e PII
  • Discurso de ódio
  • Conteúdo perigoso
  • Assédio
  • Sexualmente explícito
Como acessar no SDK types.RubricMetric.SAFETY
Entrada
  • prompt
  • response
Saída
  • score
  • explanation
Para a pontuação, 0 não é seguro e 1 é seguro.
O campo de explicação inclui as políticas violadas.
Número de chamadas de LLM 10 chamadas para o Gemini 2.5 Flash

Qualidade geral multiturno

Versão mais recente multi_turn_general_quality_v1
Tipo Indicadores adaptativos
Descrição Uma métrica de rubricas adaptativas que avalia a qualidade geral da resposta de um modelo no contexto de um diálogo com várias interações.
Como acessar no SDK types.RubricMetric.MULTI_TURN_GENERAL_QUALITY
Entrada
  • prompt com conversas multiturno
  • response
  • (Opcional) rubric_groups
Se você já tiver rubricas geradas, envie-as diretamente para avaliação.
Saída
  • score
  • rubricas e vereditos correspondentes
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM 6 chamadas para o Gemini 2.5 Flash

Qualidade do texto multiturno

Versão mais recente multi_turn_text_quality_v1
Tipo Indicadores adaptativos
Descrição Uma métrica de rubricas adaptativas que avalia a qualidade do texto de uma resposta do modelo no contexto de um diálogo com várias turnos.
Como acessar no SDK types.RubricMetric.TEXT_QUALITY
Entrada
  • prompt com conversas multiturno
  • response
  • (Opcional) rubric_groups
Se você já tiver rubricas geradas, envie-as diretamente para avaliação.
Saída
  • score
  • rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM 6 chamadas para o Gemini 2.5 Flash

Correspondência da resposta final do agente

Versão mais recente final_response_match_v2
Tipo Rubricas estáticas
Descrição Uma métrica que avalia a qualidade da resposta final de um agente de IA comparando-a com uma resposta de referência fornecida (informação empírica).
Como acessar no SDK types.RubricMetric.FINAL_RESPONSE_MATCH
Entrada
  • prompt
  • response
  • reference
Saída Pontuação
  • 1: resposta válida que corresponde à referência.
  • 0: resposta inválida que não corresponde à referência.
Explicação
Número de chamadas de LLM 5 chamadas para o Gemini 2.5 Flash

Referência de resposta final do agente sem custo financeiro

Versão mais recente final_response_reference_free_v1
Tipo Indicadores adaptativos
Descrição Uma métrica de rubricas adaptativa que avalia a qualidade da resposta final de um agente de IA sem precisar de uma resposta de referência.
Você precisa fornecer rubricas para essa métrica, já que ela não é compatível com rubricas geradas automaticamente.
Como acessar no SDK types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE
Entrada
  • prompt
  • response
  • rubric_groups
Saída
  • score
  • rubrics e verdicts correspondente
A pontuação representa a taxa de aprovação da resposta com base nas rubricas.
Número de chamadas de LLM 5 chamadas para o Gemini 2.5 Flash

A seguir