Nesta página, você encontra uma lista completa de métricas gerenciadas baseadas em rubricas oferecidas pelo serviço de avaliação de IA generativa, que podem ser usadas no cliente GenAI no SDK da Vertex AI.
Para mais informações sobre a avaliação orientada por testes, consulte Definir métricas de avaliação.
Visão geral
O serviço de avaliação de IA generativa oferece uma lista de métricas gerenciadas baseadas em rubricas para o framework de avaliação orientada a testes:
Para métricas com rubricas adaptativas, a maioria inclui o fluxo de trabalho de geração de rubricas para cada comando e a validação delas. Você pode executá-los separadamente, se necessário. Consulte Realizar uma avaliação para mais detalhes.
Para métricas com rubricas estáticas, nenhuma rubrica por solicitação é gerada. Para detalhes sobre as saídas pretendidas, consulte Detalhes da métrica.
Cada métrica gerenciada com base em rubricas tem um número de controle de versão. A métrica usa a versão mais recente por padrão, mas é possível fixar uma versão específica, se necessário:
from vertexai import types
text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')
Compatibilidade com versões anteriores
Para métricas oferecidas como modelos de solicitação de métrica, ainda é possível acessar as métricas pontuais usando o cliente GenAI no SDK da Vertex AI da mesma forma. As métricas aos pares não são compatíveis com o cliente de IA generativa no SDK da Vertex AI. Consulte Executar uma avaliação para comparar dois modelos na mesma avaliação.
from vertexai import types
# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY
Detalhes das métricas gerenciadas
Esta seção lista as métricas gerenciadas com detalhes como tipo, entradas obrigatórias e saída esperada:
- Qualidade geral
- Qualidade do texto
- Seguir instruções
- Embasamento
- Segurança
- Qualidade geral multiturno
- Qualidade do texto multiturno
- Correspondência da resposta final do agente
- Referência de resposta final do agente gratuita
Qualidade geral
Versão mais recente | general_quality_v1 |
Tipo | Indicadores adaptativos |
Descrição | Uma métrica de rubricas adaptativa abrangente que avalia a qualidade geral da resposta de um modelo. Ele gera e avalia automaticamente uma ampla variedade de critérios com base no conteúdo do comando. Esse é o ponto de partida recomendado para a maioria das avaliações. |
Como acessar no SDK | types.RubricMetric.GENERAL_QUALITY |
Entrada |
|
Saída |
|
Número de chamadas de LLM | 6 chamadas para o Gemini 2.5 Flash |
Qualidade do texto
Versão mais recente | text_quality_v1 |
Tipo | Indicadores adaptativos |
Descrição | Uma métrica de rubricas adaptativas segmentada que avalia especificamente a qualidade linguística da resposta. Ela avalia aspectos como fluidez, coerência e gramática. |
Como acessar no SDK | types.RubricMetric.TEXT_QUALITY |
Entrada |
|
Saída |
|
Número de chamadas de LLM | 6 chamadas para o Gemini 2.5 Flash |
Seguir a instrução
Versão mais recente | instruction_following_v1 |
Tipo | Indicadores adaptativos |
Descrição | Uma métrica de rubricas adaptativas segmentada que mede a aderência da resposta às restrições e instruções específicas fornecidas no comando. |
Como acessar no SDK | types.RubricMetric.INSTRUCTION_FOLLOWING |
Entrada |
|
Saída |
|
Número de chamadas de LLM | 6 chamadas para o Gemini 2.5 Flash |
Embasamento
Versão mais recente | grounding_v1 |
Tipo | Rubricas estáticas |
Descrição | Uma métrica baseada em pontuação que verifica a veracidade e a consistência. Ele verifica se a resposta do modelo tem embasamento com base no contexto. |
Como acessar no SDK | types.RubricMetric.GROUNDING |
Entrada |
|
Saída |
0-1 e representa a taxa de declarações rotuladas como supported ou no_rad (que não exigem atribuições factuais, como saudações, perguntas ou exonerações de responsabilidade) para o comando de entrada.
A explicação contém agrupamentos de frase, marcador, raciocínio e trecho do contexto. |
Número de chamadas de LLM | 1 chamada para o Gemini 2.5 Flash |
Segurança
Versão mais recente | safety_v1 |
Tipo | Rubricas estáticas |
Descrição |
Uma métrica baseada em pontuação que avalia se a resposta do modelo violou uma ou mais das seguintes políticas:
|
Como acessar no SDK | types.RubricMetric.SAFETY |
Entrada |
|
Saída |
0 não é seguro e 1 é seguro.
O campo de explicação inclui as políticas violadas. |
Número de chamadas de LLM | 10 chamadas para o Gemini 2.5 Flash |
Qualidade geral multiturno
Versão mais recente | multi_turn_general_quality_v1 |
Tipo | Indicadores adaptativos |
Descrição | Uma métrica de rubricas adaptativas que avalia a qualidade geral da resposta de um modelo no contexto de um diálogo com várias interações. |
Como acessar no SDK | types.RubricMetric.MULTI_TURN_GENERAL_QUALITY |
Entrada |
|
Saída |
|
Número de chamadas de LLM | 6 chamadas para o Gemini 2.5 Flash |
Qualidade do texto multiturno
Versão mais recente | multi_turn_text_quality_v1 |
Tipo | Indicadores adaptativos |
Descrição | Uma métrica de rubricas adaptativas que avalia a qualidade do texto de uma resposta do modelo no contexto de um diálogo com várias turnos. |
Como acessar no SDK | types.RubricMetric.TEXT_QUALITY |
Entrada |
|
Saída |
|
Número de chamadas de LLM | 6 chamadas para o Gemini 2.5 Flash |
Correspondência da resposta final do agente
Versão mais recente | final_response_match_v2 |
Tipo | Rubricas estáticas |
Descrição | Uma métrica que avalia a qualidade da resposta final de um agente de IA comparando-a com uma resposta de referência fornecida (informação empírica). |
Como acessar no SDK | types.RubricMetric.FINAL_RESPONSE_MATCH |
Entrada |
|
Saída |
Pontuação
|
Número de chamadas de LLM | 5 chamadas para o Gemini 2.5 Flash |
Referência de resposta final do agente sem custo financeiro
Versão mais recente | final_response_reference_free_v1 |
Tipo | Indicadores adaptativos |
Descrição | Uma métrica de rubricas adaptativa que avalia a qualidade da resposta final de um agente de IA sem precisar de uma resposta de referência.
Você precisa fornecer rubricas para essa métrica, já que ela não é compatível com rubricas geradas automaticamente. |
Como acessar no SDK | types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE |
Entrada |
|
Saída |
|
Número de chamadas de LLM | 5 chamadas para o Gemini 2.5 Flash |