Vertex AI의 Gen AI Evaluation Service를 사용하면 생성형 모델이나 애플리케이션을 평가하고 자체 평가 기준을 사용하여 자체 판단에 따라 평가 결과를 벤치마킹할 수 있습니다.
리더보드와 보고서는 전반적인 모델 성능에 대한 유용한 정보를 제공하지만 모델에서 특정 니즈를 처리하는 방식을 알려주지는 않습니다. Gen AI Evaluation Service는 자체 평가 기준을 정의하여 생성형 AI 모델과 애플리케이션이 고유한 사용 사례에 얼마나 적합한지 명확하게 이해하는 데 도움이 됩니다.
평가는 모델 선택, 프롬프트 엔지니어링, 모델 맞춤설정을 포함한 생성형 AI 개발 프로세스의 모든 단계에서 중요합니다. Vertex AI 내에서 생성형 AI 평가를 통합하면 필요에 따라 평가를 실행하고 재사용할 수 있습니다.
Gen AI Evaluation Service 기능
Gen AI Evaluation Service를 사용하면 다음 태스크를 수행할 수 있습니다.
모델 선택: 벤치마크 결과와 특정 데이터에서의 성능을 기반으로 태스크에 가장 적합한 선행 학습된 모델을 선택합니다.
생성 설정: 니즈에 맞게 출력을 최적화하도록 모델 파라미터(예: 온도)를 수정합니다.
프롬프트 엔지니어링: 효과적인 프롬프트와 프롬프트 템플릿을 작성하여 모델이 원하는 행동과 응답을 하도록 안내합니다.
미세 조정 개선 및 보호: 편향이나 바람직하지 않은 동작을 방지하면서 사용 사례의 성능이 향상되도록 모델을 미세 조정합니다.
RAG 최적화: 가장 효과적인 검색 증강 생성(RAG) 아키텍처를 선택하여 애플리케이션 성능을 향상시킵니다.
마이그레이션: 특정 사용 사례에 명확한 이점을 제공할 때 최신 모델로 마이그레이션하여 AI 솔루션 성능을 지속적으로 평가하고 개선합니다.
평가 절차
Gen AI Evaluation Service를 사용하면 다음 단계를 수행하여 평가 기준에 따라 생성형 AI 모델이나 애플리케이션을 평가할 수 있습니다.
-
모델 기반 측정항목을 비즈니스 기준에 맞게 맞춤설정하는 방법을 알아보세요.
단일 모델을 평가(점별)하거나 모델 2개를 비교할 때 더 나은 모델을 결정합니다(쌍별).
유용한 정보가 추가될 수 있도록 계산 기반 측정항목을 포함합니다.
-
- 특정 사용 사례를 반영하는 데이터 세트를 제공합니다.
-
처음부터 시작하거나 템플릿을 사용하거나 기존 예시를 조정합니다.
후보 모델을 정의하고
EvalTask
를 만들어 Vertex AI를 통해 평가 로직을 재사용합니다.
평가 사용 사례용 노트북
다음 표에는 다양한 생성형 AI 평가 사용 사례에 사용할 수 있는 Vertex AI SDK for Python 노트북이 나와 있습니다.
사용 사례 | 설명 | 노트북 링크 |
---|---|---|
모델 평가 | 빠른 시작: Gen AI Evaluation Service SDK 소개 | Gen AI Evaluation Service SDK 시작하기 |
태스크에 적합한 퍼스트 파티(1P) 파운데이션 모델을 평가하고 선택합니다. | 태스크에 적합한 퍼스트 파티(1P) 파운데이션 모델 평가 및 선택 | |
생성형 AI 모델 설정 평가 및 선택: 요약 태스크에서 Gemini 모델의 온도, 출력 토큰 한도, 안전 설정, 기타 모델 생성 구성을 조정하고 여러 측정항목에서 다양한 모델 설정의 평가 결과를 비교합니다. |
Gemini의 다양한 모델 매개변수 설정 비교 | |
Gen AI Evaluation Service SDK를 사용하여 PaLM에서 Gemini 모델로 마이그레이션합니다. 이 노트북에서는 한 모델에서 다른 모델로 마이그레이션과 관련된 결정을 지원하도록 여러 평가 측정항목을 사용하여 PaLM 및 Gemini 파운데이션 모델을 평가하는 방법을 안내합니다. Google에서는 정보에 입각하여 사용 사례의 구체적인 요구사항에 가장 적합한 모델을 결정할 수 있도록 이러한 측정항목을 시각화하여 각 모델의 강점과 약점을 파악합니다. |
PaLM과 Gemini 모델 비교 및 마이그레이션 | |
프롬프트 템플릿 평가 | Gen AI Evaluation Service SDK를 사용한 프롬프트 엔지니어링 및 프롬프트 평가 | 결과가 향상될 수 있도록 프롬프트 템플릿 설계 평가 및 최적화 |
생성형 AI 애플리케이션 평가 | Gemini 모델 도구 사용 및 함수 호출 기능을 평가합니다. | Gemini 모델 도구 사용 평가 |
Gen AI Evaluation Service SDK를 사용하여 질의 응답 태스크에 대해 검색 증강 생성(RAG)에서 생성된 답변을 평가합니다. | 검색 증강 생성(RAG)에서 생성된 답변 평가 | |
측정항목 맞춤설정 | 다음 기능을 사용하여 모델 기반 측정항목을 맞춤설정하고 특정 기준에 따라 생성형 AI 모델을 평가합니다.
|
생성형 AI 모델을 평가하기 위한 모델 기반 측정항목 맞춤설정 |
로컬에서 정의된 커스텀 측정항목으로 생성형 AI 모델을 평가하고 자체 판단 모델을 가져와 모델 기반 측정항목을 평가합니다. | 커스텀 측정항목을 사용하여 자체 자동 평가 도구 사용 | |
자체 계산 기반 커스텀 측정항목 함수를 정의하고 Gen AI Evaluation Service SDK를 통한 평가에 사용합니다. | 자체 계산 기반 커스텀 측정항목 가져오기 | |
기타 주제 | Gen AI Evaluation Service SDK 미리보기 버전에서 정신 버전으로 마이그레이션 가이드. 이 튜토리얼에서는 Gen AI Evaluation Service용 Vertex AI SDK for Python의 미리보기 버전에서 최신 정식 버전으로 마이그레이션하는 프로세스를 안내합니다. 또한 이 가이드에서는 정식 버전 SDK를 사용하여 검색 증강 생성(RAG)을 평가하고 쌍별 평가를 사용하여 두 모델을 비교하는 방법을 보여줍니다. |
Gen AI Evaluation Service SDK 미리보기에서 정식 버전으로 마이그레이션 가이드 |
지원되는 모델 및 언어
Vertex AI 생성형 AI 평가 서비스는 Google의 파운데이션 모델, 서드 파티 모델, 개방형 모델을 지원합니다. 사전 생성된 예측을 직접 제공하거나 다음과 같은 방법으로 후보 모델 응답을 자동으로 생성할 수 있습니다.
Google의 파운데이션 모델(예: Gemini 1.5 Pro) 및 Vertex AI Model Registry에 배포된 모든 모델에 대한 응답을 자동으로 생성합니다.
다른 서드 파티 및 개방형 모델의 SDK 텍스트 생성 API와 통합합니다.
Vertex AI SDK를 사용하여 다른 제공업체의 모델 엔드포인트를 래핑합니다.
생성형 AI 평가 서비스는 Gemini 1.5 Pro에서 지원되는 모든 입력 언어를 지원합니다. 하지만 영어가 아닌 입력의 평가 품질은 영어 입력의 품질만큼 높지 않을 수 있습니다.