이 페이지에서는 지도 학습을 사용하여 텍스트 데이터에서 Gemini 미세 조정에 필요한 기본 요건과 자세한 안내를 제공합니다.
사용 사례
텍스트 모델 미세 조정을 사용하면 특정 텍스트 기반 태스크에 능숙하도록 언어 모델을 조정할 수 있습니다. 이 섹션에서는 미세 조정을 통해 모델 성능을 크게 향상시킬 수 있는 다양한 사용 사례를 살펴봅니다.
- 채팅에서 구조화된 정보 추출: 모델을 미세 조정하여 주요 속성을 식별하고 JSONL과 같은 구조화된 형식으로 출력하여 여러 번의 대화를 구성된 데이터로 변환합니다.
- 문서 분류: 모델을 미세 조정하여 긴 문서를 사전 정의된 카테고리로 정확하게 분류하여 정보를 효율적으로 구성하고 검색할 수 있습니다.
- 안내 따르기: 모델의 안내 이해 및 실행 능력을 향상하여 더 정확하고 안정적인 작업 완료를 유도합니다.
- 자동화된 코드 검토: 미세 조정을 사용하여 통찰력 있는 코드 검토를 제공하고, 잠재적 문제를 식별하고, 개선사항을 제안할 수 있는 모델을 만듭니다.
- 요약: 콘텐츠의 핵심을 포착하도록 모델을 미세 조정하여 긴 텍스트의 간결하고 유익한 요약을 생성합니다.
- 코드 및 DSL 생성: 다양한 프로그래밍 언어 또는 도메인별 언어(DSL)로 코드를 생성하도록 모델을 미세 조정하여 반복적인 코딩 작업을 자동화합니다.
- RAG 성능 개선: 기본 언어 모델을 미세 조정하여 검색 증강 생성(RAG) 시스템의 유용성과 정확성을 개선합니다.
데이터 세트 형식
다음은 텍스트 데이터 세트 예시입니다.
일반적인 형식 예시는 Gemini 1.5 Pro 및 Gemini 1.5 Flash를 위한 데이터 세트 예시를 참조하세요.
{
"systemInstruction": {
"role": "system",
"parts": [
{
"text": "You are a pirate dog named Captain Barktholomew."
}
]
},
"contents": [
{
"role": "user",
"parts": [
{
"text": "Hi"
}
]
},
{
"role": "model",
"parts": [
{
"text": "Argh! What brings ye to my ship?"
}
]
},
{
"role": "user",
"parts": [
{
"text": "What's your name?"
}
]
},
{
"role": "model",
"parts": [
{
"text": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
}
]
}
]
}
gemini-1.5-pro
및 gemini-1.5-flash
의 샘플 데이터 세트
다음 샘플 데이터 세트를 사용하여 gemini-1.5-pro
또는 gemini-1.5-flash
모델을 조정하는 방법을 알아볼 수 있습니다.
이러한 데이터 세트를 사용하려면 텍스트 모델 지도 미세 조정 작업을 만들 때 적용 가능한 매개변수에 URI를 지정합니다.
예를 들면 다음과 같습니다.
...
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_train_data.jsonl",
...
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_validation_data.jsonl",
...
Gemini 1.0 Pro용 데이터 세트 형식 예시
{
"messages": [
{
"role": "system",
"content": "You are a pirate dog named Captain Barktholomew."
},
{
"role": "user",
"content": "Hi"
},
{
"role": "model",
"content": "Argh! What brings ye to my ship?"
},
{
"role": "user",
"content": "What's your name?"
},
{
"role": "model",
"content": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
}
]
}
gemini-1.0-pro
의 샘플 데이터 세트
샘플 데이터 세트를 사용하여 gemini-1.0-pro-002
모델을 조정하는 방법을 알아볼 수 있습니다.
이러한 데이터 세트를 사용하려면 텍스트 모델 지도 미세 조정 작업을 만들 때 적용 가능한 매개변수에 URI를 지정합니다.
예를 들면 다음과 같습니다.
...
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_train_data.jsonl",
...
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_validation_data.jsonl",
...
데이터 세트를 사용하여 조정 비용 추정
다음 노트북은 gemini-1.5-pro-002
의 조정 작업을 실행할 때 토큰 수와 조정 비용을 추정하는 데 도움이 됩니다.
다음 단계
- 조정을 시작하려면 지도 미세 조정을 사용하여 Gemini 모델 조정을 참조하세요.
- 생성형 AI 기술 자료를 구축하는 솔루션에서 지도 미세 조정을 사용하는 방법을 알아보려면 점프 스타트 솔루션: 생성형 AI 기술 자료를 참조하세요.