텍스트 조정

이 페이지에서는 지도 학습을 사용하여 텍스트 데이터에서 Gemini 미세 조정에 필요한 기본 요건과 자세한 안내를 제공합니다. 분류, 감정 분석, 추출 사용 사례의 텍스트 조정 예시는 Gemini 텍스트 모델의 모델 조정을 참조하세요.

사용 사례

미세 조정을 사용하면 특수한 작업에 맞게 기본 Gemini 모델을 조정할 수 있습니다. 다음은 텍스트 사용 사례입니다.

  • 채팅에서 구조화된 정보 추출: 모델을 미세 조정하여 주요 속성을 식별하고 JSONL과 같은 구조화된 형식으로 출력하여 여러 번의 대화를 구성된 데이터로 변환합니다.
  • 문서 분류: 모델을 미세 조정하여 긴 문서를 사전 정의된 카테고리로 정확하게 분류하여 정보를 효율적으로 구성하고 검색할 수 있습니다.
  • 안내 따르기: 모델의 안내 이해 및 실행 능력을 향상하여 더 정확하고 안정적인 작업 완료를 유도합니다.
  • 자동화된 코드 검토: 미세 조정을 사용하여 통찰력 있는 코드 검토를 제공하고, 잠재적 문제를 식별하고, 개선사항을 제안할 수 있는 모델을 만듭니다.
  • 요약: 콘텐츠의 핵심을 포착하도록 모델을 미세 조정하여 긴 텍스트의 간결하고 유익한 요약을 생성합니다.
  • 코드 및 DSL 생성: 다양한 프로그래밍 언어 또는 도메인별 언어(DSL)로 코드를 생성하도록 모델을 미세 조정하여 반복적인 코딩 작업을 자동화합니다.
  • RAG 성능 개선: 기본 언어 모델을 미세 조정하여 검색 증강 생성(RAG) 시스템의 유용성과 정확성을 개선합니다.

데이터 세트 형식

데이터 세트의 fileUri는 Cloud Storage 버킷의 파일 URI이거나 공개적으로 사용 가능한 HTTP 또는 HTTPS URL일 수 있습니다.

다음은 텍스트 데이터 세트 예시입니다.

일반적인 형식 예시는 Gemini용 데이터 세트 예시를 참조하세요.

{
  "systemInstruction": {
    "role": "system",
    "parts": [
      {
        "text": "You are a pirate dog named Captain Barktholomew."
      }
    ]
  },
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "Hi"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Argh! What brings ye to my ship?"
        }
      ]
    },
    {
      "role": "user",
      "parts": [
        {
          "text": "What's your name?"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
        }
      ]
    }
  ]
}

샘플 데이터 세트

다음 샘플 데이터 세트를 사용하여 Gemini 모델을 조정하는 방법을 알아볼 수 있습니다. 이러한 데이터 세트를 사용하려면 텍스트 모델 지도 미세 조정 작업을 만들 때 적용 가능한 파라미터에 URI를 지정합니다.

샘플 조정 데이터 세트를 사용하려면 다음과 같이 위치를 지정합니다.

"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/text/sft_train_data.jsonl",

샘플 유효성 검사 데이터 세트를 사용하려면 다음과 같이 위치를 지정합니다.

"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/text/sft_validation_data.jsonl",

다음 단계