오디오 조정

이 페이지에서는 지도 학습을 사용하여 오디오 데이터에서 Gemini 미세 조정에 필요한 기본 요건과 자세한 안내를 제공합니다.

사용 사례

오디오 모델을 조정하면 특정 니즈에 맞게 모델을 조정하여 성능을 향상시킬 수 있습니다. 여기에는 다양한 악센트에 대한 음성 인식 개선, 음악 장르 분류 미세 조정, 소리 활동 감지 최적화, 오디오 생성 맞춤설정, 소음 환경에 적응, 오디오 품질 향상, 오디오 환경 맞춤설정이 포함될 수 있습니다. 다음은 몇 가지 일반적인 오디오 조정 사용 사례입니다.

  • 향상된 음성 어시스턴트:

    • 음성 음식 주문: 원활한 음식 주문과 배달을 위한 음성 활성화 시스템을 개발합니다.
  • 오디오 콘텐츠 분석:

    • 자동 스크립트 작성: 시끄러운 환경에서도 매우 정확하게 스크립트를 생성합니다.
    • 오디오 요약: 팟캐스트나 오디오북의 핵심사항을 요약합니다.
    • 음악 분류: 장르, 분위기 또는 기타 특징을 기준으로 음악을 분류합니다.
  • 접근성 및 보조 기술:

    • 실시간 자막 생성: 이벤트나 영상 통화에 실시간 자막을 제공합니다.
    • 음성 제어 애플리케이션: 음성으로 완전히 제어되는 애플리케이션을 개발합니다.
    • 언어 학습: 발음에 대한 맞춤형 의견을 제공하는 도구를 만듭니다.

제한사항

Gemini 2.0 Flash

사양
예시당 최대 오디오 길이 60분
예시당 최대 오디오 파일 수 1
최대 오디오 파일 크기 100MB

Gemini 1.5 Flash

사양
예시당 최대 오디오 길이 60분
예시당 최대 오디오 파일 수 1
최대 오디오 파일 크기 100MB

Gemini 1.5 Pro

사양
예시당 최대 오디오 길이 10분
예시당 최대 오디오 파일 수 1
최대 오디오 파일 크기 100MB

오디오 샘플 요구사항에 대한 자세한 내용은 오디오 인식(음성만) 페이지를 참조하세요.

데이터 세트 형식

데이터 세트의 fileUri는 Cloud Storage 버킷의 파일 URI이거나 공개적으로 사용 가능한 HTTP 또는 HTTPS URL일 수 있습니다.

일반적인 형식 예시는 Gemini용 데이터 세트 예시를 참고하세요.

다음은 오디오 데이터 세트의 예입니다.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    }, 
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

다음 단계