동영상 조정

이 페이지에서는 지도 학습을 사용하여 동영상 데이터에서 Gemini 미세 조정에 필요한 기본 요건과 자세한 안내를 제공합니다.

사용 사례

미세 조정을 사용하면 특수한 작업에 맞게 기본 Gemini 모델을 조정할 수 있습니다. 다음은 몇 가지 동영상 사용 사례입니다.

  • 자동 동영상 요약: LLM을 조정하여 긴 동영상의 요약을 간결하고 일관되게 생성하여 주요 주제, 사건, 내러티브를 포착합니다. 콘텐츠 검색, 보관처리, 빠른 검토에 유용합니다.

  • 세부적인 이벤트 인식 및 위치 지정: 미세 조정을 통해 LLM은 동영상 타임라인 내에서 특정 작업, 이벤트 또는 객체를 더 정확하게 식별하고 지정할 수 있습니다. 예를 들어 마케팅 동영상에서 특정 제품의 모든 인스턴스를 식별하거나 스포츠 영상에서 특정 동작을 식별할 수 있습니다.

  • 콘텐츠 검토: 특수 조정을 통해 동영상 내에서 민감하거나 부적절하거나 정책을 위반하는 콘텐츠를 감지하는 LLM의 기능을 개선할 수 있습니다. 이를 통해 단순한 객체 감지를 넘어 맥락과 뉘앙스를 이해할 수 있습니다.

  • 동영상 자막 및 자막: 이미 일반적으로 사용되고 있지만 조정을 통해 비언어적 신호의 설명을 포함하여 자동 생성된 자막의 정확성, 유창성, 문맥 인식을 개선할 수 있습니다.

제한사항

  • 최대 동영상 파일 크기: 100MB 대용량 동영상 파일의 경우 충분하지 않을 수 있습니다. 다음은 권장되는 해결 방법입니다.
    • 대용량 파일이 거의 없는 경우 JSONL 파일에 이러한 파일을 포함하지 않습니다.
    • 데이터 세트에 무시할 수 없는 대용량 파일이 많은 경우 파일의 시각적 해상도를 줄이세요. 이로 인해 성능이 저하될 수 있습니다.
    • 동영상을 청크하여 파일 크기를 100MB로 제한하고 청크된 동영상을 사용하여 조정합니다. 원본 동영상에 해당하는 타임스탬프 주석을 새 (청크 처리된) 동영상 타임라인으로 변경해야 합니다.
  • 예시당 최대 동영상 길이: MEDIA_RESOLUTION_MEDIUM의 경우 5분, MEDIA_RESOLUTION_LOW의 경우 20분
  • 삭제된 예시: 예시에 지원되는 최대 길이보다 긴 동영상이 포함된 경우 해당 예시는 데이터 세트에서 삭제됩니다. 삭제된 예시는 요금이 청구되지 않으며 학습에 사용되지 않습니다. 데이터 세트의 10% 이상이 삭제되면 학습이 시작되기 전에 오류 메시지와 함께 작업이 실패합니다.
  • 다양한 미디어 해상도 혼합은 지원되지 않음: 전체 학습 데이터 세트의 각 예시의 mediaResolution 값은 일관되어야 합니다. 학습 및 검증에 사용되는 JSONL 파일의 모든 줄은 동일한 mediaResolution 값을 가져야 합니다.

데이터 세트 형식

fileUri 필드는 데이터 세트의 위치를 지정합니다. Cloud Storage 버킷의 파일 URI이거나 공개적으로 사용 가능한 HTTP 또는 HTTPS URL일 수 있습니다.

mediaResolution 필드는 입력 동영상의 프레임당 토큰 수를 다음 값 중 하나로 지정하는 데 사용됩니다.

  • MEDIA_RESOLUTION_LOW: 프레임당 토큰 64개
  • MEDIA_RESOLUTION_MEDIUM: 프레임당 토큰 256개

MEDIA_RESOLUTION_LOW를 사용한 모델 조정은 MEDIA_RESOLUTION_MEDIUM로 조정된 모델보다 최대 4배 빠르며 성능 개선은 최소화됩니다.

동영상 세그먼트가 학습 및 검증에 사용되면 동영상 세그먼트가 videoMetadata 필드에 있습니다. 조정 중에 이 데이터 포인트는 타임스탬프 startOffset (시작 오프셋, 초)부터 endOffset까지 지정된 동영상 파일에서 추출된 세그먼트의 정보를 포함하도록 디코딩됩니다.

일반적인 형식 예시는 Gemini용 데이터 세트 예시를 참조하세요.

다음 섹션에서는 동영상 데이터 세트 형식 예시를 보여줍니다.

전체 동영상이 학습 및 검증에 사용되는 경우의 JSON 스키마 예

이 스키마는 JSONL 파일에 단일 줄로 추가됩니다.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "fileUri": "gs://<path to the mp4 video file>",
            "mimeType": "video/mp4"
          },
        },
        {
          "text": "
          You are a video analysis expert. Detect which animal appears in the
          video.The video can only have one of the following animals: dog, cat,
          rabbit.\n Output Format:\n Generate output in the following JSON
          format:\n
          [{\n
            \"animal_name\": \"<CATEGORY>\",\n
          }]\n"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "```json\n[{\"animal_name\": \"dog\"}]\n```"
        }
       ]
    },
  ],
  "generationConfig": {
    "mediaResolution": "MEDIA_RESOLUTION_LOW"
  }
}

동영상 세그먼트가 학습 및 검증에 사용되는 경우의 JSON 스키마 예

이 스키마는 JSONL 파일에 단일 줄로 추가됩니다.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "fileUri": "gs://<path to the mp4 video file>",
            "mimeType": "video/mp4"
          },
         "videoMetadata": {
            "startOffset": "5s",
            "endOffset": "25s"
          }
        },
        {
          "text": "
          You are a video analysis expert. Detect which animal appears in the
          video.The video can only have one of the following animals: dog, cat,
          rabbit.\n Output Format:\n Generate output in the following JSON
          format:\n
          [{\n
            \"animal_name\": \"<CATEGORY>\",\n
          }]\n"
       }
      ]
   },
   {
      "role": "model",
      "parts": [
        {
          "text": "```json\n[{\"animal_name\": \"dog\"}]\n```"
        }
      ]
    },
  ],
"generationConfig": {
     "mediaResolution": "MEDIA_RESOLUTION_LOW"
  }
}

다음 단계