Google 모델
프로비저닝된 처리량은 모델 별칭이 아닌 특정 모델 ID를 사용하여 프로젝트에서 직접 호출하는 모델만 지원합니다. 프로비저닝된 처리량을 사용하여 모델에 API를 호출하려면 모델 버전 별칭이 아닌 특정 모델 버전 ID (예: gemini-2.0-flash-001
)를 사용해야 합니다.
또한 프로비저닝된 처리량은 Vertex AI Agents 및 Vertex AI Search와 같은 다른 Vertex AI 제품에서 호출하는 모델을 지원하지 않습니다. 예를 들어 Vertex AI Search를 사용하는 동안 Gemini 2.0 Flash에 API를 호출하면 Gemini 2.0 Flash의 프로비저닝된 처리량 주문으로 Vertex AI Search에서 이루어진 호출을 보장할 수 없습니다.
다음 표에는 프로비저닝된 처리량을 지원하는 Google 모델의 처리량, 구매 증분, 소진율이 나와 있습니다. 초당 처리량은 초당 모든 요청의 프롬프트 입력과 생성된 출력으로 정의됩니다.
워크로드에 필요한 토큰 수를 확인하려면 SDK 토크나이저 또는 countTokens API를 참조하세요.
모델 | GSU당 초당 처리량 | 단위 | 최소 GSU 구매 증분 | 소진율 |
---|---|---|---|---|
Gemini 2.5 Pro | 540 | 토큰 | 1 |
입력 토큰 200,000개 이하: 1개의 입력 텍스트 토큰 = 1개의 토큰 1개의 입력 이미지 토큰 = 1개의 토큰 1개의 입력 동영상 토큰 = 1개의 토큰 1개의 입력 오디오 토큰 = 1개의 토큰 1개의 출력 응답 텍스트 토큰 = 8개의 토큰 1개의 출력 추론 텍스트 토큰 = 8개의 토큰 입력 토큰 200,000개 초과: 1개의 입력 텍스트 토큰 = 2개의 토큰 1개의 입력 이미지 토큰 = 2개의 토큰 1개의 입력 동영상 토큰 = 2개의 토큰 1개의 입력 오디오 토큰 = 2개의 토큰 1개의 출력 응답 텍스트 토큰 = 12개의 토큰 1개의 출력 추론 텍스트 토큰 = 12개의 토큰 |
Gemini 2.5 Flash | 4480 | 토큰 | 1 |
입력 텍스트 토큰 1개 = 토큰 1개 입력 이미지 토큰 1개 = 토큰 1개 입력 동영상 토큰 1개 = 토큰 1개 입력 오디오 토큰 1개 = 토큰 7개 출력 응답 텍스트 토큰 1개 = 토큰 4개 출력 사고 응답 텍스트 토큰 1개 = 토큰 24개 출력 추론 텍스트 토큰 1개 = 토큰 24개 |
Gemini 2.0 Flash | 3360 | 토큰 | 1 |
입력 텍스트 토큰 1개 = 토큰 1개 1개의 입력 이미지 토큰 = 토큰 1개 1개의 입력 동영상 토큰 = 토큰 1개 1개의 입력 오디오 토큰 = 토큰 7개 1개의 출력 텍스트 토큰 = 토큰 4개 |
Gemini 2.0 Flash-Lite | 6720 | 토큰 | 1 |
입력 텍스트 토큰 1개 = 토큰 1개 1개의 입력 이미지 토큰 = 토큰 1개 1개의 입력 동영상 토큰 = 토큰 1개 1개의 입력 오디오 토큰 = 토큰 1개 1개의 출력 텍스트 토큰 = 토큰 4개 |
Imagen 3 | 0.025 | 이미지 | 1 | 프로비저닝된 처리량 할당량에는 출력 이미지만 반영됩니다. |
Imagen 3 Fast | 0.05 | 이미지 | 1 | 프로비저닝된 처리량 할당량에는 출력 이미지만 반영됩니다. |
Imagen 2 | 0.05 | 이미지 | 1 | 프로비저닝된 처리량 할당량에는 출력 이미지만 반영됩니다. |
Imagen 2 Edit | 0.05 | 이미지 | 1 | 프로비저닝된 처리량 할당량에는 출력 이미지만 반영됩니다. |
MedLM medium | 2,000 | 문자 | 1 | 입력 문자 1자 = 문자 1자 출력 문자 1자 = 문자 2자 |
MedLM large | 200 | 문자 | 1 | 입력 문자 1자 = 문자 1자 출력 문자 1자 = 문자 3자 |
MedLM large 1.5 | 200 | 문자 | 1 | 입력 문자 1자 = 문자 1자 출력 문자 1자 = 문자 3자 |
지원되는 위치에 대한 자세한 내용은 사용 가능한 위치를 참고하세요.
새 모델이 출시되면 업그레이드할 수 있습니다. 모델 사용 가능 여부 및 지원 중단 날짜에 관한 자세한 내용은 Google 모델을 참조하세요.
감독 기반 세부 조정 모델 지원
감독 기반 세부 조정을 지원하는 Google 모델에서는 다음이 지원됩니다.
프로비저닝된 처리량은 기본 모델과 이러한 기본 모델의 감독 기반 세부 조정 버전 모두에 적용할 수 있습니다.
감독 기반 세부 조정된 모델 엔드포인트와 이에 상응하는 기본 모델 수가 동일한 프로비저닝된 처리량 할당량에 반영됩니다.
예를 들어 특정 프로젝트의
gemini-2.0-flash-lite-001
에 대해 구매한 프로비저닝된 처리량은 해당 프로젝트 내에서 생성된gemini-2.0-flash-lite-001
의 감독 기반 세부 조정된 버전에서 이루어진 요청에 우선순위를 둡니다. 적절한 헤더를 사용하여 트래픽 동작을 제어합니다.
파트너 모델
다음 표에는 프로비저닝된 처리량을 지원하는 파트너 모델의 처리량, 구매 증분, 소진율이 나와 있습니다. Claude 모델은 초당 토큰으로 측정되며, 이는 초당 모든 요청의 입력 및 출력 토큰의 총합으로 정의됩니다.
모델 | GSU당 처리량(토큰/초) | 최소 GSU 구매 | GSU 구매 증분 | 소진율 |
---|---|---|---|---|
Anthropic의 Claude 3.7 Sonnet | 350 | 25 | 1 | 입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 캐시 쓰기 토큰 1개 = 토큰 1.25개 캐시 히트 토큰 1개 = 토큰 0.1개 |
Anthropic의 Claude 3.5 Sonnet v2 | 350 | 25 | 1 | 입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 캐시 쓰기 토큰 1개 = 토큰 1.25개 캐시 히트 토큰 1개 = 토큰 0.1개 |
Anthropic의 Claude 3.5 Haiku | 2,000 | 10 | 1 | 입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 캐시 쓰기 토큰 1개 = 토큰 1.25개 캐시 히트 토큰 1개 = 토큰 0.1개 |
Anthropic의 Claude 3 Opus | 70 | 35 | 1 | 입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 캐시 쓰기 토큰 1개 = 토큰 1.25개 캐시 히트 토큰 1개 = 토큰 0.1개 |
Anthropic의 Claude 3 Haiku | 4,200 | 5 | 1 | 입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 캐시 쓰기 토큰 1개 = 토큰 1.25개 캐시 히트 토큰 1개 = 토큰 0.1개 |
Anthropic의 Claude 3.5 Sonnet | 350 | 25 | 1 | 입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 캐시 쓰기 토큰 1개 = 토큰 1.25개 캐시 히트 토큰 1개 = 토큰 0.1개 |
지원되는 위치에 대한 자세한 내용은 Anthropic Claude 사용 가능한 리전을 참조하세요. Anthropic 모델에 대해 프로비저닝된 처리량을 주문하려면 Google Cloud 계정 담당자에게 문의하세요.