Google Cloud 는 공정성을 보장하고 리소스 사용 및 가용성의 급증을 줄이기 위해 할당량을 사용합니다. 할당량은 Google Cloud 프로젝트에서 사용할 수 있는Google Cloud 리소스의 양을 제한합니다. 할당량은 하드웨어, 소프트웨어, 네트워크 구성요소를 포함하여 다양한 리소스 유형에 적용됩니다. 예를 들어 할당량에 따라 서비스에 대한 API 호출 수, 프로젝트에서 동시에 사용하는 부하 분산기 수, 만들 수 있는 프로젝트 수가 제한될 수 있습니다. 할당량은 서비스 과부하를 방지하여Google Cloud 사용자 커뮤니티를 보호합니다. 또한 할당량은 자체 Google Cloud 리소스를 관리하는 데 도움이 됩니다.
Cloud Quotas 시스템은 다음을 수행합니다.
- Google Cloud 제품 및 서비스 소비량 모니터링
- 리소스 소비 제한
- 할당량 값 변경을 요청하고 할당량 조정을 자동화하는 방법을 제공합니다.
대부분의 경우 할당량이 허용하는 것보다 더 많은 리소스를 소비하려고 하면 시스템에서 리소스에 대한 액세스를 차단하고 수행하려는 작업이 실패합니다.
할당량은 일반적으로 Google Cloud 프로젝트 수준에서 적용됩니다. 한 프로젝트의 리소스를 사용해도 다른 프로젝트에서 사용 가능한 할당량에는 영향을 미치지 않습니다. Google Cloud 프로젝트 내에서 할당량은 모든 애플리케이션과 IP 주소에 공유됩니다.
비율 제한
이 표는generate_content_input_tokens_per_minute_per_base_model
측정항목의 모든 리전에서 다음 모델에 적용되는 비율 제한을 나열합니다.
기본 모델 | 분당 토큰 수 |
---|---|
base_model: gemini-1.5-flash (버전 001) |
4M(4,000,000) |
base_model: gemini-1.5-pro (버전 001) |
4M(4,000,000) |
Gemini 2.0 Flash
다음 표에는 지원되는 리전에서 나열된 측정항목에 대해 Gemini 2.0 Flash에 적용되는 비율 한도가 나와 있습니다.할당량 이름 | 분당 토큰 수 | |
---|---|---|
미디어 해상도 높음 미디어 해상도 중간 기본값 |
미디어 해상도 낮음 | |
generate_content_image_input_per_base_model_id_and_resolution |
|
|
generate_content_video_input_per_base_model_id_and_resolution |
|
|
generate_content_audio_input_per_base_model_id_and_resolution |
|
|
generate_content_document_input_per_base_model_id_and_resolution |
|
|
Gemini 2.0 Flash-Lite
다음 표에는 지원되는 리전에서 나열된 측정항목에 대해 Gemini 2.0 Flash-Lite에 적용되는 비율 한도가 나와 있습니다.할당량 이름 | 분당 토큰 수 | |
---|---|---|
미디어 해상도 높음 미디어 해상도 중간 기본값 |
미디어 해상도 낮음 | |
generate_content_image_input_per_base_model_id_and_resolution |
|
|
generate_content_video_input_per_base_model_id_and_resolution |
|
|
generate_content_audio_input_per_base_model_id_and_resolution |
|
|
generate_content_document_input_per_base_model_id_and_resolution |
|
|
Gemini 1.5 Flash(gemini-1.5-flash-002
) 및 Gemini 1.5 Pro(gemini-1.5-pro-002
) 버전 002의 할당량 정보는 Google 모델을 참조하세요.
리전 및 모델별 할당량
분당 요청 수(RPM) 할당량은 기본 모델과 해당 모델의 모든 버전, 식별자, 조정된 버전에 적용됩니다. 다음 예시는 RPM 할당량이 적용되는 방식을 보여줍니다.- 기본 모델
gemini-1.0-pro
에 대한 요청과 안정화 버전gemini-1.0-pro-001
에 대한 요청은 기본 모델gemini-1.0-pro
의 RPM 할당량에 대한 요청 2개로 계산됩니다. - 기본 모델의 두 버전인 `gemini-1.0-pro-001` 및 `gemini-1.0-pro-002`에 대한 요청은 기본 모델 `gemini-1.0-pro`의 RPM 할당량에 대한 요청 2개로 계산됩니다.
- 기본 모델의 두 버전인 `gemini-1.0-pro-001` 및 `my-tuned-chat-model`이라는 조정된 버전에 대한 요청은 기본 모델인 `gemini-1.0-pro`에 대한 요청 2개로 계산됩니다.
Google Cloud 콘솔에서 할당량 보기
Google Cloud 콘솔에서 할당량을 보려면 다음을 수행합니다.- Google Cloud 콘솔에서 IAM 및 관리자 할당량 페이지로 이동합니다.
- 콘솔에서 할당량 보기를 클릭합니다.
- 필터 필드에서 측정기준 또는 측정항목을 지정합니다.
측정기준(모델 식별자) | 측정항목(Gemini 모델의 할당량 식별자) |
---|---|
base_model: gemini-1.5-flash base_model: gemini-1.5-pro |
다음에서 조정을 요청할 수 있습니다.
|
다른 모든 모델 | 할당량은 하나만 조정할 수 있습니다.
|
리전 및 모델별 할당량 보기
리전을 선택하여 사용 가능한 각 모델의 할당량 한도를 확인하세요.
할당량 늘리기
Vertex AI의 생성형 AI 할당량을 상향 조정하려면 Google Cloud 콘솔을 사용해 할당량 상향을 요청하면 됩니다. 할당량에 대한 자세한 내용은 할당량 작업을 참조하세요.
RAG Engine 할당량
RAG Engine을 사용하여 검색 증강 생성(RAG)을 수행하는 각 서비스에는 다음 할당량이 적용되며, 할당량은 분당 요청 수(RPM)로 측정됩니다.서비스 | 할당량 | 측정항목 |
---|---|---|
RAG Engine 데이터 관리 API | 60 RPM | VertexRagDataService requests per minute per region |
RetrievalContexts API |
1,500 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1,500 RPM | Online prediction requests per base model per minute per region per base_model 지정할 수 있는 추가 필터는 base_model: textembedding-gecko 입니다. |
서비스 | 한도 | 측정항목 |
---|---|---|
동시 ImportRagFiles 요청 |
3 RPM | VertexRagService concurrent import requests per region |
ImportRagFiles 요청당 최대 파일 수 |
10,000 | VertexRagService import rag files requests per region |
비율 제한 및 할당량에 관한 자세한 내용은 Vertex AI의 생성형 AI 비율 제한을 참조하세요.
일괄 요청
일괄 요청의 할당량과 한도는 모든 리전에서 동일합니다.동시 일괄 요청 한도
다음 표에는 동시 일괄 요청 수에 대한 한도가 나와 있습니다.할당량 | 값 |
---|---|
Gemini 모델 | 8 |
동시 일괄 요청 할당량
다음 표에는 동시 일괄 요청 수에 대한 할당량이 나와 있으며, 이는 Gemini 모델에는 적용되지 않습니다.할당량 | 값 |
---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
커스텀 학습 모델 할당량
특정 프로젝트 및 리전의 Vertex AI의 생성형 AI 조정 모델에 적용되는 할당량은 다음과 같습니다.할당량 | 값 |
---|---|
리전에 따라 제한된 이미지 학습 TPU V3 포드 코어 * 지원되는 리전 - europe-west4 |
64 |
리전에 따라 제한된 이미지 학습 Nvidia A100 80GB GPU * 지원되는 리전 - us-central1 * 지원되는 리전 - us-east4 |
8 2 |
텍스트 임베딩 한도
각 텍스트 임베딩 모델 요청에는 최대 250개의 입력 텍스트(입력 텍스트당 임베딩 1개 생성)와 요청당 20,000개의 토큰이 포함될 수 있습니다. 각 입력 텍스트의 처음 2,048개 토큰만 임베딩을 계산하는 데 사용됩니다.
text-embedding-large-exp-03-07
의 경우 각 입력 텍스트의 처음 8,192개 토큰이 임베딩을 계산하는 데 사용되며 각 요청에는 단일 입력 텍스트만 포함될 수 있습니다. 이 모델의 할당량이 text-embedding-large-001
이름으로 표시됩니다.
Gen AI Evaluation Service 서비스 할당량
Gen AI Evaluation Service는gemini-2.0-flash
를 심사 모델로 사용하고 모델 기반 측정항목에 대한 일관되고 객관적인 평가를 보장하기 위한 메커니즘을 사용합니다.
모델 기반 측정항목에 대한 단일 평가 요청으로 인해 Gen AI Evaluation Service에 대한 여러 개의 기본 요청이 발생할 수 있습니다. 각 모델의 할당량은 프로젝트별로 계산됩니다. 즉, 모델 추론 및 모델 기반 평가를 위해 gemini-2.0-flash
으로 전달되는 모든 요청이 할당량에 반영됩니다. 모델마다 할당량이 다르게 설정됩니다. Gen AI Evaluation Service의 할당량과 기본 자동 평가 도구 모델의 할당량이 표에 나와 있습니다.
요청 할당량 | 기본 할당량 |
---|---|
분당 Gen AI Evaluation Service 요청 수 | 리전별 프로젝트당 1,000개 요청 |
base_model: gemini-2.0-flash 의 분당 온라인 예측 요청 수 |
리전 및 모델별 할당량을 참조하세요. |
한도 | 값 |
---|---|
Gen AI Evaluation Service 요청 제한 시간 | 60초 |
파이프라인 평가 할당량
평가 파이프라인 서비스를 사용하는 동안 할당량과 관련된 오류가 발생하면 할당량 증가 요청을 제출해야 할 수 있습니다. 자세한 사항은 할당량 보기 및 관리를 참조하세요. 평가 파이프라인 서비스는 Vertex AI Pipelines을 사용하여PipelineJobs
를 실행합니다. Vertex AI Pipelines의 관련 할당량을 알아보세요. 다음은 일반적인 할당량 권장사항입니다.
서비스 | 할당량 | 권장사항 |
---|---|---|
Vertex AI API | 리전별 동시 LLM 일괄 예측 작업 | 점별: 1 * num_concurrent_pipelines 쌍별: 2 * num_concurrent_pipelines |
Vertex AI API | 리전별 분당 평가 요청 수 | 1000 * num_concurrent_pipelines |
Tasks | 할당량 | 기본 모델 | 권장사항 |
---|---|---|---|
summarization question_answering |
base_model별 리전별 기본 모델별 분당 온라인 예측 요청 | text-bison |
60 * num_concurrent_pipelines |
Vertex AI Pipelines
각 조정 작업에는 Vertex AI Pipelines가 사용됩니다. 자세한 내용을 알아보려면 Vertex AI Pipelines 할당량 및 한도를 참조하세요.
Vertex AI Agent Engine
다음 할당량 및 한도는 각 리전의 특정 프로젝트에 대한 Vertex AI Agent Engine에 적용됩니다.할당량 | 값 |
---|---|
분당 Vertex AI Agent Engine 만들기/삭제/업데이트 수 | 10 |
분당 Vertex AI Agent Engine 쿼리/스트림 쿼리 | 60 |
최대 Vertex AI Agent Engine 리소스 수 | 100 |
오류 코드 429 문제 해결
429 오류를 해결하려면 오류 코드 429를 참조하세요.
다음 단계
- 동적 공유 할당량에 대한 자세한 내용은 동적 공유 할당량을 참조하세요.
- Vertex AI의 할당량 및 한도에 대한 자세한 내용은 Vertex AI 할당량 및 한도를 참조하세요.
- Google Cloud 할당량 및 한도에 대한 자세한 내용은 할당량 값 및 시스템 한도 이해를 참조하세요.