Vertex AI의 생성형 AI 할당량 및 시스템 한도

이 페이지에서는 생성형 AI 서비스를 사용하는 두 가지 방법을 소개하고, 지역 및 모델별 할당량 목록을 제공하며, Google Cloud 콘솔에서 할당량을 확인하고 수정하는 방법을 보여줍니다.

개요

생성형 AI 서비스를 사용하는 방법에는 두 가지가 있습니다. 사용한 만큼만 지불(PayGo)을 선택하거나 프로비저닝된 처리량을 사용하여 미리 지불할 수 있습니다.

PayGo를 사용하는 경우 생성형 AI 기능 사용량에는 사용하는 모델에 따라 다음 할당량 시스템 중 하나가 적용됩니다.

  • Gemini 2.0 이전 모델은 공정성을 보장하고 리소스 사용 및 가용성의 급증을 줄이기 위해 각 생성형 AI 모델에 표준 할당량 시스템을 사용합니다. 할당량은 특정 Google Cloud 프로젝트 및 지원되는 리전의 Vertex AI 요청의 생성형 AI에 적용됩니다.
  • 최신 모델은 동적 공유 할당량(DSQ)을 사용합니다. DSQ는 특정 모델 및 지역의 모든 고객에게 사용 가능한 PayGo 용량을 동적으로 분배하므로 할당량을 설정하고 할당량 상향 요청을 제출할 필요가 없습니다. DSQ에는 할당량이 없습니다.

애플리케이션의 가용성을 높이고 프로덕션 워크로드의 서비스 수준을 예측 가능하게 하려면 프로비저닝된 처리량을 참고하세요.

모델별 할당량 시스템

다음 모델은 동적 공유 할당량 (DSQ)을 지원합니다.

다음 기존 Gemini 모델은 DSQ를 지원합니다.

  • Gemini 1.5 Pro
  • Gemini 1.5 Flash

Gemini가 아닌 모델과 이전 Gemini 모델은 표준 할당량 시스템을 사용합니다. 자세한 내용은 Vertex AI 할당량 및 한도를 참조하세요.

조정된 모델 할당량

조정된 모델 추론은 기본 모델과 동일한 할당량을 공유합니다. 조정된 모델 추론에는 별도의 할당량이 없습니다.

텍스트 임베딩 한도

각 텍스트 임베딩 모델 요청에는 최대 250개의 입력 텍스트(입력 텍스트당 임베딩 1개 생성)와 요청당 20,000개의 토큰이 포함될 수 있습니다. 각 입력 텍스트의 처음 2,048개 토큰만 임베딩을 계산하는 데 사용됩니다. gemini-embedding-001의 경우 각 요청에는 단일 입력 텍스트만 포함될 수 있습니다. 이 모델의 할당량gemini-embedding 이름으로 표시됩니다.

기본 모델별 분당 콘텐츠 입력 토큰 삽입

주로 RPM 할당량으로 제한되었던 이전 삽입 모델과 달리 Gemini 삽입 모델의 할당량은 프로젝트당 분당 전송할 수 있는 토큰 수를 제한합니다.

할당량
분당 콘텐츠 입력 토큰 삽입 200,000

Vertex AI Agent Engine 한도

다음 한도는 각 리전의 특정 프로젝트에 대한 Vertex AI Agent Engine에 적용됩니다.

설명 한도
분당 Vertex AI Agent Engine 만들기/삭제/업데이트 10
분당 Vertex AI Agent Engine 세션 만들기/삭제/업데이트 100
분당 Vertex AI Agent Engine 쿼리/스트림 쿼리 60
분당 Vertex AI Agent Engine 세션에 이벤트 추가 100
최대 Vertex AI Agent Engine 리소스 수 100

일괄 예측

일괄 예측 작업의 할당량과 한도는 모든 리전에서 동일합니다.

동시 일괄 예측 작업 한도

다음 표에는 동시 일괄 예측 작업 수에 대한 한도가 나와 있습니다.
한도
Gemini 모델의 리전별 동시 일괄 예측 요청 8
제출된 작업 수가 배정된 한도를 초과하면 작업이 큐에 추가되고 한도 용량을 사용할 수 있게 되면 처리됩니다.

동시 일괄 예측 작업 할당량

다음 표에는 동시 일괄 예측 작업의 할당량이 나와 있으며, 이는 Gemini 모델에는 적용되지 않습니다.
할당량
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
제출된 작업 수가 배정된 할당량을 초과하면 작업이 큐에 추가되고 할당량 용량을 사용할 수 있게 되면 처리됩니다.

Google Cloud 콘솔에서 할당량 보기 및 수정

Google Cloud 콘솔에서 할당량을 확인하고 수정하려면 다음 단계를 따르세요.
  1. 할당량 및 시스템 한도 페이지로 이동합니다.
  2. 할당량 및 시스템 한도로 이동

  3. 할당량을 조정하려면 필터aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model 속성을 복사하여 붙여넣습니다. Enter를 누릅니다.
  4. 행 끝에 있는 점 3개를 클릭하고 할당량 수정을 선택합니다.
  5. 창에 새 할당량 값을 입력하고 요청 제출을 클릭합니다.

Vertex AI RAG Engine

RAG Engine을 사용하여 검색 증강 생성(RAG)을 수행하는 각 서비스에는 다음 할당량이 적용되며, 할당량은 분당 요청 수(RPM)로 측정됩니다.
서비스 할당량 측정항목
RAG Engine 데이터 관리 API 60 RPM VertexRagDataService requests per minute per region
RetrievalContexts API 1,500 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1,500 RPM Online prediction requests per base model per minute per region per base_model

지정할 수 있는 추가 필터는 base_model: textembedding-gecko입니다.
적용되는 요청 한도는 다음과 같습니다.
서비스 한도 측정항목
동시 ImportRagFiles 요청 3 RPM VertexRagService concurrent import requests per region
ImportRagFiles 요청당 최대 파일 수 10,000 VertexRagService import rag files requests per region

비율 제한 및 할당량에 관한 자세한 내용은 Vertex AI의 생성형 AI 비율 제한을 참조하세요.

Gen AI Evaluation Service

Gen AI Evaluation Service는 모델 기반 측정항목의 기본 평가 모델로 gemini-2.0-flash를 사용합니다. 모델 기반 측정항목에 대한 단일 평가 요청으로 인해 Gen AI Evaluation Service에 대한 여러 개의 기본 요청이 발생할 수 있습니다. 각 모델의 할당량은 프로젝트별로 계산됩니다. 즉, 모델 추론 및 모델 기반 평가를 위해 gemini-2.0-flash로 전달되는 모든 요청이 할당량에 반영됩니다. Gen AI Evaluation Service의 할당량과 기본 평가 모델의 할당량은 다음 표에 나와 있습니다.
요청 할당량 기본 할당량
분당 Gen AI Evaluation Service 요청 수 리전별 프로젝트당 1,000개 요청
base_model: gemini-2.0-flash
분당 온라인 예측 요청 수
리전 및 모델별 할당량을 참조하세요.

Gen AI Evaluation Service를 사용하는 동안 할당량과 관련된 오류가 발생하면 할당량 증가 요청을 제출해야 할 수 있습니다. 자세한 사항은 할당량 보기 및 관리를 참조하세요.

한도
Gen AI Evaluation Service 요청 제한 시간 60초

새 프로젝트에서 Gen AI Evaluation Service를 처음 사용하는 경우 최대 2분까지 초기 설정이 지연될 수 있습니다. 첫 번째 요청이 실패하면 몇 분 정도 기다린 후 다시 시도하세요. 후속 평가 요청은 일반적으로 60초 이내에 완료됩니다.

모델 기반 측정항목의 최대 입력 및 출력 토큰은 판사 모델로 사용되는 모델에 따라 다릅니다. 모델 목록은 Google 모델을 참고하세요.

Vertex AI Pipelines 할당량

각 조정 작업에는 Vertex AI Pipelines가 사용됩니다. 자세한 내용을 알아보려면 Vertex AI Pipelines 할당량 및 한도를 참조하세요.

다음 단계