구매 전 고려사항
프로비저닝된 처리량을 구매할지 결정하려면 다음을 고려하세요.
기간 중에는 주문을 취소할 수 없습니다.
프로비저닝된 처리량 구매는 약정이므로 기간 중간에 주문을 취소할 수 없습니다. 하지만 구매한 GSU 수는 늘릴 수 있습니다. 약정을 실수로 구매했거나 구성에 문제가 있는 경우 Google Cloud 계정 담당자에게 문의하여 지원을 받으세요.
구독을 자동 갱신할 수 있습니다.
주문을 제출할 때 기간 종료 시 구독을 자동 갱신하거나 구독을 만료시킬 수 있습니다. 자동 갱신 프로세스를 취소할 수 있습니다. 자동 갱신 전에 구독을 취소하려면 다음 기간이 시작되기 30일 전에 자동 갱신을 취소합니다.
매월 자동으로 갱신되도록 월간 구독을 구성할 수 있습니다. 주간 약관은 자동 갱신을 지원하지 않습니다.
자세한 내용은 프로비저닝된 처리량 순서 변경을 참고하세요. 계정 담당자 Google Cloud 에게 문의하여 지원을 요청할 수도 있습니다.
알림을 통해 자동 갱신 동작, 모델, 모델 버전 또는 리전을 변경할 수 있습니다.
프로젝트, 리전, 모델, 모델 버전, 자동 갱신 동작을 선택하고 주문이 승인 및 활성화되면 사용 가능한 용량에 따라 프로비저닝된 처리량이 사용 설정됩니다. Google Cloud 콘솔을 사용하여 자동 갱신 동작, 모델 또는 모델 버전을 변경할 수 있으며, 이 콘솔을 사용하여 기존 주문을 수정할 수도 있습니다. 자세한 내용은 프로비저닝된 처리량 순서 변경을 참고하세요.
지역을 변경하려면 계정 Google Cloud 담당자에게 문의하세요. 새 정기 결제 종료일이 포함된 새 주문이 필요할 수 있습니다.
모든 변경사항은 최선의 방식으로 처리되며 일반적으로 최초 요청 후 영업일 기준 10일 이내에 처리됩니다.
모델 변경은 특정 게시자로 제한됩니다. 예를 들어 프로비저닝된 처리량의 모델 할당을 Google Gemini 2.0 Pro에서 Google Gemini 2.0 Flash로 전환할 수는 있지만 Google Gemini 2.0 Flash에서 Anthropic의 Claude 3.5 Sonnet v2로 전환할 수는 없습니다.
기본적으로 초과분은 사용한 만큼만 지불(paygo)로 청구됩니다.
처리량이 프로비저닝된 처리량 주문 금액을 초과하면 초과분은 표준 사용한 만큼만 지불로 처리되고 청구됩니다. 요청별로 초과분을 관리할 수 있습니다. 자세한 내용은 프로비저닝된 처리량 사용을 참고하세요.
1주일 기간의 프로비저닝된 처리량 구매
월간 구독 대신 1주일 기간의 프로비저닝된 처리량을 구매할 수 있으며, 이 경우 프로비저닝된 처리량 액세스 제어 양식을 제출한 후 주문 시부터 2주 이내에 시작일을 지정할 수 있습니다.
가격에 대한 자세한 내용은 프로비저닝된 처리량을 참고하세요.
역할 및 권한
다음 역할은 Vertex AI 프로비저닝 처리량을 관리할 수 있는 전체 액세스 권한을 부여합니다.
roles/aiplatform.provisionedThroughputAdmin
: Vertex AI 프로비저닝된 처리량 리소스에 액세스할 수 있습니다.
이 역할에는 다음 권한이 포함됩니다.
권한 | 설명 |
---|---|
aiplatform.googleapis.com/provisionedThroughputs.create |
새 프로비저닝된 처리량 주문을 제출합니다. |
aiplatform.googleapis.com/provisionedThroughputs.get |
특정 프로비저닝된 처리량 주문을 확인합니다. |
aiplatform.googleapis.com/provisionedThroughputs.list |
프로비저닝된 처리량 주문 모두 보기 |
aiplatform.googleapis.com/provisionedThroughputs.update |
프로비저닝된 처리량 주문을 수정합니다. |
aiplatform.googleapis.com/provisionedThroughputs.cancel |
대기 중인 주문 또는 대기 중인 업데이트를 취소합니다. |
프로비저닝된 처리량 주문
일부 Imagen 기능은 공개적으로 제공되지 않을 수 있습니다. 자세한 내용은 제한된 정식 버전 및 미리보기 기능을 참고하세요.
MedLM-large-1.5를 사용하기 위해 주문하기 전에 Google Cloud 계정 담당자에게 문의하여 액세스 권한을 요청하세요. QPM이 30,000개를 넘을 것으로 예상되는 경우 프로비저닝된 처리량 주문을 극대화하려면 다음 정보를 사용하여 기본 Vertex AI 시스템 할당량의 상향을 요청하세요.
- 서비스: Vertex AI API입니다.
- 이름:
Online prediction requests per minute per region
- 서비스 유형: 할당량입니다.
- 측정기준: 프로비저닝된 처리량을 주문한 리전입니다.
- 값: 선택한 온라인 예측 트래픽 한도입니다.
프로비저닝된 처리량 주문은 주문 규모와 사용 가능한 용량을 기준으로 처리됩니다. 요청한 GSU 수와 사용 가능한 용량에 따라 주문을 처리하는 데 몇 분에서 몇 주가 걸릴 수 있습니다.
프로비저닝된 처리량을 구매하려면 다음 단계를 따르세요.
콘솔
- Google Cloud 콘솔에서 프로비저닝된 처리량 페이지로 이동합니다.
- 새 주문을 시작하려면 새 주문을 클릭합니다.
- 주문 이름을 입력합니다.
- 모델을 선택합니다.
- 리전 선택
구매해야 하는 생성형 AI 확장 단위 (GSU) 수를 입력합니다.
선택사항: 생성형 AI 확장 단위 예측 도구를 사용하여 필요한 GSU 수를 추정할 수 있습니다. 이 도구를 사용하려면 다음 단계를 따르세요.
- 추정 도구를 클릭합니다.
- 모델을 선택합니다.
선택한 모델을 기반으로 세부정보를 입력하여 필요한 GSU 수를 추정합니다.
Gemini 2.0 모델의 경우 다음을 입력합니다.
- 보장이 필요한 예상 초당 쿼리 수
- 쿼리당 입력 토큰
- 쿼리당 이미지 토큰 입력
- 쿼리당 동영상 토큰 입력
- 쿼리당 입력 오디오 토큰
- 쿼리당 텍스트 토큰 출력
Imagen 모델의 경우 다음을 입력합니다.
- 초당 쿼리 수
- 쿼리당 출력 이미지
추정 도구에 입력한 값을 사용하려면 계산된 값 사용을 클릭합니다.
기간을 선택합니다.
1주일을 선택하면 주문 후 2주 이내에 시작 날짜와 시간을 입력할 수 있습니다. 시작 날짜와 시간을 제공하지 않으면 Google에서 이용 가능한 수용 인원을 확인하는 대로 주문을 처리합니다. 요청한 시작일 및 시간은 최선의 방식으로 처리되며, 주문 상태가 승인됨으로 설정될 때까지는 주문이 이 날짜에 처리된다고 보장되지 않습니다.
요청한 시작일이 현재 날짜와 너무 가까우면 주문이 요청한 시작일 이후에 승인되고 활성화될 수 있습니다. 즉, 종료일은 활성화일로부터 7일 남게 됩니다.
갱신 옵션을 선택합니다.
계속을 클릭합니다.
요약 섹션에서 주문의 가격 및 처리량 추정치를 검토합니다. 양식에 나열되고 링크된 약관을 읽습니다.
주문을 완료하려면 확인을 클릭합니다.
주문 규모와 사용 가능한 용량에 따라 주문 처리에 몇 분에서 몇 주까지 걸릴 수 있습니다. 주문이 처리되면 Google Cloud 콘솔의 상태가 활성으로 변경됩니다. 주문이 활성화된 후에만 주문 금액이 청구됩니다.
프로비저닝된 처리량 주문 변경
이 표에서는 주문 상태 및 기존 조건에 따라 Google Cloud 콘솔을 통해 프로비저닝된 처리량 주문을 수정하는 방법을 설명합니다. 주문 수정은 미리보기 기능이며 콘솔을 통해 이루어진 온라인 주문에만 사용할 수 있습니다. 오프라인 주문을 변경하려면 Google Cloud 계정 담당자에게 문의하세요.
또한 Google Cloud 콘솔을 사용하여 모델 또는 모델 버전을 변경하면 기존 주문이 수정되지만 정기 결제 종료일은 동일하게 유지됩니다.
주문 상태 | 작업 | 참고 | Google Cloud 콘솔 단계 |
---|---|---|---|
검토 대기 중 | 주문을 취소할 수 있습니다. |
주문을 추가로 변경해야 하는 경우 대기 중인 주문을 취소하고 새로 주문하세요. 모델이 여러 개인 경우 각 모델에 한 번에 하나의 대기 중인 주문 수정 또는 대기 중인 주문만 있을 수 있습니다. |
Google Cloud 콘솔에서 대기 중인 주문을 취소하려면 다음 단계를 따르세요.
|
활성 |
기존 주문의 GSU를 늘릴 수 있습니다. 자동 갱신을 사용 설정하거나 중지할 수 있습니다. 모델 또는 모델 버전을 변경할 수 있습니다. |
다음 두 가지 조건이 모두 충족되면 주문을 변경할 수 없습니다.
|
Google Cloud 콘솔에서 활성 주문을 변경하려면 다음 방법 중 하나를 사용하세요.
|
주문 상태 확인
프로비저닝된 처리량 주문을 제출하면 주문 상태가 다음 중 하나로 표시될 수 있습니다.
- 검토 대기 중: 주문이 완료되었습니다. 주문 프로비저닝에 사용할 수 있는 용량에 따라 승인이 달라지므로 주문이 검토 및 승인을 기다리는 중입니다. 대기 중인 주문 상태에 관한 자세한 내용은 Google Cloud 계정 담당자에게 문의하세요.
- 승인됨: Google에서 주문을 승인했습니다.
- Active(활성): Google에서 주문을 활성화하면 결제가 시작됩니다.
- 만료됨: 주문이 만료되었습니다.
프로비저닝된 처리량 주문 보기
프로비저닝된 처리량 주문을 보려면 다음 단계를 따르세요.
콘솔
- Google Cloud 콘솔에서 프로비저닝된 처리량 페이지로 이동합니다.
- 리전 선택 주문 목록이 표시됩니다.