프로비저닝된 처리량 구매

이 페이지에서는 프로비저닝된 처리량을 구독하기 전에 고려해야 할 세부정보, 프로비저닝된 처리량 주문을 하거나 확인하는 데 필요한 권한, 주문을 하고 확인하는 방법에 대한 안내를 제공합니다.

구매 전 고려사항

프로비저닝된 처리량을 구매할지 결정하려면 다음을 고려하세요.

  • 계약 기간 중에는 주문을 취소할 수 없습니다.

    프로비저닝된 처리량 구매는 약정이므로 계약 기간 중에는 주문을 취소할 수 없습니다. 하지만 구매한 GSU 수는 늘릴 수 있습니다. 약정을 실수로 구매했거나 구성에 문제가 있는 경우 Google Cloud 계정 담당자에게 문의하여 도움을 받으세요.

  • 구독을 자동 갱신할 수 있습니다.

    주문을 제출할 때 기간 종료 시 구독을 자동 갱신하거나 구독을 만료시킬 수 있습니다. 자동 갱신 프로세스를 취소할 수 있습니다. 자동 갱신 전에 구독을 취소하려면 다음 기간이 시작되기 30일 전에 자동 갱신을 취소합니다.

    매월 자동으로 갱신되도록 월간 구독을 구성할 수 있습니다. 주간 단위 계약은 자동 갱신을 지원하지 않습니다.

    자세한 내용은 프로비저닝된 처리량 주문 변경을 참조하세요. Google Cloud 계정 담당자에게 문의하여 지원을 요청할 수도 있습니다.

  • 알림을 통해 자동 갱신 동작, 모델, 모델 버전 또는 리전을 변경할 수 있습니다.

    프로젝트, 리전, 모델, 모델 버전, 자동 갱신 동작을 선택하고 주문이 승인 및 활성화되면 사용 가능한 용량에 따라 프로비저닝된 처리량이 사용 설정됩니다. Google Cloud 콘솔을 사용하여 자동 갱신 동작, 모델 또는 모델 버전을 변경할 수 있으며, 이 콘솔을 사용하여 기존 주문을 수정할 수도 있습니다. 자세한 내용은 프로비저닝된 처리량 주문 변경을 참고하세요.

    리전을 변경하려면 Google Cloud 계정 담당자에게 문의하세요. 새 정기 결제 종료일이 포함된 새 주문이 필요할 수 있습니다.

    모든 변경사항은 최선의 방식으로 처리되며 일반적으로 최초 요청 후 영업일 기준 10일 이내에 처리됩니다.

    모델 변경은 특정 게시자로 제한됩니다. 예를 들어 프로비저닝된 처리량의 모델 할당을 Google Gemini 2.0 Pro에서 Google Gemini 2.0 Flash로 전환할 수는 있지만 Google Gemini 2.0 Flash에서 Anthropic의 Claude 3.5 Sonnet v2로 전환할 수는 없습니다.

  • 기본적으로 초과분은 사용한 만큼만 지불로 청구됩니다.

    처리량이 프로비저닝된 처리량 주문 금액을 초과하면 초과분은 표준 사용한 만큼만 지불로 처리되고 청구됩니다. 요청별로 초과분을 제어할 수 있습니다. 자세한 내용은 프로비저닝된 처리량 사용을 참조하세요.

가격 책정에 대한 자세한 내용은 프로비저닝된 처리량을 참조하세요.

프리뷰 모델에 프로비저닝된 처리량 구매

정식 버전의 모델이 출시되지 않은 경우 미리보기 버전의 Google 모델에 프로비저닝된 처리량을 구매할 수 있습니다.

미리보기 모델에 대한 프로비저닝된 처리량 주문이 활성 상태이고 모델의 정식 버전이 출시된 경우 다음 중 하나를 수행할 수 있습니다.

  • 주문을 정식 버전의 모델로 이동합니다. 주문을 정식 버전 모델로 이동한 후에는 주문을 미리보기 모델로 다시 전환할 수 없습니다. 주문 변경에 관한 자세한 내용은 프로비저닝된 처리량 주문 변경을 참고하세요.

  • 또는 미리보기 버전이 안정적일 때까지 모델의 미리보기 버전에 프로비저닝된 처리량을 계속 사용합니다. 안정화 버전 및 지원 중단된 버전에 관한 자세한 내용은 모델 버전 및 수명 주기를 참고하세요.

역할 및 권한

다음 역할은 Vertex AI 프로비저닝된 처리량을 관리할 수 있는 전체 액세스 권한을 부여합니다.

  • roles/aiplatform.provisionedThroughputAdmin: Vertex AI 프로비저닝된 처리량 리소스에 액세스할 수 있습니다.

이 역할에는 다음 권한이 포함됩니다.

권한 설명
aiplatform.googleapis.com/provisionedThroughputs.create 새 프로비저닝된 처리량 주문을 제출합니다.
aiplatform.googleapis.com/provisionedThroughputs.get 특정 프로비저닝된 처리량 주문을 확인합니다.
aiplatform.googleapis.com/provisionedThroughputs.list 프로비저닝된 처리량 주문을 모두 확인합니다.
aiplatform.googleapis.com/provisionedThroughputs.update 프로비저닝된 처리량 주문을 수정합니다.
aiplatform.googleapis.com/provisionedThroughputs.cancel 대기 중인 주문 또는 대기 중인 업데이트를 취소합니다.

프로비저닝된 처리량 주문

일부 Imagen 기능은 공개적으로 제공되지 않을 수 있습니다. 자세한 내용은 제한된 정식 버전 및 미리보기 기능을 참조하세요.

MedLM-large-1.5를 사용하기 위해 주문하기 전에 Google Cloud 계정 담당자에게 문의하여 액세스 권한을 요청하세요.

QPM이 30,000개를 넘을 것으로 예상되는 경우 프로비저닝된 처리량 주문을 극대화하려면 다음 정보를 사용하여 기본 Vertex AI 시스템 할당량의 상향을 요청하세요.

  • 서비스: Vertex AI API
  • 이름: Online prediction requests per minute per region
  • 서비스 유형: 할당량
  • 측정기준: 프로비저닝된 처리량을 주문한 리전
  • : 선택한 온라인 예측 트래픽 한도

프로비저닝된 처리량 주문은 주문 규모와 사용 가능한 용량을 기준으로 처리됩니다. 요청한 GSU 수와 사용 가능한 용량에 따라 주문을 처리하는 데 몇 분에서 몇 주까지 걸릴 수 있습니다.

프로비저닝된 처리량을 구매하려면 다음 단계를 따르세요.

콘솔

  1. Google Cloud 콘솔에서 프로비저닝된 처리량 페이지로 이동합니다.

    프로비저닝된 처리량으로 이동

  2. 새 주문을 시작하려면 새 주문을 클릭합니다.
  3. 주문 이름을 입력합니다.
  4. 모델을 선택합니다.
  5. 리전 선택
  6. 구매해야 하는 생성형 AI 확장 단위(GSU) 수를 입력합니다.

    선택사항: 생성형 AI 확장 단위 예측 도구를 사용하여 필요한 GSU 수를 추정할 수 있습니다. 이 도구를 사용하려면 다음 단계를 따르세요.

    1. 추정 도구를 클릭합니다.
    2. 모델을 선택합니다.
    3. 선택한 모델을 기반으로 세부정보를 입력하여 필요한 GSU 수를 추정합니다.

      • Gemini 2.5 (미리보기) 모델의 경우 다음을 입력합니다.

        • 보장이 필요한 예상 초당 쿼리 수
        • 쿼리당 입력 토큰
        • 쿼리당 입력 이미지 토큰
        • 쿼리당 입력 동영상 토큰
        • 쿼리당 입력 오디오 토큰
        • 쿼리당 대답 텍스트 토큰 출력
        • 쿼리당 사고 대답 텍스트 토큰 출력 (Gemini 2.5 Flash 미리보기 모델에만 해당)
        • 쿼리당 추론 텍스트 토큰 출력
      • Gemini 2.0 모델의 경우 다음을 입력합니다.

        • 보장이 필요한 예상 초당 쿼리 수
        • 쿼리당 입력 토큰
        • 쿼리당 입력 이미지 토큰
        • 쿼리당 입력 동영상 토큰
        • 쿼리당 입력 오디오 토큰
        • 쿼리당 출력 텍스트 토큰
      • Imagen 모델의 경우 다음을 입력합니다.

        • 초당 쿼리 수
        • 쿼리당 출력 이미지
    4. 추정 도구에 입력한 값을 사용하려면 계산된 값 사용을 클릭합니다.

  7. 기간을 선택합니다. 사용할 수 있는 옵션은 다음과 같습니다.

    • 1주
    • 1개월
    • 3개월
    • 1년
  8. 선택사항: 기간의 시작일 및 시간을 선택합니다 (미리보기).

    주문 시점으로부터 2주 이내의 시작 날짜와 시간을 입력할 수 있습니다. 시작 날짜와 시간을 지정하지 않으면 용량을 사용할 수 있게 되는 즉시 주문이 처리됩니다. 요청한 시작일 및 시간은 최선의 방식으로 처리되며, 주문 상태가 승인됨으로 설정될 때까지는 주문이 이 날짜에 처리된다고 보장되지 않습니다.

    요청한 시작일이 현재 날짜와 너무 가까우면 주문이 요청한 시작일 이후에 승인되고 활성화될 수 있습니다. 이 경우 종료일은 활성화 날짜부터 시작하여 선택한 기간의 길이에 따라 조정됩니다. 대기 중인 주문을 취소하는 방법에 관한 자세한 내용은 프로비저닝된 처리량 주문 변경을 참고하세요.

  9. 갱신 목록에서 기간이 끝날 때 주문을 자동으로 갱신할지 지정합니다. 기간으로 1개월, 3개월 또는 1년을 선택한 경우에만 갱신 옵션을 지정할 수 있습니다.

  10. 계속을 클릭합니다.

  11. 요약 섹션에서 주문의 가격 및 처리량 추정치를 검토합니다. 양식에 나열되고 링크된 약관을 읽습니다.

  12. 주문을 완료하려면 확인을 클릭합니다.

    주문 규모 및 사용 가능한 용량에 따라 주문을 처리하는 데 몇 분에서 몇 주까지 걸릴 수 있습니다. 주문이 처리되면 Google Cloud 콘솔의 상태가 활성으로 변경됩니다. 주문이 활성화된 후에만 주문 금액이 청구됩니다.

프로비저닝된 처리량 주문 변경

이 표에서는 주문 상태 및 기존 조건에 따라 Google Cloud 콘솔을 통해 프로비저닝된 처리량 주문을 수정하는 방법을 설명합니다. 주문 수정은 미리보기 기능이며 콘솔을 통해 이루어진 온라인 주문에만 사용할 수 있습니다. 오프라인 주문을 변경하려면 Google Cloud 계정 담당자에게 문의하세요.

또한 Google Cloud 콘솔을 사용하여 모델 또는 모델 버전을 변경하면 기존 주문이 수정되지만 구독 종료일은 동일하게 유지됩니다.

주문 상태 작업 참고 Google Cloud 콘솔의 단계
검토 대기 중 주문을 취소할 수 있습니다.

주문을 추가로 변경해야 하는 경우 대기 중인 주문을 취소하고 새로 주문하세요.

모델이 여러 개인 경우 각 모델에 한 번에 하나의 대기 중인 주문 수정 또는 대기 중인 주문만 있을 수 있습니다.

Google Cloud 콘솔에서 대기 중인 주문을 취소하려면 다음 단계를 따르세요.
  1. 프로비저닝된 처리량 페이지로 이동합니다.
  2. 대기 중인 주문이 있는 리전을 선택합니다.
  3. 주문 세부정보 페이지로 이동하려면 취소하려는 주문의 주문 ID를 클릭합니다.
  4. 취소를 클릭합니다.
  5. 주문을 취소하시겠어요? 대화상자에서 주문 취소를 클릭합니다.
승인됨 주문은 수정할 수 없습니다. 주문이 활성화 대기 중입니다. 현재 주문을 변경할 수 없습니다. 해당 없음
활성 다음 작업은 주문이 5일 이내에 만료되지 않거나 자동으로 갱신되는 경우에만 허용됩니다.
  • 기존 주문의 GSU를 늘릴 수 있습니다.
  • 자동 갱신을 사용 설정하거나 중지할 수 있습니다.
  • 모델 또는 모델 버전을 변경할 수 있습니다.
5일 이내에 만료되고 자동 갱신으로 설정되지 않은 활성 주문은 변경할 수 없습니다. Google Cloud 콘솔에서
활성 주문을 변경하려면 다음 방법 중 하나를 사용하세요.
  • 프로비저닝된 처리량 페이지에서 작업 열의 기호를 클릭하고 수정을 클릭합니다.
  • 주문 세부정보 페이지에서 수정 버튼을 클릭합니다.

주문 상태 확인

프로비저닝된 처리량 주문을 제출하면 주문 상태가 다음 중 하나로 표시될 수 있습니다.

  • 검토 대기 중: 주문이 완료되었습니다. 주문 프로비저닝에 사용할 수 있는 용량에 따라 승인이 달라지므로 주문이 검토 및 승인을 기다리는 중입니다. 대기 중인 주문 상태에 관한 자세한 내용은 Google Cloud 계정 담당자에게 문의하세요.
  • 승인됨: Google에서 주문을 승인했으며 주문의 활성화를 대기 중입니다. 주문이 승인된 후에는 변경할 수 없습니다.
  • 활성화: Google에서 주문을 활성화했으며 결제가 시작됩니다.
  • 만료됨: 주문이 만료되었습니다.

프로비저닝된 처리량 주문 보기

프로비저닝된 처리량 주문을 보려면 다음 단계를 따르세요.

콘솔

  1. Google Cloud 콘솔에서 프로비저닝된 처리량 페이지로 이동합니다.

    프로비저닝된 처리량으로 이동

  2. 리전 선택 주문 목록이 표시됩니다.

다음 단계