Google Cloud 콘솔에서 공개 엔드포인트를 만들고 여기에 모델을 배포할 수 있습니다.
모델은 온라인 예측 페이지 또는 Model Registry 페이지에서 배포할 수 있습니다.
온라인 예측 페이지에서 모델 배포
온라인 예측 페이지에서 다음과 같이 엔드포인트를 만들고 하나 이상의 모델을 배포할 수 있습니다.
Google Cloud 콘솔의 Vertex AI 섹션에서 온라인 예측 페이지로 이동합니다.
만들기를 클릭합니다.
새 엔드포인트 창에서 다음을 수행합니다.
엔드포인트 이름을 입력합니다.
액세스 유형으로 표준을 선택합니다.
공유되지 않는 전용 공개 엔드포인트를 만들려면 전용 DNS 사용 설정 체크박스를 선택합니다.
계속을 클릭합니다.
모델 설정 창에서 다음을 수행합니다.
드롭다운 목록에서 모델을 선택합니다.
드롭다운 목록에서 모델 버전을 선택합니다.
모델의 트래픽 분할 비율을 입력합니다.
완료를 클릭합니다.
배포할 추가 모델이 있는 경우 이 단계를 반복합니다.
Model Registry 페이지에서 모델 배포
Model Registry 페이지에서 다음과 같이 하나 이상의 새 엔드포인트 또는 기존 엔드포인트에 모델을 배포할 수 있습니다.
Google Cloud 콘솔의 Vertex AI 섹션에서 모델 페이지로 이동합니다.
배포하려는 모델의 이름과 버전 ID를 클릭하여 세부정보 페이지를 엽니다.
배포 및 테스트 탭을 선택합니다.
이미 엔드포인트에 배포된 모델은 모델 배포 섹션에 나열됩니다.
엔드포인트에 배포를 클릭합니다.
모델을 새 엔드포인트에 배포하려면 다음 단계를 따르세요.
- 새 엔드포인트 만들기를 선택합니다.
- 새 엔드포인트의 이름을 지정합니다.
- 공유되지 않는 전용 공개 엔드포인트를 만들려면 전용 DNS 사용 설정 체크박스를 선택합니다.
- 계속을 클릭합니다.
기존 엔드포인트에 모델을 배포하려면 다음 단계를 따르세요.
- 기존 엔드포인트에 추가를 선택합니다.
- 드롭다운 목록에서 엔드포인트를 선택합니다.
- 계속을 클릭합니다.
엔드포인트에 여러 모델을 배포하거나 동일한 모델을 여러 엔드포인트에 배포할 수 있습니다.
하나 이상의 모델이 배포된 기존 엔드포인트에 모델을 배포하는 경우 비율을 모두 합하면 100%가 되도록 배포 중인 모델과 이미 배포된 모델의 트래픽 분할 비율을 업데이트해야 합니다.
모델을 새 엔드포인트에 배포하는 경우 트래픽 분할 값으로 100을 허용합니다. 아니면 모두 합하여 100이 되도록 엔드포인트의 모든 모델에 대한 트래픽 분할 값을 조정합니다.
모델에 제공할 최소 컴퓨팅 노드 수를 입력합니다.
이 숫자는 모델에서 항상 사용할 수 있어야 하는 노드 수입니다.
예측 트래픽이 없어도 예측 로드 처리나 대기(최소) 노드에 사용된 노드에 대한 요금이 청구됩니다. 가격 책정 페이지를 참고하세요.
예측 트래픽을 처리하는 데 필요한 경우 컴퓨팅 노드 수를 늘릴 수 있지만 최대 노드 수 이상은 안 됩니다.
자동 확장을 사용하려면 Vertex AI에서 수직 확장하려는 최대 컴퓨팅 노드 수를 입력합니다.
머신 유형을 선택합니다.
머신 리소스가 클수록 예측 성능이 향상되고 비용이 증가합니다. 사용 가능한 머신 유형 비교
가속기 유형 및 가속기 수를 선택합니다.
모델을 가져오거나 만들 때 가속기를 사용 설정한 경우 이 옵션이 표시됩니다.
가속기 수의 경우 GPU 테이블을 참조하여 각 CPU 머신 유형에 사용할 수 있는 유효한 GPU 수를 확인하세요. 가속기 수는 배포의 총 가속기 수가 아닌 노드당 가속기 수를 나타냅니다.
배포에 커스텀 서비스 계정을 사용하려면 서비스 계정 드롭다운 메뉴에서 서비스 계정을 선택합니다.
예측 로깅의 기본 설정을 변경하는 방법을 알아보세요.
모델에서 완료를 클릭하고 모든 트래픽 분할 비율이 올바르면 계속을 클릭합니다.
모델이 배포되는 리전이 표시됩니다. 이 리전은 모델을 만든 리전이어야 합니다.
배포를 클릭하여 모델을 엔드포인트에 배포합니다.
다음 단계
- 온라인 예측 가져오기 방법 알아보기
- 예측 로깅의 기본 설정을 변경하는 방법을 알아보세요.