이 페이지에서는 온라인 예측을 위해 엔드포인트에 생성형 AI 모델을 배포하는 방법을 안내합니다.
Model Garden 확인
모델이 Model Garden에 있으면 배포(일부 모델에서 사용 가능) 또는 노트북 열기를 클릭하여 배포할 수 있습니다.
그렇지 않으면 다음 중 하나를 수행할 수 있습니다.
모델이 Model Garden에 있는 것과 비슷하면 Model Garden 컨테이너 중 하나를 직접 재사용할 수 있습니다.
Vertex AI Model Registry에 모델을 가져오기 전에 커스텀 컨테이너 예측 요구사항을 준수하는 자체 커스텀 컨테이너를 빌드합니다. 가져온 후에는 엔드포인트에 배포할 수 있는
model
리소스가 됩니다.Model Garden 컨테이너를 빌드하기 위해 사용되는 Dockerfile 및 스크립트를 참조 또는 출발지로 사용해서 자체 커스텀 컨테이너를 빌드할 수 있습니다.
커스텀 컨테이너 설정
이 섹션에서는 생성형 AI 모델을 가져올 때 지정해야 할 수 있는 모델의 containerSpec
의 필드에 대해 설명합니다.
sharedMemorySizeMb
일부 생성형 AI 모델은 더 많은 공유 메모리가 필요합니다. 공유 메모리는 여러 프로세스가 공통 메모리 블록을 액세스 및 조작하도록 허용하는 프로세스 간 커뮤니케이션(IPC) 메커니즘입니다. 기본 공유 메모리 크기는 64MB입니다.
vLLM 또는 Nvidia Triton과 같은 일부 모델 서버는 공유 메모리를 사용해서 모델 추론 중 내부 데이터를 캐시합니다. 공유 메모리가 충분하지 않으면 일부 모델 서버가 생성형 모델을 위한 예측을 제공할 수 없습니다. 필요한 공유 메모리 양은 컨테이너 및 모델에 대한 구현 세부정보입니다. 가이드라인은 해당 모델 서버 문서를 참조하세요.
또한 GPU 커뮤니케이션 전반에서 공유 메모리를 사용할 수 있기 때문에 모델 컨테이너에 GPU 간 커뮤니케이션이 필요한 경우 더 많은 공유 메모리를 사용하면 NVLink 기능(예: L4) 없이도 가속기 성능을 향상시킬 수 있습니다.
공유 메모리의 커스텀 값을 지정하는 방법은 컨테이너 관련 API 필드를 참조하세요.
startupProbe
시작 프로브는 컨테이너가 시작되었을 때 이를 감지하기 위해 사용되는 선택적인 프로브입니다. 이 프로브는 컨테이너가 시작될 때까지 상태 프로브 및 활성 확인을 지연시키기 위해 사용됩니다. 따라서 느리게 시작되는 컨테이너가 조기에 종료되지 않도록 방지하는 데 도움이 됩니다.
자세한 내용은 상태 점검을 참조하세요.
healthProbe
상태 프로브는 컨테이너에서 트래픽을 수락할 준비가 되었는지 확인합니다. 상태 프로브가 제공되지 않았으면 Vertex AI에서 컨테이너 포트에 대해 HTTP 요청을 수행하고 모델 서버에서
200 OK
응답을 확인하는 기본 상태 점검이 사용됩니다.대규 모델에서 발생 가능한 경우와 같이 모델이 완전히 로드되기 전에 모델 서버가
200 OK
로 응답하면 상태 점검이 작업을 성공한 것으로 잘못 표시되고 준비가 완료되기 전에 Vertex AI가 트래픽을 컨테이너로 라우팅합니다.이러한 경우 모델이 완전히 로드되고 트래픽을 수락할 준비가 완료된 다음에만 작업이 성공하는 커스텀 상태 프로브를 지정합니다.
자세한 내용은 상태 점검을 참조하세요.