Vertex AI 기반 Llama 모델은 완전 관리형 서버리스 모델을 API로 제공합니다. Vertex AI에서 Llama 모델을 사용하려면 요청을 Vertex AI API 엔드포인트로 직접 보냅니다. Llama AI 모델은 관리형 API를 사용하므로 인프라를 프로비저닝하거나 관리할 필요가 없습니다.
대답을 스트리밍하여 최종 사용자의 지연 시간 인식을 줄일 수 있습니다. 스트리밍된 응답은 서버 전송 이벤트(SSE)를 사용하여 대답을 점진적으로 스트리밍합니다.
사용 가능한 Llama 모델
Meta는 Vertex AI에서 사용할 수 있는 다음과 같은 Llama 모델을 제공합니다. Llama 모델에 액세스하려면 Model Garden 모델 카드로 이동합니다.
프리뷰 버전의 모델에도 자체 배포 옵션이 있습니다. 프로덕션에 즉시 사용 가능한 서비스가 필요하면 자체 배포 Llama 모델을 사용합니다.
Llama 4 Maverick 17B-128E
Llama 4 Maverick 17B-128E는 코딩, 추론, 이미지 기능을 제공하는 가장 크고 기능이 뛰어난 Llama 4 모델입니다. 총 파라미터 4,000억 개 중 활성 파라미터 170억 개와 전문가 128개가 있는 전문가 망(MoE) 아키텍처를 갖추고 있습니다. Llama 4 Maverick 17B-128E는 촘촘한 레이어와 MoE 레이어를 교대로 사용합니다. 여기서 각 토큰은 공유 전문가와 라우팅된 전문가 128개 중 하나를 활성화합니다. 이 모델은 언어 200개로 사전 학습되고 세련된 학습 후 파이프라인을 통해 고품질 채팅 상호작용에 최적화됩니다.
Llama 4 Maverick 17B-128E는 멀티모달이며 고급 이미지 캡셔닝, 분석, 정확한 이미지 이해, 시각적 질문 및 답변, 창의적인 텍스트 생성, 범용 AI 어시스턴트, 최고 수준의 지능과 이미지 이해가 필요한 정교한 챗봇에 적합합니다.
고려사항
- 요청당 이미지를 최대 3개까지 포함할 수 있습니다.
- MaaS 엔드포인트는 이전 버전과 달리 Llama Guard를 사용하지 않습니다. Llama Guard를 사용하려면 Model Garden에서 Llama Guard를 배포한 후 프롬프트와 응답을 해당 엔드포인트로 전송합니다. 하지만 Llama 4에 비해 Llama Guard는 더 제한적인 컨텍스트(128,000)를 갖추고 있으며 프롬프트 시작 부분에 단일 이미지가 있는 요청만 처리할 수 있습니다.
- 일괄 예측은 지원되지 않습니다.
Llama 4 Scout 17B-16E
Llama 4 Scout 17B-16E는 여러 벤치마크에서 이전 Llama 세대 및 기타 오픈 및 독점 모델보다 우수한 성능을 제공하는 최신 크기 클래스 결과를 제공합니다. 총 파라미터 1,090억 개 중 활성 파라미터 170억 개와 전문가 16개가 있는 MoE 아키텍처를 갖추고 있습니다.
Llama 4 Scout 17B-16E는 긴 컨텍스트 내 검색 태스크와 대규모 여러 문서 요약, 맞춤설정을 위한 다양한 사용자 상호작용 로그 분석, 대규모 코드베이스 전반에서 추론과 같은 대량의 정보에 대한 추론이 필요한 태스크에 적합합니다.
고려사항
- 요청당 이미지를 최대 3개까지 포함할 수 있습니다.
- MaaS 엔드포인트는 이전 버전과 달리 Llama Guard를 사용하지 않습니다. Llama Guard를 사용하려면 Model Garden에서 Llama Guard를 배포한 후 프롬프트와 응답을 해당 엔드포인트로 전송합니다. 하지만 Llama 4에 비해 Llama Guard는 더 제한적인 컨텍스트(128,000)를 갖추고 있으며 프롬프트 시작 부분에 단일 이미지가 있는 요청만 처리할 수 있습니다.
- 일괄 예측은 지원되지 않습니다.
Llama 3.3
Llama 3.3은 텍스트 전용으로 특별히 설계된 700억 개의 명령어 조정 모델입니다. Llama 3.1 70B 및 Llama 3.2 90B와 비교할 때 텍스트 전용 애플리케이션에서 더 나은 성능을 제공합니다.
미리보기 기간 중에는 모델을 사용한 만큼 비용이 청구됩니다(사용한 만큼 지불). 사용한 만큼만 지불 가격 책정은 Vertex AI 가격 책정 페이지의 Llama 모델 가격 책정을 참조하세요.
Llama 3.2
개발자는 Llama 3.2를 사용하여 이미지 추론과 같은 최신 Llama 기능을 사용하는 최신 생성형 AI 모델 및 애플리케이션을 빌드 및 배포할 수 있습니다. Llama 3.2는 또한 온디바이스 애플리케이션에서 더 쉽게 작동하도록 설계되었습니다.
미리보기 기간 중에는 요금이 부과되지 않습니다. 프로덕션에 즉시 사용 가능한 서비스가 필요하면 자체 호스팅된 Llama 모델을 사용합니다.
고려사항
llama-3.2-90b-vision-instruct-maas
를 사용할 때는 텍스트 전용 프롬프트를 전송하는 데 제한이 없습니다. 하지만 프롬프트에 이미지를 포함할 경우 이미지는 프롬프트의 시작 부분에 있어야 하며, 하나의 이미지만 포함할 수 있습니다. 예를 들어 일부 텍스트를 포함한 후 이미지를 포함할 수는 없습니다.
Llama 3.1
Llama 3.1은 최적화된 Transformer 아키텍처를 사용하는 자동 회귀 언어 모델입니다. 조정된 버전은 지도 조정(SFT) 및 인간 피드백 기반 강화 학습(RLHF)을 사용하여 유용성과 안전에 대한 인간의 선호사항에 맞춥니다.
Llama 3.1 405B는 정식 버전입니다. 모델을 사용한 만큼 비용이 청구됩니다(사용한 만큼만 지불). 사용한 만큼만 지불 가격 책정은 Vertex AI 가격 책정 페이지의 Llama 모델 가격 책정을 참조하세요.
다른 Llama 3.1 모델은 미리보기 상태입니다. 미리보기 모델에는 요금이 청구되지 않습니다. 프로덕션에 즉시 사용 가능한 서비스가 필요하면 자체 호스팅된 Llama 모델을 사용합니다.