이 페이지는 Cloud Translation API를 통해 번역되었습니다.

Mistral AI 모델

Vertex AI 기반 Mistral AI 모델은 완전 관리형 서버리스 모델을 API로 제공합니다. Vertex AI에서 Mistral AI 모델을 사용하려면 요청을 Vertex AI API 엔드포인트로 직접 보냅니다. Mistral AI 모델은 관리형 API를 사용하므로 인프라를 프로비저닝하거나 관리할 필요가 없습니다.

대답을 스트리밍하여 최종 사용자의 지연 시간 인식을 줄일 수 있습니다. 스트리밍된 응답은 서버 전송 이벤트(SSE)를 사용하여 대답을 점진적으로 스트리밍합니다.

Mistral AI 모델은 사용한 만큼만 비용을 지불합니다(사용한 만큼만 지불). 사용한 만큼만 지불 가격 책정은 Vertex AI 가격 책정

page.

사용 가능한 Mistral AI 모델

Mistral AI에서 Vertex AI에 사용할 수 있는 다음 모델을 사용할 수 있습니다. Mistral AI 모델에 액세스하려면 Model Garden 모델 카드로 이동합니다.

Mistral Medium 3

Mistral Medium 3은 프로그래밍, 수학적 추론, 긴 문서 이해, 요약, 대화 등 다양한 작업을 위해 설계된 다목적 모델입니다. 고급 추론 능력, 시각적 이해 또는 높은 수준의 전문성이 필요한 복잡한 작업 (예: 창작, 에이전트 워크플로, 코드 생성)에 탁월합니다.

시각적 입력을 처리할 수 있는 멀티모달 기능을 자랑하며 80개가 넘는 코딩 언어를 비롯해 수십 개의 언어를 지원합니다. 또한 함수 호출 및 에이전트 워크플로가 있습니다.

Mistral Medium 3은 특히 긴 컨텍스트 애플리케이션의 단일 노드 추론에 최적화되어 있습니다. 크기가 단일 노드에서 높은 처리량을 달성할 수 있습니다.

Mistral Medium 3 모델 카드로 이동

Mistral OCR(25.05)

Mistral OCR(25.05)은 문서 이해를 위한 광학 문자 인식 API입니다. Mistral OCR(25.05)은 인터리브 처리 이미지, 수학식, 테이블, LaTeX 형식과 같은 고급 레이아웃을 비롯한 복잡한 문서 요소를 이해하는 데 탁월합니다. 이 모델을 사용하면 차트, 그래프, 방정식, 그림이 포함된 과학 논문과 같은 풍부한 문서를 더 깊이 이해할 수 있습니다.

Mistral OCR (25.05)은 멀티모달 문서 (예: 슬라이드 또는 복잡한 PDF)를 입력으로 사용하는 RAG 시스템과 함께 사용하기에 적합한 모델입니다.

Mistral OCR (25.05)을 다른 Mistral 모델과 결합하여 결과를 다시 포맷할 수 있습니다. 이 결합을 통해 추출된 콘텐츠는 정확할 뿐만 아니라 구조화되고 일관된 방식으로 표시되므로 다양한 다운스트림 애플리케이션 및 분석에 적합합니다.

Mistral OCR(25.05) 모델 카드로 이동

Mistral Small 3.1(25.03)

Mistral Small 3.1(25.03)은 멀티모달 기능과 최대 128,000개의 컨텍스트를 제공합니다. 이 모델은 시각적 입력과 긴 문서를 처리하고 이해할 수 있어 이전 Mistral AI Small 모델에 비해 적용 범위가 더욱 확장되었습니다. Mistral Small 3.1(25.03)은 프로그래밍, 수학적 추론, 문서 이해, 대화와 같은 다양한 작업을 위해 설계된 다목적 모델입니다. Mistral Small 3.1(25.03)은 지연 시간이 짧은 애플리케이션을 위해 설계되어 동일한 품질의 모델에 비해 동급 최고의 효율성을 제공합니다.

Mistral Small 3.1(25.03)은 모델을 사람의 선호도 및 필요에 맞게 조정하기 위한 전체 사후 학습 프로세스를 거쳤으므로 채팅이나 정확한 안내를 따라야 하는 애플리케이션에서 즉시 사용할 수 있습니다.

Mistral Small 3.1(25.03) 모델 카드로 이동

Mistral Large(24.11)

Mistral Large(24.11)는 추론 및 함수 호출 기능이 개선된 Mistral AI 대규모 모델의 최신 버전입니다.

에이전트 중심: 기본 제공 함수 호출 및 JSON 출력을 갖춘 최고의 에이전트 기능을 갖췄습니다.
다국어 지원 설계: 한국어, 네덜란드어, 독일어, 스페인어, 영어, 이탈리아어, 중국어, 일본어, 포르투갈어, 프랑스어, 폴란드어 등 수십 개의 언어가 지원됩니다.
코딩에 능숙: Python, Java, C, C++, JavaScript, Bash 등 80개 이상의 코딩 언어로 학습되었습니다. Swift 및 Fortran과 같은 더 구체적인 언어로도 학습됩니다.
고급 추론: 최첨단 수학 및 추론 기능이 있습니다.

Mistral Large(24.11) 모델 카드로 이동

Codestral 2

Codestral 2는 고정밀 fill-in-the-middle (FIM) 완성을 위해 특별히 제작된 Mistral의 코드 생성 전문 모델입니다. 개발자가 공유된 명령 및 완성 API 엔드포인트를 통해 코드를 작성하고 상호작용할 수 있도록 지원합니다. 코드를 습득하고 다양한 언어로 대화할 수 있으므로 소프트웨어 개발자를 위한 고급 AI 애플리케이션을 설계하는 데 사용할 수 있습니다.

최신 버전인 Codestral 2는 이전 버전인 Codestral (25.01)에 비해 측정 가능한 업그레이드를 제공합니다.

수락된 완료율이 30% 증가했습니다.
추천 후 유지된 코드가 10% 더 많아집니다.
과도한 생성이 50% 감소하여 긴 수정에 대한 신뢰도가 향상되었습니다.

짧은 컨텍스트와 긴 컨텍스트의 FIM 완성에 대한 학술적 벤치마크의 성능이 개선되었습니다.

코드 생성: 코드 완성, 제안, 번역
코드 이해 및 문서화: 코드 요약 및 설명
코드 품질: 코드 검토, 리팩터링, 버그 수정, 테스트 사례 생성
코드 중간 채우기: 사용자는 프롬프트를 사용하여 코드의 시작점을 정의하고 선택적 접미사와 선택적 중지를 사용하여 코드의 끝점을 정의할 수 있습니다. 그러면 Codestral 모델이 그 사이에 적합한 코드를 생성하므로 특정 코드를 생성해야 하는 작업에 적합합니다.

Codestral 2 모델 카드로 이동

Codestral(25.01)

Codestral(25.01)은 코드 생성 태스크용으로 설계되었습니다. 개발자가 공유된 명령 및 완성 API 엔드포인트를 통해 코드를 작성하고 상호작용할 수 있도록 지원합니다. 다양한 언어로 대화하는 기능과 함께 코드를 습득하므로 Codestral(25.01)을 사용하여 소프트웨어 개발자를 위한 고급 AI 애플리케이션을 설계할 수 있습니다.

Codestral(25.01)은 Python, Java, C, C++, JavaScript, Bash 등 80개 이상의 프로그래밍 언어를 능숙하게 구사합니다. Swift 및 Fortran과 같은 더 구체적인 언어에서도 성능이 좋습니다.
Codestral (25.01)은 개발자의 생산성을 개선하고 오류를 줄이는 데 도움이 됩니다. Codestral (25.01)은 코딩 함수를 완성하고, 테스트를 작성하고, 중간 채우기 메커니즘을 사용하여 모든 부분 코드를 완료할 수 있습니다.
Codestral (25.01)은 24B 매개변수와 128,000개 컨텍스트 창으로 성능 및 지연 시간 공간에 관한 새로운 표준을 제공합니다.

Codestral(25.01)은 다음과 같은 사용 사례에 최적화되어 있습니다.

코드 생성, 코드 완성, 제안, 번역을 제공합니다.
사용자 정의 시작점과 끝점 사이에 코드를 추가하므로 특정 코드를 생성해야 하는 태스크에 적합합니다.
코드를 요약하고 설명합니다.
코드 리팩터링, 버그 수정, 테스트 사례 생성을 지원하여 코드 품질을 검토합니다.

Codestral(25.01) 모델 카드로 이동

Mistral AI 모델 사용

다음 모델 이름을 사용하여 curl 명령어로 Vertex AI 엔드포인트에 요청을 보낼 수 있습니다.

Mistral Medium 3의 경우 mistral-medium-3 사용
Mistral OCR(25.05)의 경우 mistral-ocr-2505를 사용합니다.
Mistral Small 3.1(25.03)의 경우 mistral-small-2503을 사용합니다.
Mistral Large(24.11)의 경우 mistral-large-2411을 사용합니다.
Codestral 2의 경우 codestral-2을 사용합니다.
Codestral(25.01)의 경우 codestral-2501을 사용합니다.

Mistral AI SDK 사용에 관한 자세한 내용은 Mistral AI Vertex AI 문서를 참고하세요.

시작하기 전에

Vertex AI에서 Mistral AI 모델을 사용하려면 다음 단계를 실행해야 합니다. Vertex AI를 사용하려면 Vertex AI API(aiplatform.googleapis.com)를 사용 설정해야 합니다. Vertex AI API가 사용 설정된 기존 프로젝트가 이미 있는 경우 새 프로젝트를 만드는 대신 해당 프로젝트를 사용할 수 있습니다.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

다음 Model Garden 모델 카드 중 하나로 이동한 다음 사용 설정을 클릭합니다.

Mistral AI 모델에 스트리밍 호출 수행

다음 샘플은 Mistral AI 모델을 스트리밍 호출합니다.

REST

환경을 설정하면 REST를 사용하여 텍스트 프롬프트를 테스트할 수 있습니다. 다음 샘플은 요청을 게시자 모델 엔드포인트에 전송합니다.

요청 데이터를 사용하기 전에 다음을 바꿉니다.

LOCATION: Mistral AI 모델을 지원하는 리전
MODEL: 사용할 모델 이름. 요청 본문에서 @ 모델 버전 번호를 제외합니다.
ROLE: 메시지와 연결된 역할. user 또는 assistant를 지정할 수 있습니다. 첫 번째 메시지는 user 역할을 사용해야 합니다. 모델이 user와 assistant의 턴을 번갈아가며 작동합니다. 최종 메시지에서 assistant 역할을 사용하는 경우 이 메시지의 콘텐츠에서 곧바로 대답 콘텐츠가 계속됩니다. 이를 사용하여 모델 응답의 일부를 제한할 수 있습니다.
STREAM: 응답 스트리밍 여부를 지정하는 불리언. 응답을 스트리밍하여 최종 사용자 지연 시간 인식을 줄입니다. 응답을 스트리밍하려면 true로 설정하고 응답을 한 번에 반환하려면 false로 설정합니다.
CONTENT: user 또는 assistant 메시지의 콘텐츠(예: 텍스트).
MAX_OUTPUT_TOKENS: 응답에서 생성될 수 있는 토큰의 최대 개수. 토큰은 약 3.5자(영문 기준)입니다. 토큰 100개는 단어 약 60~80개에 해당합니다.
응답이 짧을수록 낮은 값을 지정하고 잠재적으로 응답이 길면 높은 값을 지정합니다.

HTTP 메서드 및 URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

JSON 요청 본문:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

요청을 보내려면 다음 옵션 중 하나를 선택합니다.

curl

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하거나 gcloud CLI에 자동으로 로그인하는 Cloud Shell을 사용하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

PowerShell

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 수신됩니다.

응답

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}
...

Mistral AI 모델에 단항 호출 수행

다음 샘플은 Mistral AI 모델을 단항 호출합니다.

REST

환경을 설정하면 REST를 사용하여 텍스트 프롬프트를 테스트할 수 있습니다. 다음 샘플은 요청을 게시자 모델 엔드포인트에 전송합니다.

요청 데이터를 사용하기 전에 다음을 바꿉니다.

LOCATION: Mistral AI 모델을 지원하는 리전
MODEL: 사용할 모델 이름. 요청 본문에서 @ 모델 버전 번호를 제외합니다.
ROLE: 메시지와 연결된 역할. user 또는 assistant를 지정할 수 있습니다. 첫 번째 메시지는 user 역할을 사용해야 합니다. 모델이 user와 assistant의 턴을 번갈아가며 작동합니다. 최종 메시지에서 assistant 역할을 사용하는 경우 이 메시지의 콘텐츠에서 곧바로 대답 콘텐츠가 계속됩니다. 이를 사용하여 모델 응답의 일부를 제한할 수 있습니다.
STREAM: 응답 스트리밍 여부를 지정하는 불리언. 응답을 스트리밍하여 최종 사용자 지연 시간 인식을 줄입니다. 응답을 스트리밍하려면 true로 설정하고 응답을 한 번에 반환하려면 false로 설정합니다.
CONTENT: user 또는 assistant 메시지의 콘텐츠(예: 텍스트).
MAX_OUTPUT_TOKENS: 응답에서 생성될 수 있는 토큰의 최대 개수. 토큰은 약 3.5자(영문 기준)입니다. 토큰 100개는 단어 약 60~80개에 해당합니다.
응답이 짧을수록 낮은 값을 지정하고 잠재적으로 응답이 길면 높은 값을 지정합니다.

HTTP 메서드 및 URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

JSON 요청 본문:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

요청을 보내려면 다음 옵션 중 하나를 선택합니다.

curl

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 수신됩니다.

응답

{
    "id": "e71d13ffb77344a08e34e0a22ea84458",
    "object": "chat.completion",
    "created": 1720806624,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "OUTPUT",
                "tool_calls": null
            },
            "finish_reason": "stop",
            "logprobs": null
        }
    ],
    "usage": {
        "prompt_tokens": 17,
        "total_tokens": 295,
        "completion_tokens": 278
    }
}

Mistral AI 모델 리전 가용성 및 할당량

Mistral AI 모델의 경우 모델을 사용할 수 있는 각 리전에 할당량이 적용됩니다. 할당량은 분당 쿼리 수(QPM) 및 분당 토큰 수(TPM)로 지정됩니다. TPM에는 입력 및 출력 토큰이 모두 포함됩니다.

모델	지역	할당량	컨텍스트 길이
Mistral Medium 3
	`us-central1`	QPM: 90개 TPM: 315,000개	128,000
	`europe-west4`	QPM: 90개 TPM: 315,000개	128,000
Mistral OCR(25.05)
	`us-central1`	QPM: 30개 요청당 페이지 수: 30페이지(1페이지 = 입력 토큰 1백만 개 및 출력 토큰 1백만 개)	30페이지
	`europe-west4`	QPM: 30개 요청당 페이지 수: 30페이지(1페이지 = 입력 토큰 1백만 개 및 출력 토큰 1백만 개)	30페이지
Mistral Small 3.1(25.03)
	`us-central1`	QPM: 60개 TPM: 200,000개	128,000
	`europe-west4`	QPM: 60개 TPM: 200,000개	128,000
Mistral Large(24.11)
	`us-central1`	QPM: 60개 TPM: 400,000개	128,000
	`europe-west4`	QPM: 60개 TPM: 400,000개	128,000
Codestral 2
	`us-central1`	QPM: 1,100개 입력 TPM: 1,100,000개 출력 TPM: 110,000개	토큰 128,000개
	`europe-west4`	QPM: 1,100개 입력 TPM: 1,100,000개 출력 TPM: 110,000개	토큰 128,000개
Codestral(25.01)
	`us-central1`	QPM: 60개 TPM: 400,000개	32,000
	`europe-west4`	QPM: 60개 TPM: 400,000개	32,000

Vertex AI 기반 생성형 AI 할당량을 상향 조정하려면 Google Cloud 콘솔을 사용하여 할당량 상향을 요청하면 됩니다. 할당량에 대해 자세히 알아보려면 Cloud 할당량 개요를 참고하세요.