A partir de 29 de abril de 2025, os modelos Gemini 1.5 Pro e Gemini 1.5 Flash não estarão disponíveis em projetos que não os usaram antes, incluindo novos projetos. Para mais detalhes, consulte Versões e ciclo de vida do modelo.

Esta página foi traduzida pela API Cloud Translation.

Modelos da Mistral AI

Os modelos da Mistral AI na Vertex AI oferecem modelos totalmente gerenciados e sem servidor como APIs. Para usar um modelo do Mistral AI na Vertex AI, envie uma solicitação diretamente ao endpoint de API Vertex AI. Devido ao Os modelos de IA do Mistral usam uma API gerenciada. Não é necessário provisionar nem gerenciar a infraestrutura.

É possível transmitir as respostas para reduzir a percepção de latência do usuário final. Uma resposta transmitida usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.

Você paga pelos modelos de IA do Mistral conforme o uso (pagamento por utilização). Para pagamento por utilização, consulte os preços do modelo de IA da Mistral na página de preços da Vertex AI.

Modelos da Mistral AI disponíveis

Os modelos a seguir estão disponíveis na Mistral AI para uso na Vertex AI. Para acessar um modelo do Mistral AI, acesse o card de modelo do Model Garden.

OCR do Mistral (25/05)

O Mistral OCR (25.05) é uma API de reconhecimento óptico de caracteres para compreensão de documentos. O OCR do Mistral (25.05) é excelente para entender elementos complexos de documentos, incluindo imagens intercaladas, expressões matemáticas, tabelas e layouts avançados, como a formatação LaTeX. O modelo permite uma compreensão mais profunda de documentos avançados, como artigos científicos com gráficos, equações e figuras.

O OCR do Mistral (25.05) é um modelo ideal para usar em combinação com um sistema RAG que recebe documentos multimodais (como slides ou PDFs complexos) como entrada.

Você pode combinar o OCR do Mistral (25.05) com outros modelos do Mistral para reformatar os resultados. Essa combinação garante que o conteúdo extraído não seja apenas preciso, mas também apresentado de maneira estruturada e coerente, tornando-o adequado para várias aplicações e análises downstream.

Acessar o card de modelo do Mistral OCR (25.05)

Mistral Small 3.1 (25/03)

O Mistral Small 3.1 (25/03) tem recursos multimodais e um contexto de até 128.000. O modelo pode processar e entender entradas visuais e documentos longos, ampliando ainda mais o alcance de aplicações em comparação com o modelo Mistral AI Small anterior. O Mistral Small 3.1 (25/03) é um modelo versátil projetado para várias tarefas, como programação, raciocínio matemático, compreensão de documentos e diálogo. O Mistral Small 3.1 (25/03) foi projetado para aplicativos de baixa latência e oferece a melhor eficiência da categoria em comparação com modelos de mesma qualidade.

O Mistral Small 3.1 (25/03) passou por um processo completo de pós-treinamento para alinhar o modelo às preferências e necessidades humanas, tornando-o utilizável imediatamente para aplicativos que exigem chat ou instruções precisas.

Acessar o card de modelo do Mistral Small 3.1 (25.03)

Mistral Large (24.11)

O Mistral Large (24.11) é a versão mais recente do modelo Large da Mistral AI, agora com recursos aprimorados de raciocínio e chamada de função.

Focado no agente: os melhores recursos de agente com função integrada de chamada e saídas JSON.
Multilíngue por design: há vários idiomas disponíveis, incluindo inglês, francês, alemão, espanhol, italiano, chinês, japonês, coreano, português, holandês e polonês.
Proficiência em programação: treinado em mais de 80 linguagens de programação, como Python, Java, C, C++, JavaScript e Bash. Também treinado em linguagens mais específicas como Swift e Fortran
Raciocínio avançado: recursos de cálculo e raciocínio de última geração.

Acessar o card de modelo do Mistral Large (24.11)

Codestral (25.01)

O Codestral (25/01) foi projetado para tarefas de geração de código. Ele ajuda os desenvolvedores a escrever e interagir com código usando uma instrução compartilhada e um endpoint de API de conclusão. Como ele domina o código e consegue conversar em várias línguas, você pode usar o Codestral (25.01) para projetar aplicativos de IA avançados para desenvolvedores de software.

O Codestral (25.01) é fluente em mais de 80 linguagens de programação, incluindo Python, Java, C, C++, JavaScript e Bash. Ele também tem um bom desempenho em linguagens mais específicas, como Swift e Fortran.
O Codestral (25.01) ajuda a melhorar a produtividade dos desenvolvedores e reduz os erros: ele pode concluir funções de programação, escrever testes e completar qualquer código parcial usando um mecanismo de preenchimento no meio.
O Codestral (25.01) oferece um novo padrão no espaço de desempenho e latência com apenas 24 bilhões de parâmetros e uma janela de contexto de 128.000.

O Codestral (25/01) é otimizado para os seguintes casos de uso:

Gera código e oferece preenchimento, sugestões e tradução.
Adiciona código entre pontos inicial e final definidos pelo usuário, o que o torna ideal para tarefas que exigem a geração de um trecho de código específico.
Resumir e explicar seu código.
Revisa a qualidade do código ajudando a refatorá-lo, corrige bugs e gera casos de teste.

Acessar o card do modelo da Codestral (25.01)

Usar modelos da Mistral AI

É possível usar comandos curl para enviar solicitações ao endpoint da Vertex AI usando os seguintes nomes de modelos:

Para o OCR do Mistral (25.05), use mistral-ocr-2505.
Para o Mistral Small 3.1 (25/03), use mistral-small-2503
Para o Mistral Large (24.11), use mistral-large-2411
Para o Mistral Nemo, use mistral-nemo
Para o Codestral (25/01), use codestral-2501

Para mais informações sobre como usar o SDK da Mistral AI, consulte a documentação da Mistral AI Vertex AI.

Antes de começar

Para usar os modelos do Mistral AI com a Vertex AI, siga as etapas abaixo. A API Vertex AI (aiplatform.googleapis.com) precisa estar ativada para usar a Vertex AI. Se você já tiver um projeto existente com a API do Vertex AI ativada, poderá usar esse projeto em vez de criar um novo.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Acesse um dos seguintes cards de modelo do Model Garden e clique em Ativar:

Fazer uma chamada de streaming para um modelo da Mistral AI

O exemplo a seguir faz uma chamada de streaming para um modelo de IA do Mistral.

REST

Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

LOCATION: uma região compatível com modelos da Mistral AI.
MODEL: o nome do modelo que você quer usar. No corpo da solicitação, exclua o número da versão do modelo @.
ROLE: o papel associado a uma mensagem. É possível especificar user ou assistant. A primeira mensagem precisa usar o papel user. Os modelos funcionam com voltas alternadas de user e assistant. Se a mensagem final usar o papel assistant, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo.
STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como true para transmitir a resposta e false para retornar a resposta de uma só vez.
CONTENT: o conteúdo, como texto, da mensagem user ou assistant.
MAX_OUTPUT_TOKENS: número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.
Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.

Método HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

Corpo JSON da solicitação:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

Para enviar a solicitação, escolha uma destas opções:

curl

Observação: o comando a seguir pressupõe que você fez login na CLI gcloud com sua conta de usuário executando gcloud init ou gcloud auth login, ou usando o Cloud Shell, que faz login automaticamente na CLI gcloud. . É possível verificar a conta ativa atual executando gcloud auth list.

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

PowerShell

Observação: o comando a seguir pressupõe que você fez login na CLI gcloud com sua conta de usuário executando gcloud init ou gcloud auth login . É possível verificar a conta ativa atual executando gcloud auth list.

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Você receberá uma resposta JSON semelhante a seguinte.

Resposta

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}
...

Fazer uma chamada unária para um modelo de IA do Mistral

O exemplo a seguir faz uma chamada unária para um modelo de IA do Mistral.

REST

Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

LOCATION: uma região compatível com modelos da Mistral AI.
MODEL: o nome do modelo que você quer usar. No corpo da solicitação, exclua o número da versão do modelo @.
ROLE: o papel associado a uma mensagem. É possível especificar user ou assistant. A primeira mensagem precisa usar o papel user. Os modelos funcionam com voltas alternadas de user e assistant. Se a mensagem final usar o papel assistant, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo.
STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como true para transmitir a resposta e false para retornar a resposta de uma só vez.
CONTENT: o conteúdo, como texto, da mensagem user ou assistant.
MAX_OUTPUT_TOKENS: número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.
Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.

Método HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

Corpo JSON da solicitação:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

Para enviar a solicitação, escolha uma destas opções:

curl

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

Você receberá uma resposta JSON semelhante a seguinte.

Resposta

{
    "id": "e71d13ffb77344a08e34e0a22ea84458",
    "object": "chat.completion",
    "created": 1720806624,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "OUTPUT",
                "tool_calls": null
            },
            "finish_reason": "stop",
            "logprobs": null
        }
    ],
    "usage": {
        "prompt_tokens": 17,
        "total_tokens": 295,
        "completion_tokens": 278
    }
}

Disponibilidade e cotas das regiões do modelo de IA da Mistral

Para modelos de IA da Mistral, uma cota se aplica a cada região onde o modelo está disponível. A cota é especificada em consultas por minuto (QPM) e tokens por minuto (TPM). O TPM inclui tokens de entrada e saída.

Modelo	Região	Cotas	Tamanho do contexto
OCR do Mistral (25/05)
	`us-central1`	QPM: 30 Páginas por solicitação: 30 (1 página = 1 milhão de tokens de entrada e 1 milhão de tokens de saída)	30 páginas
	`europe-west4`	QPM: 30 Páginas por solicitação: 30 (1 página = 1 milhão de tokens de entrada e 1 milhão de tokens de saída)	30 páginas
Mistral Small 3.1 (25/03)
	`us-central1`	QPM: 60 TPM: 200.000	128.000
	`europe-west4`	QPM: 60 TPM: 200.000	128.000
Mistral Large (24.11)
	`us-central1`	QPM: 60 TPM: 400.000	128.000
	`europe-west4`	QPM: 60 TPM: 400.000	128.000
Mistral Nemo
	`us-central1`	QPM: 60 TPM: 400.000	128.000
	`europe-west4`	QPM: 60 TPM: 400.000	128.000
Codestral (25.01)
	`us-central1`	QPM: 60 TPM: 400.000	32.000
	`europe-west4`	QPM: 60 TPM: 400.000	32.000

Para aumentar alguma das suas cotas de IA generativa na Vertex AI, use o console Google Cloud para solicitar um aumento de cota. Para saber mais sobre cotas, consulte Trabalhar com cotas.

Modelos da Mistral AI Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Modelos da Mistral AI disponíveis

OCR do Mistral (25/05)

Mistral Small 3.1 (25/03)

Mistral Large (24.11)

Codestral (25.01)

Usar modelos da Mistral AI

Antes de começar

Fazer uma chamada de streaming para um modelo da Mistral AI

REST

curl

PowerShell

Resposta

Fazer uma chamada unária para um modelo de IA do Mistral

REST

curl

PowerShell

Resposta

Disponibilidade e cotas das regiões do modelo de IA da Mistral

Modelos da Mistral AI