Modelos da Mistral AI

Os modelos da Mistral AI na Vertex AI oferecem modelos totalmente gerenciados e sem servidor como APIs. Para usar um modelo do Mistral AI na Vertex AI, envie uma solicitação diretamente ao endpoint de API Vertex AI. Devido ao Os modelos de IA do Mistral usam uma API gerenciada. Não é necessário provisionar nem gerenciar a infraestrutura.

É possível transmitir as respostas para reduzir a percepção de latência do usuário final. Uma resposta transmitida usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.

Você paga pelos modelos de IA do Mistral conforme o uso (pagamento por utilização). Para pagamento por utilização, consulte os preços do modelo de IA da Mistral na página de preços da Vertex AI.

Modelos da Mistral AI disponíveis

Os modelos a seguir estão disponíveis na Mistral AI para uso na Vertex AI. Para acessar um modelo da Mistral AI, acesse o card de modelo do Model Garden.

OCR do Mistral (25/05)

O Mistral OCR (25.05) é uma API de reconhecimento óptico de caracteres para compreensão de documentos. O OCR do Mistral (25.05) é excelente para entender elementos complexos de documentos, incluindo imagens intercaladas, expressões matemáticas, tabelas e layouts avançados, como a formatação LaTeX. O modelo permite uma compreensão mais profunda de documentos avançados, como artigos científicos com gráficos, equações e figuras.

O OCR do Mistral (25.05) é um modelo ideal para usar em combinação com um sistema RAG que recebe documentos multimodais (como slides ou PDFs complexos) como entrada.

Você pode combinar o OCR do Mistral (25.05) com outros modelos do Mistral para reformatar os resultados. Essa combinação garante que o conteúdo extraído não seja apenas preciso, mas também apresentado de maneira estruturada e coerente, tornando-o adequado para várias aplicações e análises downstream.

Acessar o card de modelo do Mistral OCR (25.05)

Mistral Small 3.1 (25/03)

O Mistral Small 3.1 (25/03) tem recursos multimodais e um contexto de até 128.000. O modelo pode processar e entender entradas visuais e documentos longos, ampliando ainda mais o alcance de aplicativos em comparação com o modelo anterior Mistral AI Small. O Mistral Small 3.1 (25/03) é um modelo versátil projetado para várias tarefas, como programação, raciocínio matemático, compreensão de documentos e diálogo. O Mistral Small 3.1 (25/03) foi projetado para aplicativos de baixa latência e oferece a melhor eficiência da categoria em comparação com modelos de mesma qualidade.

O Mistral Small 3.1 (25/03) passou por um processo completo de pós-treinamento para alinhar o modelo às preferências e necessidades humanas, tornando-o utilizável imediatamente para aplicativos que exigem chat ou instruções precisas.

Acessar o card de modelo do Mistral Small 3.1 (25.03)

Mistral Large (24.11)

O Mistral Large (24.11) é a versão mais recente do modelo Large da Mistral AI, agora com recursos aprimorados de raciocínio e chamada de função.

  • Focado no agente: os melhores recursos de agente com função integrada de chamada e saídas JSON.
  • Multilíngue por design: há vários idiomas disponíveis, incluindo inglês, francês, alemão, espanhol, italiano, chinês, japonês, coreano, português, holandês e polonês.
  • Proficiência em programação: treinado em mais de 80 linguagens de programação, como Python, Java, C, C++, JavaScript e Bash. Também treinado em linguagens mais específicas como Swift e Fortran
  • Raciocínio avançado: recursos de cálculo e raciocínio de última geração.

Acessar o card de modelo do Mistral Large (24.11)

Codestral (25.01)

O Codestral (25/01) foi projetado para tarefas de geração de código. Ele ajuda os desenvolvedores a escrever e interagir com código usando uma instrução compartilhada e um endpoint de API de conclusão. Como ele domina o código e consegue conversar em várias línguas, você pode usar o Codestral (25.01) para projetar aplicativos de IA avançados para desenvolvedores de software.

  • O Codestral (25.01) é fluente em mais de 80 linguagens de programação, incluindo Python, Java, C, C++, JavaScript e Bash. Ele também tem um bom desempenho em linguagens mais específicas, como Swift e Fortran.
  • O Codestral (25.01) ajuda a melhorar a produtividade dos desenvolvedores e reduz os erros: ele pode completar funções de programação, escrever testes e completar qualquer código parcial usando um mecanismo de preenchimento no meio.
  • O Codestral (25.01) oferece um novo padrão no espaço de desempenho e latência com apenas 24 bilhões de parâmetros e uma janela de contexto de 128.000.

O Codestral (25/01) é otimizado para os seguintes casos de uso:

  • Gera código e oferece preenchimento, sugestões e tradução.
  • Adiciona código entre pontos de início e fim definidos pelo usuário, o que o torna ideal para tarefas que exigem a geração de um trecho de código específico.
  • Resumir e explicar seu código.
  • Revisa a qualidade do código ajudando a refatorá-lo, corrigindo bugs e gerando casos de teste.

Acessar o card do modelo da Codestral (25.01)

Usar modelos da Mistral AI

É possível usar comandos curl para enviar solicitações ao endpoint da Vertex AI usando os seguintes nomes de modelos:

  • Para o OCR do Mistral (25.05), use mistral-ocr-2505.
  • Para o Mistral Small 3.1 (25/03), use mistral-small-2503
  • Para o Mistral Large (24.11), use mistral-large-2411
  • Para o Mistral Nemo, use mistral-nemo
  • Para o Codestral (25/01), use codestral-2501

Para mais informações sobre como usar o SDK da Mistral AI, consulte a documentação da Mistral AI Vertex AI.

Antes de começar

Para usar os modelos do Mistral AI com a Vertex AI, siga as etapas abaixo. A API Vertex AI (aiplatform.googleapis.com) precisa estar ativada para usar a Vertex AI. Se você já tiver um projeto existente com a API do Vertex AI ativada, poderá usar esse projeto em vez de criar um novo.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Enable the API

  8. Acesse um dos seguintes cards de modelo do Model Garden e clique em Ativar:
  9. Fazer uma chamada de streaming para um modelo da Mistral AI

    O exemplo a seguir faz uma chamada de streaming para um modelo de IA do Mistral.

    REST

    Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.

    Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

    • LOCATION: uma região compatível com modelos da Mistral AI.
    • MODEL: o nome do modelo que você quer usar. No corpo da solicitação, exclua o número da versão do modelo @.
    • ROLE: o papel associado a uma mensagem. É possível especificar user ou assistant. A primeira mensagem precisa usar o papel user. Os modelos funcionam com voltas alternadas de user e assistant. Se a mensagem final usar o papel assistant, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo.
    • STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como true para transmitir a resposta e false para retornar a resposta de uma só vez.
    • CONTENT: o conteúdo, como texto, da mensagem user ou assistant.
    • MAX_OUTPUT_TOKENS: número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.

      Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.

    Método HTTP e URL:

    POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

    Corpo JSON da solicitação:

    {
    "model": MODEL,
      "messages": [
       {
        "role": "ROLE",
        "content": "CONTENT"
       }],
      "max_tokens": MAX_TOKENS,
      "stream": true
    }
    

    Para enviar a solicitação, escolha uma destas opções:

    curl

    Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

    PowerShell

    Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

    Você receberá uma resposta JSON semelhante a seguinte.

    Fazer uma chamada unária para um modelo de IA do Mistral

    O exemplo a seguir faz uma chamada unária para um modelo de IA do Mistral.

    REST

    Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.

    Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

    • LOCATION: uma região compatível com modelos da Mistral AI.
    • MODEL: o nome do modelo que você quer usar. No corpo da solicitação, exclua o número da versão do modelo @.
    • ROLE: o papel associado a uma mensagem. É possível especificar user ou assistant. A primeira mensagem precisa usar o papel user. Os modelos funcionam com voltas alternadas de user e assistant. Se a mensagem final usar o papel assistant, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo.
    • STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como true para transmitir a resposta e false para retornar a resposta de uma só vez.
    • CONTENT: o conteúdo, como texto, da mensagem user ou assistant.
    • MAX_OUTPUT_TOKENS: número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.

      Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.

    Método HTTP e URL:

    POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

    Corpo JSON da solicitação:

    {
    "model": MODEL,
      "messages": [
       {
        "role": "ROLE",
        "content": "CONTENT"
       }],
      "max_tokens": MAX_TOKENS,
      "stream": false
    }
    

    Para enviar a solicitação, escolha uma destas opções:

    curl

    Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

    PowerShell

    Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

    Você receberá uma resposta JSON semelhante a seguinte.

    Disponibilidade e cotas das regiões do modelo de IA da Mistral

    Para modelos de IA da Mistral, uma cota se aplica a cada região onde o modelo está disponível. A cota é especificada em consultas por minuto (QPM) e tokens por minuto (TPM). O TPM inclui tokens de entrada e saída.

    Modelo Região Cotas Tamanho do contexto
    OCR do Mistral (25/05)
    us-central1
    • QPM: 30
    • Páginas por solicitação: 1.000 (1 página = 1 milhão de tokens de entrada e 1 milhão de tokens de saída)
    1.000 páginas
    europe-west4
    • QPM: 30
    • Páginas por solicitação: 1.000 (1 página = 1 milhão de tokens de entrada e 1 milhão de tokens de saída)
    1.000 páginas
    Mistral Small 3.1 (25/03)
    us-central1
    • QPM: 60
    • TPM: 200.000
    128.000
    europe-west4
    • QPM: 60
    • TPM: 200.000
    128.000
    Mistral Large (24.11)
    us-central1
    • QPM: 60
    • TPM: 400.000
    128.000
    europe-west4
    • QPM: 60
    • TPM: 400.000
    128.000
    Mistral Nemo
    us-central1
    • QPM: 60
    • TPM: 400.000
    128.000
    europe-west4
    • QPM: 60
    • TPM: 400.000
    128.000
    Codestral (25.01)
    us-central1
    • QPM: 60
    • TPM: 400.000
    32.000
    europe-west4
    • QPM: 60
    • TPM: 400.000
    32.000

    Para aumentar alguma das suas cotas de IA generativa na Vertex AI, use o console Google Cloud para solicitar um aumento de cota. Para saber mais sobre cotas, consulte Trabalhar com cotas.