Modelos de IA de Mistral

Los modelos de IA de Mistral en Vertex AI ofrecen modelos completamente administrados y sin servidores como APIs. Para usar un modelo de IA de Mistral en Vertex AI, envía una solicitud directamente al extremo de API de Vertex AI. Debido a que los modelos de AI de Mistral usan una API administrada, no es necesario aprovisionar ni administrar la infraestructura.

Puedes transmitir tus respuestas para reducir la percepción de latencia del usuario final. Una respuesta transmitida usa eventos enviados por el servidor (SSE) para transmitir la respuesta de forma incremental.

Pagas por los modelos de IA de Mistral a medida que los usas (pago por uso). Para conocer los precios del pago por uso, consulta los precios del modelo de IA Mistral en la página de precios de Vertex AI.

Modelos de IA de Mistral disponibles

Los siguientes modelos están disponibles en Mistral AI para usarse en Vertex AI. Para acceder a un modelo de IA de Mistral, ve a su tarjeta de modelo de Model Garden.

Mistral Grande (2407)

Mistral Large (2407) es el modelo insignia de Mistral AI para la generación de texto. Alcanza capacidades de razonamiento de primer nivel y se puede usar para tareas complejas en varios idiomas, como la comprensión de texto, la transformación y la generación de código. Para obtener más información, consulta la publicación de Mistral AI sobre Mistral Large (2407).

Mistral Large (2407) se destaca en las siguientes dimensiones:

  • Multilingüe de forma predeterminada. Admite decenas de idiomas, incluidos alemán, chino, coreano, español, francés, holandés, inglés, italiano, japonés, portugués y polaco.
  • Tener conocimientos avanzados de programación Se entrenó en más de 80 lenguajes de programación, como Python, Java, C, C++, JavaScript y Bash. También se entrena en lenguajes más específicos, como Swift y Fortran.
  • Se centra en el agente. Las mejores capacidades de agentes de su clase con llamadas a funciones nativas y salida JSON
  • Razonamiento avanzado. Capacidades matemáticas y de razonamiento de vanguardia.
Ir a la tarjeta de modelo de Mistral Large (2407)

Mistral Nemo

Mistral Nemo es el modelo propietario más rentable de Mistral AI. Es la opción ideal para cargas de trabajo de baja latencia y tareas simples que se pueden realizar de forma masiva, como la clasificación, la asistencia al cliente y la generación de texto. Para obtener más información, consulta la documentación de Mistral AI.

Mistral Nemo está optimizado para los siguientes casos de uso:

  • Generar y clasificar texto
  • Compila agentes para situaciones de asistencia al cliente.
  • Generación de código, finalización, revisión y comentarios. Admite todos los lenguajes de programación principales.
Ir a la tarjeta de modelo de Mistral Nemo

Codestral

Codestral es un modelo generativo que se diseñó y optimizó específicamente para tareas de generación de código, como fill-in-the-middle y completar el código. Codestral se entrenó en más de 80 lenguajes de programación, lo que le permite tener un buen rendimiento en lenguajes comunes y menos comunes. Para obtener más información, consulta la documentación de generación de código de Mistral AI.

Codestral está optimizado para los siguientes casos de uso:

  • Generar código, proporcionar finalización de código, sugerencias y traducción
  • Comprender tu código para proporcionar un resumen y una explicación del código
  • Revisar la calidad de tu código con la ayuda de la refactorización, la corrección de errores y la generación de casos de prueba
Ir a la tarjeta de modelo de Codestral

Usa modelos de IA de Mistral

Cuando envíes solicitudes para usar los modelos de Mistral AI, usa los siguientes nombres de modelos:

  • Para Mistral Large (2407), usa mistral-large@2407.
  • Para Mistral Nemo, usa mistral-nemo@2407.
  • Para Codestral, usa codestral@2405.

Te recomendamos que uses las versiones de modelos que incluyen un sufijo que comienza con un símbolo @ debido a las posibles diferencias entre las versiones de modelos. Si no especificas una versión del modelo, siempre se usa la versión más reciente, lo que puede afectar de forma inadvertida tus flujos de trabajo cuando cambia una versión del modelo.

Si deseas obtener más información para usar el SDK de Mistral AI, consulta la documentación de Vertex AI de Mistral AI.

Antes de comenzar

Para usar modelos de IA de Mistral con Vertex AI, debes realizar los siguientes pasos. La API de Vertex AI (aiplatform.googleapis.com) debe estar habilitada para usar Vertex AI. Si ya tienes un proyecto existente con la API de Vertex AI habilitada, puedes usar ese proyecto en lugar de crear uno nuevo.

Asegúrate de tener los permisos necesarios para habilitar y usar modelos de socios. Para obtener más información, consulta Otorga los permisos necesarios.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Enable the API

  8. Ve a una de las siguientes tarjetas de modelo de Model Garden y, luego, haz clic en habilitar:

Realiza una llamada de transmisión a un modelo de IA de Mistral

En el siguiente ejemplo, se realiza una llamada de transmisión a un modelo de IA de Mistral.

REST

Después de configurar tu entorno, puedes usar REST para probar una instrucción de texto. En el siguiente ejemplo, se envía una solicitud al extremo del modelo de publicador.

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

  • LOCATION: Es una región que admite modelos de IA de Mistral.
  • MODEL: El nombre del modelo que deseas usar. En el cuerpo de la solicitud, excluye el número de versión del modelo @.
  • ROLE: El rol asociado a un mensaje. Puedes especificar un user o un assistant. El primer mensaje debe usar el rol user. Los modelos funcionan con giros user y assistant alternados. Si el mensaje final usa el rol assistant, el contenido de la respuesta continúa inmediatamente desde el contenido de ese mensaje. Puedes usar esto para restringir parte de la respuesta del modelo.
  • STREAM: Un valor booleano que especifica si la respuesta se transmite o no. Transmite tu respuesta para reducir la percepción de latencia del usuario final. Configúralo como true para transmitir la respuesta y false para devolverla de una sola vez.
  • CONTENT: Es el contenido, como el texto, del mensaje user o assistant.
  • MAX_OUTPUT_TOKENS: Cantidad máxima de tokens que se pueden generar en la respuesta. Un token tiene aproximadamente 3.5 caracteres. 100 tokens corresponden a casi 60 u 80 palabras.

    Especifica un valor más bajo para las respuestas más cortas y un valor más alto para las respuestas potencialmente más largas.

Método HTTP y URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

Cuerpo JSON de la solicitud:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

Para enviar tu solicitud, elige una de estas opciones:

curl

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

PowerShell

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

Realiza una llamada unaria a un modelo de IA de Mistral

En el siguiente ejemplo, se realiza una llamada unaria a un modelo de IA de Mistral.

REST

Después de configurar tu entorno, puedes usar REST para probar una instrucción de texto. En el siguiente ejemplo, se envía una solicitud al extremo del modelo de publicador.

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

  • LOCATION: Es una región que admite modelos de IA de Mistral.
  • MODEL: El nombre del modelo que deseas usar. En el cuerpo de la solicitud, excluye el número de versión del modelo @.
  • ROLE: El rol asociado a un mensaje. Puedes especificar un user o un assistant. El primer mensaje debe usar el rol user. Los modelos funcionan con giros user y assistant alternados. Si el mensaje final usa el rol assistant, el contenido de la respuesta continúa inmediatamente desde el contenido de ese mensaje. Puedes usar esto para restringir parte de la respuesta del modelo.
  • STREAM: Un valor booleano que especifica si la respuesta se transmite o no. Transmite tu respuesta para reducir la percepción de latencia del usuario final. Configúralo como true para transmitir la respuesta y false para devolverla de una sola vez.
  • CONTENT: Es el contenido, como el texto, del mensaje user o assistant.
  • MAX_OUTPUT_TOKENS: Cantidad máxima de tokens que se pueden generar en la respuesta. Un token tiene aproximadamente 3.5 caracteres. 100 tokens corresponden a casi 60 u 80 palabras.

    Especifica un valor más bajo para las respuestas más cortas y un valor más alto para las respuestas potencialmente más largas.

Método HTTP y URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

Cuerpo JSON de la solicitud:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

Para enviar tu solicitud, elige una de estas opciones:

curl

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

Disponibilidad y cuotas de la región del modelo de IA de Mistral

En el caso de los modelos de IA de Mistral, se aplica una cuota para cada región en la que el modelo está disponible. La cuota se especifica en consultas por minuto (QPM) y tokens por minuto (TPM). TPM incluye tokens de entrada y salida.

En las siguientes tablas, se indican las regiones compatibles, las cuotas predeterminadas y la longitud máxima de contexto para cada modelo de AI de Mistral:

Mistral Grande (2407)

Región Sistema de cuotas Longitud del contexto compatible
us-central1 60 QPM, 200,000 TPM 128,000 tokens
europe-west4 60 QPM, 200,000 TPM 128,000 tokens

Mistral Nemo

Región Sistema de cuotas Longitud del contexto compatible
us-central1 60 QPM, 200,000 TPM 128,000 tokens
europe-west4 60 QPM, 200,000 TPM 128,000 tokens

Codestral

Región Sistema de cuotas Longitud del contexto compatible
us-central1 60 QPM, 200,000 TPM 32,000 tokens
europe-west4 60 QPM, 200,000 TPM 32,000 tokens

Si quieres aumentar tus cuotas para IA generativa en Vertex AI, puedes usar la consola de Google Cloud para solicitar un aumento de la cuota. Para obtener más información sobre las cuotas, consulta Trabaja con cuotas.