Model Mistral AI

Model Mistral AI di Vertex AI menawarkan model sebagai API yang terkelola sepenuhnya dan serverless. Untuk menggunakan model Mistral AI di Vertex AI, kirim permintaan langsung ke endpoint Vertex AI API. Karena model Mistral AI menggunakan API terkelola, tidak perlu menyediakan atau mengelola infrastruktur.

Anda dapat melakukan streaming respons untuk mengurangi persepsi latensi pengguna akhir. Respons yang di-streaming menggunakan peristiwa yang dikirim server (SSE) untuk melakukan streaming respons secara bertahap.

Anda membayar model AI Mistral saat menggunakannya (bayar sesuai penggunaan). Untuk harga bayar sesuai penggunaan, lihat harga model Mistral AI di halaman harga Vertex AI.

Model Mistral AI yang tersedia

Model berikut tersedia dari Mistral AI untuk digunakan di Vertex AI. Untuk mengakses model AI Mistral, buka kartu model Model Garden-nya.

Mistral OCR (25.05)

Mistral OCR (25.05) adalah API Pengenalan Karakter Optik untuk pemahaman dokumen. Mistral OCR (25.05) unggul dalam memahami elemen dokumen yang kompleks, termasuk gambar yang disisipkan, ekspresi matematika, tabel, dan tata letak lanjutan seperti pemformatan LaTeX. Model ini memungkinkan pemahaman yang lebih mendalam tentang dokumen lengkap seperti makalah ilmiah dengan diagram, grafik, persamaan, dan gambar.

Mistral OCR (25.05) adalah model yang ideal untuk digunakan bersama dengan sistem RAG yang menggunakan dokumen multimodal (seperti slide atau PDF kompleks) sebagai input.

Anda dapat menggabungkan Mistral OCR (25.05) dengan model Mistral lainnya untuk memformat ulang hasilnya. Kombinasi ini memastikan bahwa konten yang diekstrak tidak hanya akurat, tetapi juga disajikan secara terstruktur dan koheren, sehingga cocok untuk berbagai aplikasi dan analisis hilir.

Buka kartu model Mistral OCR (25.05)

Mistral Small 3.1 (25.03)

Mistral Small 3.1 (25.03) memiliki kemampuan multimodal dan konteks hingga 128.000. Model ini dapat memproses dan memahami input visual serta dokumen panjang, sehingga memperluas jangkauan aplikasinya dibandingkan dengan model Mistral AI Small sebelumnya. Mistral Small 3.1 (25.03) adalah model serbaguna yang dirancang untuk berbagai tugas seperti pemrograman, penalaran matematika, pemahaman dokumen, dan dialog. Mistral Small 3.1 (25.03) dirancang untuk aplikasi latensi rendah guna memberikan efisiensi terbaik di kelasnya dibandingkan dengan model dengan kualitas yang sama.

Mistral Small 3.1 (25.03) telah menjalani proses pasca-pelatihan penuh untuk menyelaraskan model dengan preferensi dan kebutuhan manusia, sehingga dapat langsung digunakan untuk aplikasi yang memerlukan chat atau kemampuan mengikuti petunjuk yang akurat.

Buka kartu model Mistral Small 3.1 (25.03)

Mistral Large (24.11)

Mistral Large (24.11) adalah versi terbaru model Large Mistral AI yang kini memiliki kemampuan penalaran dan panggilan fungsi yang lebih baik.

  • Berfokus pada agen: kemampuan seperti agen terbaik di kelasnya dengan panggilan fungsi bawaan dan output JSON.
  • Dirancang untuk berbagai bahasa: mendukung puluhan bahasa, termasuk Inggris, Prancis, Jerman, Spanyol, Italia, China, Jepang, Korea, Portugis, Belanda, dan Polandia
  • Mahir dalam coding: dilatih dengan lebih dari 80 bahasa coding seperti Python, Java, C, C++, JavaScript, dan Bash. Juga dilatih dengan bahasa yang lebih spesifik seperti Swift dan Fortran
  • Penalaran tingkat lanjut: kemampuan matematika dan penalaran canggih.

Buka kartu model Mistral Large (24.11)

Codestral (25.01)

Codestral (25.01) dirancang untuk tugas pembuatan kode. API ini membantu developer menulis dan berinteraksi dengan kode melalui endpoint API penyelesaian dan instruksi bersama. Karena menguasai kode bersama dengan kemampuannya untuk berkomunikasi dalam berbagai bahasa, Anda dapat menggunakan Codestral (25.01) untuk mendesain aplikasi AI canggih bagi developer software.

  • Codestral (25.01) fasih dalam lebih dari 80 bahasa pemrograman, termasuk Python, Java, C, C++, JavaScript, dan Bash. Model ini juga memiliki performa yang baik pada bahasa yang lebih spesifik seperti Swift dan Fortran.
  • Codestral (25.01) membantu meningkatkan produktivitas developer dan mengurangi kesalahan: Codestral (25.01) dapat menyelesaikan fungsi coding, menulis pengujian, dan menyelesaikan kode parsial menggunakan mekanisme isi di tengah.
  • Codestral (25.01) memberikan standar baru dalam ruang performa dan latensi hanya dengan 24 miliar parameter dan jendela konteks 128.000.

Codestral (25.01) dioptimalkan untuk kasus penggunaan berikut:

  • Membuat kode dan memberikan penyelesaian, saran, dan terjemahan kode.
  • Menambahkan kode di antara titik awal dan akhir yang ditentukan pengguna, sehingga ideal untuk tugas yang memerlukan pembuatan kode tertentu.
  • Merangkum dan menjelaskan kode Anda.
  • Meninjau kualitas kode Anda dengan membantu memfaktorkan ulang kode, memperbaiki bug, dan membuat kasus pengujian.

Buka kartu model Codestral (25.01)

Menggunakan model AI Mistral

Anda dapat menggunakan perintah curl untuk mengirim permintaan ke endpoint Vertex AI menggunakan nama model berikut:

  • Untuk Mistral OCR (25.05), gunakan mistral-ocr-2505
  • Untuk Mistral Small 3.1 (25.03), gunakan mistral-small-2503
  • Untuk Mistral Large (24.11), gunakan mistral-large-2411
  • Untuk Mistral Nemo, gunakan mistral-nemo
  • Untuk Codestral (25.01), gunakan codestral-2501

Untuk mengetahui informasi selengkapnya tentang penggunaan Mistral AI SDK, lihat dokumentasi Mistral AI Vertex AI.

Sebelum memulai

Untuk menggunakan model Mistral AI dengan Vertex AI, Anda harus melakukan langkah-langkah berikut. Vertex AI API (aiplatform.googleapis.com) harus diaktifkan untuk menggunakan Vertex AI. Jika sudah memiliki project dengan Vertex AI API yang diaktifkan, Anda dapat menggunakan project tersebut, bukan membuat project baru.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Enable the API

  8. Buka salah satu kartu model Model Garden berikut, lalu klik Aktifkan:
  9. Melakukan panggilan streaming ke model AI Mistral

    Contoh berikut melakukan panggilan streaming ke model Mistral AI.

    REST

    Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.

    Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

    • LOCATION: Region yang mendukung model Mistral AI.
    • MODEL: Nama model yang ingin Anda gunakan. Di isi permintaan, kecualikan nomor versi model @.
    • ROLE: Peran yang terkait dengan pesan. Anda dapat menentukan user atau assistant. Pesan pertama harus menggunakan peran user. Model beroperasi dengan giliran user dan assistant yang bergantian. Jika pesan terakhir menggunakan peran assistant, maka konten respons akan langsung dilanjutkan dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model.
    • STREAM: Boolean yang menentukan apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Setel ke true untuk melakukan streaming respons dan false untuk menampilkan respons sekaligus.
    • CONTENT: Konten, seperti teks, dari pesan user atau assistant.
    • MAX_OUTPUT_TOKENS: Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar 3,5 karakter. 100 token setara dengan sekitar 60-80 kata.

      Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk potensi respons yang lebih panjang.

    Metode HTTP dan URL:

    POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

    Isi JSON permintaan:

    {
    "model": MODEL,
      "messages": [
       {
        "role": "ROLE",
        "content": "CONTENT"
       }],
      "max_tokens": MAX_TOKENS,
      "stream": true
    }
    

    Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

    curl

    Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

    PowerShell

    Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

    Anda akan melihat respons JSON yang mirip seperti berikut:

    Melakukan panggilan unary ke model Mistral AI

    Contoh berikut melakukan panggilan unary ke model Mistral AI.

    REST

    Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.

    Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

    • LOCATION: Region yang mendukung model Mistral AI.
    • MODEL: Nama model yang ingin Anda gunakan. Di isi permintaan, kecualikan nomor versi model @.
    • ROLE: Peran yang terkait dengan pesan. Anda dapat menentukan user atau assistant. Pesan pertama harus menggunakan peran user. Model beroperasi dengan giliran user dan assistant yang bergantian. Jika pesan terakhir menggunakan peran assistant, maka konten respons akan langsung dilanjutkan dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model.
    • STREAM: Boolean yang menentukan apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Setel ke true untuk melakukan streaming respons dan false untuk menampilkan respons sekaligus.
    • CONTENT: Konten, seperti teks, dari pesan user atau assistant.
    • MAX_OUTPUT_TOKENS: Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar 3,5 karakter. 100 token setara dengan sekitar 60-80 kata.

      Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk potensi respons yang lebih panjang.

    Metode HTTP dan URL:

    POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

    Isi JSON permintaan:

    {
    "model": MODEL,
      "messages": [
       {
        "role": "ROLE",
        "content": "CONTENT"
       }],
      "max_tokens": MAX_TOKENS,
      "stream": false
    }
    

    Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:

    curl

    Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

    PowerShell

    Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

    Anda akan melihat respons JSON yang mirip seperti berikut:

    Ketersediaan dan kuota region model AI Mistral

    Untuk model AI Mistral, kuota berlaku untuk setiap region tempat model tersedia. Kuota ditentukan dalam kueri per menit (QPM) dan token per menit (TPM). TPM mencakup token input dan output.

    Model Wilayah Kuota Panjang konteks
    Mistral OCR (25.05)
    us-central1
    • QPM: 30
    • Halaman per permintaan: 1.000 (1 halaman = 1 juta token input dan 1 juta token output)
    1.000 halaman
    europe-west4
    • QPM: 30
    • Halaman per permintaan: 1.000 (1 halaman = 1 juta token input dan 1 juta token output)
    1.000 halaman
    Mistral Small 3.1 (25.03)
    us-central1
    • QPM: 60
    • TPM: 200.000
    128.000
    europe-west4
    • QPM: 60
    • TPM: 200.000
    128.000
    Mistral Large (24.11)
    us-central1
    • QPM: 60
    • TPM: 400.000
    128.000
    europe-west4
    • QPM: 60
    • TPM: 400.000
    128.000
    Mistral Nemo
    us-central1
    • QPM: 60
    • TPM: 400.000
    128.000
    europe-west4
    • QPM: 60
    • TPM: 400.000
    128.000
    Codestral (25.01)
    us-central1
    • QPM: 60
    • TPM: 400.000
    32.000
    europe-west4
    • QPM: 60
    • TPM: 400.000
    32.000

    Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat menggunakan konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari kuota lebih lanjut, lihat Menangani kuota.