Model Mistral AI di Vertex AI menawarkan model sebagai API yang terkelola sepenuhnya dan serverless. Untuk menggunakan model Mistral AI di Vertex AI, kirim permintaan langsung ke endpoint Vertex AI API. Karena model Mistral AI menggunakan API terkelola, tidak perlu menyediakan atau mengelola infrastruktur.
Anda dapat melakukan streaming respons untuk mengurangi persepsi latensi pengguna akhir. Respons yang di-streaming menggunakan peristiwa yang dikirim server (SSE) untuk melakukan streaming respons secara bertahap.
Anda membayar model AI Mistral saat menggunakannya (bayar sesuai penggunaan). Untuk harga bayar sesuai penggunaan, lihat harga model Mistral AI di halaman harga Vertex AI.
Model Mistral AI yang tersedia
Model berikut tersedia dari Mistral AI untuk digunakan di Vertex AI. Untuk mengakses model AI Mistral, buka kartu model Model Garden-nya.
Mistral OCR (25.05)
Mistral OCR (25.05) adalah API Pengenalan Karakter Optik untuk pemahaman dokumen. Mistral OCR (25.05) unggul dalam memahami elemen dokumen yang kompleks, termasuk gambar yang disisipkan, ekspresi matematika, tabel, dan tata letak lanjutan seperti pemformatan LaTeX. Model ini memungkinkan pemahaman yang lebih mendalam tentang dokumen lengkap seperti makalah ilmiah dengan diagram, grafik, persamaan, dan gambar.
Mistral OCR (25.05) adalah model yang ideal untuk digunakan bersama dengan sistem RAG yang menggunakan dokumen multimodal (seperti slide atau PDF kompleks) sebagai input.
Anda dapat menggabungkan Mistral OCR (25.05) dengan model Mistral lainnya untuk memformat ulang hasilnya. Kombinasi ini memastikan bahwa konten yang diekstrak tidak hanya akurat, tetapi juga disajikan secara terstruktur dan koheren, sehingga cocok untuk berbagai aplikasi dan analisis hilir.
Buka kartu model Mistral OCR (25.05)
Mistral Small 3.1 (25.03)
Mistral Small 3.1 (25.03) memiliki kemampuan multimodal dan konteks hingga 128.000. Model ini dapat memproses dan memahami input visual serta dokumen panjang, sehingga memperluas jangkauan aplikasinya dibandingkan dengan model Mistral AI Small sebelumnya. Mistral Small 3.1 (25.03) adalah model serbaguna yang dirancang untuk berbagai tugas seperti pemrograman, penalaran matematika, pemahaman dokumen, dan dialog. Mistral Small 3.1 (25.03) dirancang untuk aplikasi latensi rendah guna memberikan efisiensi terbaik di kelasnya dibandingkan dengan model dengan kualitas yang sama.
Mistral Small 3.1 (25.03) telah menjalani proses pasca-pelatihan penuh untuk menyelaraskan model dengan preferensi dan kebutuhan manusia, sehingga dapat langsung digunakan untuk aplikasi yang memerlukan chat atau kemampuan mengikuti petunjuk yang akurat.
Buka kartu model Mistral Small 3.1 (25.03)
Mistral Large (24.11)
Mistral Large (24.11) adalah versi terbaru model Large Mistral AI yang kini memiliki kemampuan penalaran dan panggilan fungsi yang lebih baik.
- Berfokus pada agen: kemampuan seperti agen terbaik di kelasnya dengan panggilan fungsi bawaan dan output JSON.
- Dirancang untuk berbagai bahasa: mendukung puluhan bahasa, termasuk Inggris, Prancis, Jerman, Spanyol, Italia, China, Jepang, Korea, Portugis, Belanda, dan Polandia
- Mahir dalam coding: dilatih dengan lebih dari 80 bahasa coding seperti Python, Java, C, C++, JavaScript, dan Bash. Juga dilatih dengan bahasa yang lebih spesifik seperti Swift dan Fortran
- Penalaran tingkat lanjut: kemampuan matematika dan penalaran canggih.
Buka kartu model Mistral Large (24.11)
Codestral (25.01)
Codestral (25.01) dirancang untuk tugas pembuatan kode. API ini membantu developer menulis dan berinteraksi dengan kode melalui endpoint API penyelesaian dan instruksi bersama. Karena menguasai kode bersama dengan kemampuannya untuk berkomunikasi dalam berbagai bahasa, Anda dapat menggunakan Codestral (25.01) untuk mendesain aplikasi AI canggih bagi developer software.
- Codestral (25.01) fasih dalam lebih dari 80 bahasa pemrograman, termasuk Python, Java, C, C++, JavaScript, dan Bash. Model ini juga memiliki performa yang baik pada bahasa yang lebih spesifik seperti Swift dan Fortran.
- Codestral (25.01) membantu meningkatkan produktivitas developer dan mengurangi kesalahan: Codestral (25.01) dapat menyelesaikan fungsi coding, menulis pengujian, dan menyelesaikan kode parsial menggunakan mekanisme isi di tengah.
- Codestral (25.01) memberikan standar baru dalam ruang performa dan latensi hanya dengan 24 miliar parameter dan jendela konteks 128.000.
Codestral (25.01) dioptimalkan untuk kasus penggunaan berikut:
- Membuat kode dan memberikan penyelesaian, saran, dan terjemahan kode.
- Menambahkan kode di antara titik awal dan akhir yang ditentukan pengguna, sehingga ideal untuk tugas yang memerlukan pembuatan kode tertentu.
- Merangkum dan menjelaskan kode Anda.
- Meninjau kualitas kode Anda dengan membantu memfaktorkan ulang kode, memperbaiki bug, dan membuat kasus pengujian.
Buka kartu model Codestral (25.01)
Menggunakan model AI Mistral
Anda dapat menggunakan perintah curl untuk mengirim permintaan ke endpoint Vertex AI menggunakan nama model berikut:
- Untuk Mistral OCR (25.05), gunakan
mistral-ocr-2505
- Untuk Mistral Small 3.1 (25.03), gunakan
mistral-small-2503
- Untuk Mistral Large (24.11), gunakan
mistral-large-2411
- Untuk Mistral Nemo, gunakan
mistral-nemo
- Untuk Codestral (25.01), gunakan
codestral-2501
Untuk mengetahui informasi selengkapnya tentang penggunaan Mistral AI SDK, lihat dokumentasi Mistral AI Vertex AI.
Sebelum memulai
Untuk menggunakan model Mistral AI dengan Vertex AI, Anda harus melakukan langkah-langkah berikut. Vertex AI API
(aiplatform.googleapis.com
) harus diaktifkan untuk menggunakan
Vertex AI. Jika sudah memiliki project dengan
Vertex AI API yang diaktifkan, Anda dapat menggunakan project tersebut, bukan membuat
project baru.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- Buka salah satu kartu model Model Garden berikut, lalu klik Aktifkan:
- LOCATION: Region yang mendukung model Mistral AI.
- MODEL: Nama model yang ingin Anda gunakan. Di
isi permintaan, kecualikan nomor versi model
@
. - ROLE: Peran yang terkait dengan
pesan. Anda dapat menentukan
user
atauassistant
. Pesan pertama harus menggunakan peranuser
. Model beroperasi dengan giliranuser
danassistant
yang bergantian. Jika pesan terakhir menggunakan peranassistant
, maka konten respons akan langsung dilanjutkan dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model. - STREAM: Boolean yang menentukan
apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Setel ke
true
untuk melakukan streaming respons danfalse
untuk menampilkan respons sekaligus. - CONTENT: Konten, seperti
teks, dari pesan
user
atauassistant
. - MAX_OUTPUT_TOKENS:
Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar 3,5 karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk potensi respons yang lebih panjang.
- LOCATION: Region yang mendukung model Mistral AI.
- MODEL: Nama model yang ingin Anda gunakan. Di
isi permintaan, kecualikan nomor versi model
@
. - ROLE: Peran yang terkait dengan
pesan. Anda dapat menentukan
user
atauassistant
. Pesan pertama harus menggunakan peranuser
. Model beroperasi dengan giliranuser
danassistant
yang bergantian. Jika pesan terakhir menggunakan peranassistant
, maka konten respons akan langsung dilanjutkan dari konten dalam pesan tersebut. Anda dapat menggunakan ini untuk membatasi sebagian respons model. - STREAM: Boolean yang menentukan
apakah respons di-streaming atau tidak. Streaming respons Anda untuk mengurangi persepsi latensi penggunaan akhir. Setel ke
true
untuk melakukan streaming respons danfalse
untuk menampilkan respons sekaligus. - CONTENT: Konten, seperti
teks, dari pesan
user
atauassistant
. - MAX_OUTPUT_TOKENS:
Jumlah maksimum token yang dapat dibuat dalam respons. Token terdiri dari sekitar 3,5 karakter. 100 token setara dengan sekitar 60-80 kata.
Tentukan nilai yang lebih rendah untuk respons yang lebih singkat dan nilai yang lebih tinggi untuk potensi respons yang lebih panjang.
- QPM: 30
- Halaman per permintaan: 1.000 (1 halaman = 1 juta token input dan 1 juta token output)
- QPM: 30
- Halaman per permintaan: 1.000 (1 halaman = 1 juta token input dan 1 juta token output)
- QPM: 60
- TPM: 200.000
- QPM: 60
- TPM: 200.000
- QPM: 60
- TPM: 400.000
- QPM: 60
- TPM: 400.000
- QPM: 60
- TPM: 400.000
- QPM: 60
- TPM: 400.000
- QPM: 60
- TPM: 400.000
- QPM: 60
- TPM: 400.000
Melakukan panggilan streaming ke model AI Mistral
Contoh berikut melakukan panggilan streaming ke model Mistral AI.
REST
Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict
Isi JSON permintaan:
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": true }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content
Anda akan melihat respons JSON yang mirip seperti berikut:
Melakukan panggilan unary ke model Mistral AI
Contoh berikut melakukan panggilan unary ke model Mistral AI.
REST
Setelah menyiapkan lingkungan, Anda dapat menggunakan REST untuk menguji perintah teks. Contoh berikut mengirim permintaan ke endpoint model penayang.
Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:
Metode HTTP dan URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict
Isi JSON permintaan:
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": false }
Untuk mengirim permintaan Anda, pilih salah satu opsi berikut:
curl
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"
PowerShell
Simpan isi permintaan dalam file bernama request.json
,
dan jalankan perintah berikut:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content
Anda akan melihat respons JSON yang mirip seperti berikut:
Ketersediaan dan kuota region model AI Mistral
Untuk model AI Mistral, kuota berlaku untuk setiap region tempat model tersedia. Kuota ditentukan dalam kueri per menit (QPM) dan token per menit (TPM). TPM mencakup token input dan output.
Model | Wilayah | Kuota | Panjang konteks |
---|---|---|---|
Mistral OCR (25.05) | |||
us-central1 |
|
1.000 halaman | |
europe-west4 |
|
1.000 halaman | |
Mistral Small 3.1 (25.03) | |||
us-central1 |
|
128.000 | |
europe-west4 |
|
128.000 | |
Mistral Large (24.11) | |||
us-central1 |
|
128.000 | |
europe-west4 |
|
128.000 | |
Mistral Nemo | |||
us-central1 |
|
128.000 | |
europe-west4 |
|
128.000 | |
Codestral (25.01) | |||
us-central1 |
|
32.000 | |
europe-west4 |
|
32.000 |
Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat menggunakan konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari kuota lebih lanjut, lihat Menangani kuota.