Panduan ini menunjukkan cara memigrasikan aplikasi AI generatif dari model Gemini 1.x dan PaLM ke model Gemini 2.
Mengapa harus bermigrasi ke Gemini 2?
Gemini 2 memberikan peningkatan performa yang signifikan dibandingkan model Gemini 1.x dan PaLM, beserta kemampuan baru. Selain itu, setiap versi model memiliki linimasa ketersediaan dan dukungan versi-nya sendiri.
Mengupgrade sebagian besar aplikasi AI generatif ke Gemini 2 tidak memerlukan reengineering perintah atau kode yang signifikan. Namun, beberapa aplikasi memerlukan perubahan perintah, dan perubahan ini sulit diprediksi tanpa menjalankan perintah melalui Gemini 2 terlebih dahulu. Oleh karena itu, pengujian Gemini 2 direkomendasikan sebelum migrasi.
Perubahan kode yang signifikan hanya diperlukan untuk perubahan yang menyebabkan error tertentu, atau untuk menggunakan kemampuan Gemini 2 baru.
Model Gemini 2 mana yang harus saya migrasikan?
Saat memilih model Gemini 2 untuk dimigrasikan, sebaiknya pertimbangkan fitur yang diperlukan aplikasi Anda, serta biaya fitur tersebut.
Untuk ringkasan fitur model Gemini 2, lihat Gemini 2. Untuk ringkasan semua model Google, lihat Model Google.
Untuk perbandingan model Gemini 1.x dan Gemini 2, lihat tabel berikut.
Fitur | Gemini 1.0 Pro | Gemini 1.5 Pro | Gemini 1.5 Flash | Gemini 2.0 Flash | Gemini 2.0 Flash-Lite |
---|---|---|---|---|---|
Modalitas input | teks biasa | teks, dokumen, gambar, video, audio | teks, dokumen, gambar, video, audio | teks, dokumen, gambar, video, audio | teks, dokumen, gambar, video, audio |
Modalitas output | teks biasa | teks biasa | teks biasa | teks biasa | teks biasa |
Jendela konteks, batas total token | 32.760 | 2.097.152 | 1.048.576 | 1.048.576 | 1.048.576 |
Panjang konteks output | 8.192 | 8.192 | 8.192 | 8.192 | 8.192 |
Melakukan grounding dengan Penelusuran | Tidak | Ya | Ya | Ya | Tidak |
Panggilan fungsi | Tidak | Ya | Ya | Ya | Ya |
Eksekusi kode | Tidak | Tidak | Tidak | Ya | Tidak |
Menyimpan cache ke konteks | Tidak | Ya | Ya | Ya | Tidak |
Prediksi batch | Tidak | Ya | Ya | Ya | Ya |
Live API | Tidak | Tidak | Tidak | Tidak | Tidak |
Latensi | Lebih lambat dari 1.5 Flash | Paling canggih dalam keluarga 1.5 | Tercepat dalam keluarga 1.5 | Cepat + hemat biaya | Cepat + paling hemat biaya |
Penyesuaian | Ya | Ya | Ya | Ya | Ya |
SDK yang direkomendasikan | Vertex AI SDK | Vertex AI SDK | Vertex AI SDK | Gen AI SDK | Gen AI SDK |
Unit harga | Berbasis karakter | Berbasis karakter | Berbasis karakter | Token | Token |
Sebelum memulai
Untuk migrasi Gemini 2 yang lancar, sebaiknya Anda mengatasi masalah berikut sebelum memulai proses migrasi.
Kesadaran penghentian model
Perhatikan linimasa ketersediaan dan dukungan versi model untuk model Gemini lama, dan pastikan migrasi Anda selesai sebelum model yang Anda gunakan dihentikan.
InfoSec, tata kelola, dan persetujuan peraturan
Minta persetujuan yang Anda perlukan untuk Gemini 2 secara proaktif dari pemangku kepentingan keamanan informasi (InfoSec), risiko, dan kepatuhan. Pastikan Anda mencakup batasan kepatuhan dan risiko khusus domain, terutama di industri yang diatur dengan ketat seperti layanan kesehatan dan jasa keuangan. Perhatikan bahwa kontrol keamanan Gemini berbeda di antara model Gemini 2.
Ketersediaan lokasi
Lihat dokumentasi AI Generatif pada Google Cloud model dan ketersediaan model partner, dan pastikan model Gemini 2 yang Anda pilih tersedia di region tempat Anda membutuhkannya, atau pertimbangkan untuk beralih ke endpoint global.
Perbedaan harga berbasis tokenisasi dan modalitas
Periksa harga Gemini 2 untuk semua modalitas (teks, kode, gambar, ucapan) dalam aplikasi Anda. Untuk mengetahui informasi selengkapnya, lihat halaman harga AI generatif. Perhatikan bahwa input dan output teks Gemini 2 diberi harga per token, sedangkan input dan output teks Gemini 1 diberi harga per karakter.
Throughput yang Disediakan
Jika diperlukan, beli Provisioned Throughput tambahan untuk Gemini 2 atau ubah pesanan Provisioned Throughput yang ada.
Penyesuaian yang diawasi
Jika aplikasi Gemini Anda menggunakan fine-tuning yang diawasi, kirim tugas penyesuaian baru dengan Gemini 2. Sebaiknya mulai dengan hyperparameter tuning default, bukan menggunakan kembali nilai hyperparameter yang Anda gunakan dengan versi Gemini sebelumnya. Layanan penyesuaian telah dioptimalkan untuk Gemini 2. Oleh karena itu, menggunakan kembali nilai hyperparameter sebelumnya mungkin tidak memberikan hasil terbaik.
Pengujian regresi
Ada tiga jenis utama pengujian regresi yang terlibat saat mengupgrade ke model Gemini 2:
- Pengujian regresi kode: Pengujian regresi dari perspektif rekayasa software dan DevOps. Jenis pengujian regresi ini selalu diperlukan.
- Pengujian regresi performa model: Pengujian regresi dari perspektif data science
atau machine learning. Artinya, memastikan bahwa model Gemini
2 baru memberikan output yang setidaknya sama berkualitasnya dengan output dari
model produksi saat ini.
Pengujian regresi performa model hanyalah evaluasi model yang dilakukan sebagai bagian dari
perubahan pada sistem atau model yang mendasarinya.
Pengujian regresi performa model selanjutnya dibagi menjadi:
- Pengujian performa model offline: Menilai kualitas output model di lingkungan eksperimen khusus berdasarkan berbagai metrik kualitas output model.
- Pengujian performa model online: Menilai kualitas output model dalam deployment online langsung berdasarkan masukan pengguna implisit atau eksplisit.
- Pengujian beban: Menilai cara aplikasi menangani volume permintaan inferensi yang tinggi. Jenis pengujian regresi ini diperlukan untuk aplikasi yang memerlukan Provisioned Throughput.
Mendokumentasikan persyaratan pengujian dan evaluasi model
- Bersiaplah untuk mengulangi evaluasi yang relevan sejak Anda awalnya mem-build aplikasi, beserta evaluasi relevan apa pun yang telah Anda lakukan sejak saat itu.
- Jika merasa evaluasi yang ada tidak mencakup atau mengukur cakupan tugas yang dilakukan aplikasi dengan tepat, Anda harus mendesain dan menyiapkan evaluasi tambahan.
- Jika aplikasi Anda melibatkan RAG, penggunaan alat, alur kerja agen yang kompleks, atau rantai perintah, pastikan data evaluasi yang ada memungkinkan penilaian setiap komponen secara independen. Jika tidak, kumpulkan contoh input-output untuk setiap komponen.
- Jika aplikasi Anda memiliki dampak yang sangat tinggi, atau jika merupakan bagian dari sistem real-time yang lebih besar yang ditampilkan kepada pengguna, Anda harus menyertakan evaluasi online.
Upgrade dan pengujian kode
Pertimbangkan untuk mengupgrade ke Google Gen AI SDK
Jika aplikasi Gemini 1.x Anda menggunakan Vertex AI SDK, pertimbangkan untuk mengupgrade ke Gen AI SDK. Kemampuan Gemini 2 baru hanya tersedia di Gen AI SDK. Namun, Anda tidak perlu beralih ke Gen AI SDK jika aplikasi Anda hanya memerlukan kemampuan yang tersedia di Vertex AI SDK. Jika Anda baru menggunakan Gen AI SDK, lihat notebook Mulai menggunakan Google Generative AI menggunakan Gen AI SDK.
Gen AI SDK
Sebaiknya Anda bermigrasi ke Gen AI SDK saat mengupgrade ke Gemini 2.0.
Jika Anda memilih untuk menggunakan Gen AI SDK, proses penyiapannya berbeda dengan Vertex AI SDK.
Untuk informasi selengkapnya, buka Google Gen AI SDK.
Instal
pip install --upgrade google-genai
Untuk mempelajari lebih lanjut, lihat dokumentasi referensi SDK.
Tetapkan variabel lingkungan untuk menggunakan Gen AI SDK dengan Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True
Ganti GOOGLE_CLOUD_PROJECT
dengan Google Cloud project ID Anda, dan ganti
GOOGLE_CLOUD_LOCATION
dengan lokasi project Google Cloud Anda (misalnya,
us-central1
).
Vertex AI SDK
Jika Anda menggunakan kembali Vertex AI SDK, proses penyiapannya sama untuk model 1.0, 1.5, dan 2.0. Untuk mengetahui informasi selengkapnya, lihat Pengantar Vertex AI SDK untuk Python.
Instal SDK:
pip install --upgrade --quiet google-cloud-aiplatform
Berikut adalah contoh kode singkat yang menggunakan Vertex AI SDK untuk Python:
Ganti PROJECT_ID
dengan Google Cloud project ID Anda, dan ganti
LOCATION
dengan lokasi project Google Cloud Anda (misalnya,
us-central1
). Kemudian, ubah ID model dari gemini-1.5-flash-002
menjadi gemini-2.0-flash
.
Mengubah panggilan Gemini
Ubah kode prediksi Anda untuk menggunakan Gemini 2. Setidaknya, ini berarti mengubah nama endpoint model tertentu menjadi model Gemini 2 tempat Anda memuat model.
Perubahan kode yang sebenarnya akan berbeda, bergantung pada cara Anda awalnya menerapkan aplikasi, dan terutama apakah Anda menggunakan Gen AI SDK atau Vertex AI SDK.
Setelah Anda melakukan perubahan kode, lakukan pengujian regresi kode dan pengujian software lainnya pada kode untuk memastikannya berjalan. Pengujian ini hanya dimaksudkan untuk menilai apakah kode berfungsi dengan benar. Pengujian ini tidak dimaksudkan untuk menilai kualitas respons model.
Mengubah kode yang menyebabkan gangguan
- Pengambilan dinamis: Beralihlah untuk menggunakan Pemahaman dengan Google Penelusuran. Fitur ini memerlukan penggunaan Gen AI SDK; fitur ini tidak didukung oleh Vertex AI SDK.
- Filter konten: Perhatikan setelan filter konten default, dan ubah kode Anda jika kode tersebut bergantung pada setelan default yang telah berubah.
- Parameter sampling token
Top-K
: Model setelah gemini-1.0-pro-vision tidak mendukung perubahan parameterTop-K
.
Hanya berfokuslah pada perubahan kode dalam langkah ini. Anda mungkin perlu melakukan perubahan lain, tetapi tunggu hingga Anda memulai evaluasi, lalu pertimbangkan penyesuaian berikut berdasarkan hasil evaluasi:
- Jika beralih dari pengambilan dinamis, Anda mungkin perlu bereksperimen dengan
petunjuk sistem untuk mengontrol kapan Google Penelusuran digunakan (misalnya,
"Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."
), tetapi tunggu hingga Anda mengevaluasi sebelum membuat perubahan perintah. - Jika Anda menggunakan parameter
Top-K
, sesuaikan parameter sampling token lainnya, sepertiTop-P
, untuk mendapatkan hasil yang serupa.
Evaluasi offline
Ulangi evaluasi yang Anda lakukan saat pertama kali mengembangkan dan meluncurkan aplikasi, evaluasi offline lebih lanjut yang Anda lakukan setelah peluncuran, dan evaluasi tambahan yang Anda identifikasi pada langkah 1. Jika kemudian Anda merasa bahwa evaluasi Anda tidak sepenuhnya menangkap cakupan dan kedalaman aplikasi Anda, lakukan evaluasi lebih lanjut.
Jika Anda tidak memiliki cara otomatis untuk menjalankan evaluasi offline, sebaiknya gunakan layanan evaluasi AI generatif.
Jika aplikasi Anda menggunakan penyesuaian halus, lakukan evaluasi offline sebelum menyesuaikan ulang model dengan Gemini 2. Peningkatan kualitas output Gemini 2 mungkin berarti aplikasi Anda tidak lagi memerlukan model yang disesuaikan.
Menilai hasil evaluasi dan menyesuaikan perintah serta hyperparameter Gemini 2
Jika evaluasi offline Anda menunjukkan penurunan performa dengan Gemini 2, lakukan iterasi pada aplikasi Anda sebagai berikut hingga performa Gemini cocok dengan model lama:
- Buat rekayasa perintah secara berulang untuk meningkatkan performa ("Hill Climbing"). Jika Anda baru mengenal hill climbing, lihat pelatihan online hill climbing Vertex Gemini. Pengoptimal perintah Vertex AI (contoh notebook) juga dapat membantu.
- Jika aplikasi Anda sudah mengandalkan penyesuaian, coba sesuaikan Gemini 2.
- Jika aplikasi Anda terpengaruh oleh perubahan yang menyebabkan error Pencarian Dinamis dan Top-K, lakukan eksperimen dengan mengubah parameter sampling token dan perintah Anda.
Pengujian beban
Jika aplikasi Anda memerlukan throughput minimum tertentu, lakukan pengujian beban untuk memastikan aplikasi versi Gemini 2 memenuhi persyaratan throughput Anda.
Pengujian beban harus dilakukan sebelum evaluasi online, karena evaluasi online memerlukan eksposur Gemini 2 ke traffic produksi. Gunakan instrumentasi pengujian beban yang ada untuk melakukan langkah ini.
Jika aplikasi Anda sudah memenuhi persyaratan throughput, pertimbangkan untuk menggunakan Provisioned Throughput. Anda memerlukan Provisioned Throughput jangka pendek tambahan untuk menampung pengujian beban selagi pesanan Provisioned Throughput yang ada terus menayangkan traffic produksi.
Evaluasi online
Hanya lanjutkan ke evaluasi online jika evaluasi offline Anda menunjukkan kualitas output Gemini yang memadai dan aplikasi Anda memerlukan evaluasi online.
Evaluasi online adalah kasus khusus dari pengujian online. Coba gunakan alat dan prosedur yang ada di organisasi Anda untuk evaluasi online. Contoh:
- Jika organisasi Anda secara rutin melakukan pengujian A/B, lakukan pengujian A/B yang mengevaluasi penerapan aplikasi Anda saat ini dibandingkan dengan versi Gemini 2.
- Jika organisasi Anda secara rutin melakukan penerapan canary, pastikan untuk melakukannya dengan Gemini 2 dan mengukur perbedaan perilaku pengguna.
Evaluasi online juga dapat dilakukan dengan membuat kemampuan pengukuran dan masukan baru ke dalam aplikasi Anda. Kemampuan pengukuran dan masukan yang berbeda sesuai untuk aplikasi yang berbeda. Contoh:
- Menambahkan tombol suka dan tidak suka di samping output model dan membandingkan rasio suka versus tidak suka antara model lama dan Gemini 2.
- Menampilkan output model lama dan Gemini 2 secara berdampingan kepada pengguna dan meminta pengguna untuk memilih favorit mereka.
- Melacak seberapa sering pengguna mengganti atau menyesuaikan output model lama secara manual dibandingkan output Gemini 2.
Jenis mekanisme masukan ini sering kali memerlukan pengoperasian aplikasi versi Gemini 2 secara paralel dengan versi yang ada. Deployment paralel ini terkadang disebut "mode bayangan" atau "deployment blue-green".
Jika hasil evaluasi online berbeda secara signifikan dengan hasil evaluasi offline, evaluasi offline Anda tidak menangkap aspek utama dari lingkungan aktif atau pengalaman pengguna. Gunakan temuan evaluasi online untuk menyusun evaluasi offline baru guna menutup kesenjangan yang terungkap dalam evaluasi online, lalu kembali ke langkah 3.
Jika menggunakan Provisioned Throughput, Anda mungkin perlu membeli Provisioned Throughput jangka pendek tambahan untuk terus memenuhi persyaratan throughput bagi pengguna yang tunduk pada evaluasi online.
Deployment produksi
Setelah evaluasi menunjukkan bahwa Gemini 2 memenuhi atau melebihi performa model lama, nonaktifkan versi aplikasi yang ada dan gunakan versi Gemini 2. Ikuti prosedur yang ada di organisasi Anda untuk peluncuran produksi.
Jika Anda menggunakan Provisioned Throughput, ubah pesanan Provisioned Throughput ke model Gemini 2 yang Anda pilih. Jika Anda meluncurkan aplikasi secara bertahap, gunakan Throughput Disediakan jangka pendek untuk memenuhi persyaratan throughput untuk dua model Gemini yang berbeda.
Meningkatkan performa model
Saat Anda menyelesaikan migrasi, gunakan tips berikut untuk memaksimalkan performa model Gemini 2:
- Periksa petunjuk sistem, perintah, dan contoh pembelajaran dengan beberapa contoh untuk menemukan inkonsistensi, kontradiksi, atau petunjuk dan contoh yang tidak relevan.
- Menguji model yang lebih canggih. Misalnya, jika Anda mengevaluasi Gemini 2.0 Flash-Lite, coba Gemini 2.0 Flash.
- Periksa hasil evaluasi otomatis untuk memastikannya cocok dengan penilaian manusia, terutama hasil yang menggunakan model hakim. Pastikan petunjuk model juri Anda tidak berisi inkonsistensi atau ambiguitas.
- Salah satu cara untuk meningkatkan petunjuk model hakim adalah dengan menguji petunjuk tersebut dengan beberapa orang secara terpisah dan melihat apakah penilaian mereka konsisten. Jika manusia menafsirkan petunjuk dengan cara yang berbeda dan memberikan penilaian yang berbeda, petunjuk model hakim Anda akan menjadi ambigu.
- Menyesuaikan model Gemini 2.
- Periksa output evaluasi untuk mencari pola yang menunjukkan jenis kegagalan tertentu. Menggabungkan kegagalan ke dalam berbagai model, jenis, atau kategori akan memberi Anda data evaluasi yang lebih ditargetkan, sehingga memudahkan penyesuaian perintah untuk mengatasi error ini.
- Pastikan Anda mengevaluasi berbagai komponen AI generatif secara independen.
- Bereksperimenlah dengan menyesuaikan parameter sampling token.
Mendapatkan bantuan
Jika Anda memerlukan bantuan, Google Cloud menawarkan paket dukungan untuk memenuhi kebutuhan Anda, seperti cakupan 24/7, dukungan telepon, dan akses ke pengelola dukungan teknis. Untuk mengetahui informasi selengkapnya, lihat Google Cloud Dukungan.