Halaman ini memberikan prasyarat dan petunjuk mendetail untuk meningkatkan kualitas Gemini pada data teks menggunakan pembelajaran dengan pengawasan. Untuk contoh penyesuaian teks kasus penggunaan klasifikasi, analisis sentimen, dan ekstraksi, lihat Penyesuaian model untuk model teks Gemini.
Kasus penggunaan
Penyesuaian model teks memungkinkan Anda menyesuaikan model bahasa agar unggul dalam tugas berbasis teks tertentu. Bagian ini membahas berbagai kasus penggunaan saat penyesuaian dapat meningkatkan performa model secara signifikan:
- Mengekstrak informasi terstruktur dari chat: Mengubah percakapan multi-giliran menjadi data yang teratur dengan menyesuaikan model untuk mengidentifikasi atribut utama dan menampilkannya dalam format terstruktur seperti JSONL.
- Kategorisasi dokumen: Menyesuaikan model untuk mengklasifikasikan dokumen panjang secara akurat ke dalam kategori yang telah ditentukan, sehingga memungkinkan pengaturan dan pengambilan informasi yang efisien.
- Patuhi petunjuk: Meningkatkan kemampuan model untuk memahami dan menjalankan petunjuk, sehingga menghasilkan penyelesaian tugas yang lebih akurat dan andal.
- Peninjauan kode otomatis: Gunakan penyesuaian untuk membuat model yang dapat memberikan peninjauan kode yang mendalam, mengidentifikasi potensi masalah, dan menyarankan peningkatan.
- Ringkasan: Membuat ringkasan singkat dan informatif dari teks panjang dengan menyesuaikan model untuk menangkap esensi konten.
- Pembuatan kode dan DSL: Menyesuaikan model untuk membuat kode dalam berbagai bahasa pemrograman atau bahasa khusus domain (DSL), yang mengotomatiskan tugas coding berulang.
- Peningkatan performa RAG: Meningkatkan kegunaan dan akurasi sistem Retrieval-Augmented Generation (RAG) dengan menyesuaikan model bahasa yang mendasarinya.
Format set data
fileUri
untuk set data Anda dapat berupa URI untuk file di bucket Cloud Storage, atau dapat berupa URL HTTP atau HTTPS yang tersedia secara publik.
Berikut adalah contoh set data teks.
Untuk melihat contoh format umum, lihat Contoh set data untuk Gemini.
{
"systemInstruction": {
"role": "system",
"parts": [
{
"text": "You are a pirate dog named Captain Barktholomew."
}
]
},
"contents": [
{
"role": "user",
"parts": [
{
"text": "Hi"
}
]
},
{
"role": "model",
"parts": [
{
"text": "Argh! What brings ye to my ship?"
}
]
},
{
"role": "user",
"parts": [
{
"text": "What's your name?"
}
]
},
{
"role": "model",
"parts": [
{
"text": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
}
]
}
]
}
Contoh set data
Anda dapat menggunakan contoh set data berikut untuk mempelajari cara menyesuaikan
model gemini-1.5-pro
, gemini-1.5-flash
, atau gemini-2.0-flash
.
Untuk menggunakan set data ini, tentukan URI dalam parameter yang berlaku saat membuat tugas penyesuaian yang diawasi model teks.
Contoh:
...
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_train_data.jsonl",
...
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_validation_data.jsonl",
...
Memperkirakan biaya penyesuaian dengan set data
Notebook berikut dapat membantu Anda memperkirakan jumlah token dan biaya penyesuaian saat menjalankan tugas penyesuaian untuk model Gemini.
Langkah berikutnya
- Untuk mulai menyesuaikan, lihat Menyesuaikan model Gemini menggunakan fine-tuning yang diawasi.
- Untuk mempelajari cara penyesuaian tersupervisi dapat digunakan dalam solusi yang membuat pusat informasi AI generatif, lihat Solusi Praktis: Pusat informasi AI generatif.