Konteks panjang

Gemini hadir secara standar dengan jendela konteks 1 juta token. Sebelumnya, model bahasa besar (LLM) sangat dibatasi oleh jumlah teks (atau token) yang dapat diteruskan ke model dalam satu waktu. Jendela konteks panjang Gemini, dengan pengambilan yang hampir sempurna (>99%), membuka banyak kasus penggunaan dan paradigma developer baru.

Kode yang sudah Anda gunakan untuk kasus seperti pembuatan konten atau input multimodal akan berfungsi langsung dengan konteks panjang.

Dalam panduan ini, Anda akan mempelajari secara singkat dasar-dasar jendela konteks, cara developer harus memikirkan konteks panjang, berbagai kasus penggunaan dunia nyata untuk konteks panjang, dan cara mengoptimalkan penggunaan konteks panjang.

Apa itu jendela konteks?

Cara dasar Anda menggunakan model Gemini adalah dengan meneruskan informasi (konteks) ke model, yang selanjutnya akan menghasilkan respons. Analogi untuk jendela konteks adalah memori jangka pendek. Ada sejumlah terbatas informasi yang dapat disimpan dalam memori jangka pendek seseorang, dan hal yang sama berlaku untuk model generatif.

Anda dapat membaca lebih lanjut cara kerja model di balik layar dalam panduan model generatif kami.

Mulai menggunakan konteks panjang

Sebagian besar model generatif yang dibuat dalam beberapa tahun terakhir hanya mampu memproses 8.000 token sekaligus. Model yang lebih baru mendorong batas ini lebih jauh dengan menerima 32.000 token atau 128.000 token. Gemini adalah model pertama yang mampu menerima 1 juta token, dan kini 2 juta token dengan Gemini 1.5 Pro.

Dalam praktiknya, 1 juta token akan terlihat seperti:

  • 50.000 baris kode (dengan 80 karakter per baris standar)
  • Semua pesan teks yang telah Anda kirim dalam 5 tahun terakhir
  • 8 novel berbahasa Inggris dengan panjang rata-rata
  • Transkrip lebih dari 200 episode podcast dengan durasi rata-rata

Meskipun model dapat menerima lebih banyak konteks, sebagian besar pemahaman umum tentang penggunaan model bahasa besar mengasumsikan batasan inheren pada model ini, yang pada tahun 2024, tidak lagi berlaku.

Beberapa strategi umum untuk mengatasi batasan jendela konteks kecil meliputi:

  • Menghapus pesan / teks lama secara acak dari jendela konteks saat teks baru masuk
  • Meringkas konten sebelumnya dan menggantinya dengan ringkasan saat jendela konteks hampir penuh
  • Menggunakan RAG dengan penelusuran semantik untuk memindahkan data dari jendela konteks ke database vektor
  • Menggunakan filter deterministik atau generatif untuk menghapus teks/karakter tertentu dari perintah untuk menghemat token

Meskipun banyak di antaranya masih relevan dalam kasus tertentu, tempat default untuk memulai sekarang hanyalah memasukkan semua token ke dalam jendela konteks. Karena model Gemini dibuat khusus dengan jendela konteks yang panjang, model ini jauh lebih mampu melakukan pembelajaran dalam konteks. Misalnya, dengan hanya materi pengajaran (tata bahasa rujukan 500 halaman, kamus, dan ≈ 400 kalimat paralel tambahan) yang semuanya disediakan dalam konteks, Gemini 1.5 Pro dan Gemini 1.5 Flash mampu mempelajari cara menerjemahkan dari bahasa Inggris ke Kalamang—bahasa Papua dengan kurang dari 200 penutur dan oleh karena itu hampir tidak ada kehadiran online—dengan kualitas yang serupa dengan orang yang belajar dari materi yang sama.

Contoh ini menggarisbawahi cara Anda dapat mulai memikirkan kemungkinan yang dapat dilakukan dengan konteks panjang dan kemampuan pembelajaran dalam konteks Gemini.

Kasus penggunaan konteks panjang

Meskipun kasus penggunaan standar untuk sebagian besar model generatif masih berupa input teks, serangkaian model Gemini memungkinkan paradigma baru kasus penggunaan multimodal. Model ini dapat memahami teks, video, audio, dan gambar secara native. API ini disertai dengan Vertex AI API untuk Gemini yang menerima jenis file multimodal untuk kemudahan.

Teks panjang

Teks telah terbukti menjadi lapisan kecerdasan yang mendasari sebagian besar momentum seputar LLM. Seperti yang disebutkan sebelumnya, sebagian besar batasan praktis LLM disebabkan oleh tidak adanya jendela konteks yang cukup besar untuk melakukan tugas tertentu. Hal ini menyebabkan adopsi cepat retrieval augmented generation (RAG) dan teknik lainnya yang secara dinamis memberikan informasi kontekstual yang relevan kepada model. Sekarang, dengan jendela konteks yang semakin besar (saat ini hingga 2 juta di Gemini 1.5 Pro), ada teknik baru yang tersedia yang membuka kasus penggunaan baru.

Beberapa kasus penggunaan baru dan standar untuk konteks panjang berbasis teks meliputi:

  • Meringkas korpus teks yang besar
    • Opsi ringkasan sebelumnya dengan model konteks yang lebih kecil akan memerlukan jendela geser atau teknik lain untuk mempertahankan status bagian sebelumnya saat token baru diteruskan ke model
  • Tanya jawab
    • Sebelumnya, hal ini hanya dapat dilakukan dengan RAG mengingat jumlah konteks yang terbatas dan ingatan faktual model yang rendah
  • Alur kerja agentic
    • Teks adalah dasar dari cara agen mempertahankan status tentang apa yang telah mereka lakukan dan apa yang perlu mereka lakukan; tidak memiliki cukup informasi tentang dunia dan tujuan agen adalah batasan pada keandalan agen

Pembelajaran dalam konteks banyak contoh adalah salah satu kemampuan paling unik yang dihadirkan oleh model konteks panjang. Riset telah menunjukkan bahwa mengambil paradigma contoh "sekali coba" atau "beberapa kali coba" yang umum, dengan model diberi satu atau beberapa contoh tugas, dan menskalakannya hingga ratusan, ribuan, atau bahkan ratusan ribu contoh, dapat menghasilkan kemampuan model baru. Pendekatan few-shot ini juga terbukti berperforma serupa dengan model yang di-fine-tune untuk tugas tertentu. Untuk kasus penggunaan yang performa model Gemini-nya belum cukup untuk peluncuran produksi, Anda dapat mencoba pendekatan banyak contoh. Seperti yang mungkin Anda pelajari nanti di bagian pengoptimalan konteks panjang, penyiapan cache konteks membuat jenis beban kerja token input tinggi ini jauh lebih layak secara ekonomis dan bahkan memiliki latensi yang lebih rendah dalam beberapa kasus.

Video panjang

Kegunaan konten video telah lama dibatasi oleh kurangnya aksesibilitas media itu sendiri. Konten sulit dibaca sekilas, transkrip sering gagal menangkap nuansa video, dan sebagian besar alat tidak memproses gambar, teks, dan audio secara bersamaan. Dengan Gemini, kemampuan teks berkonteks panjang dapat memahami dan menjawab pertanyaan tentang input multimodal dengan performa yang berkelanjutan.

Beberapa kasus penggunaan baru dan standar untuk konteks panjang video mencakup:

  • Pertanyaan dan jawaban video
  • Memori video, seperti yang ditunjukkan dengan Project Astra Google
  • Teks video
  • Sistem rekomendasi video, dengan memperkaya metadata yang ada dengan pemahaman multimodal baru
  • Penyesuaian video, dengan melihat korpus data dan metadata video terkait, lalu menghapus bagian video yang tidak relevan bagi penonton
  • Moderasi konten video
  • Pemrosesan video real-time

Saat bekerja dengan video, penting untuk mempertimbangkan cara video diproses menjadi token, yang memengaruhi penagihan dan batas penggunaan. Anda dapat mempelajari lebih lanjut cara memberikan perintah dengan file video di Panduan perintah.

Audio panjang

Model Gemini adalah model bahasa besar multimodal pertama yang secara native dapat memahami audio. Sebelumnya, alur kerja developer yang umum akan melibatkan penggabungan beberapa model khusus domain, seperti model speech-to-text dan model text-to-text, untuk memproses audio. Hal ini menyebabkan latensi tambahan yang diperlukan dengan melakukan beberapa permintaan pulang pergi dan penurunan performa yang biasanya disebabkan oleh arsitektur yang terputus dari penyiapan beberapa model.

Pada evaluasi tumpukan jerami audio standar, Gemini 1.5 Pro dapat menemukan audio tersembunyi dalam 100% pengujian dan Gemini 1.5 Flash dapat menemukannya dalam 98,7% pengujian. Gemini 1.5 Flash menerima audio hingga 9,5 jam dalam satu permintaan dan Gemini 1.5 Pro dapat menerima audio hingga 19 jam menggunakan jendela konteks 2 juta token. Selain itu, pada set pengujian klip audio 15 menit, Gemini 1.5 Pro mencapai tingkat kesalahan kata (WER) ~5,5%, jauh lebih rendah daripada model speech-to-text khusus, tanpa kerumitan tambahan segmentasi dan pra-pemrosesan input ekstra.

Beberapa kasus penggunaan baru dan standar untuk konteks audio mencakup:

  • Transkripsi dan terjemahan real-time
  • Tanya jawab podcast / video
  • Transkripsi dan ringkasan rapat
  • Asisten suara

Anda dapat mempelajari lebih lanjut cara memberikan perintah dengan file audio di panduan Perintah.

Pengoptimalan konteks panjang

Pengoptimalan utama saat bekerja dengan konteks panjang dan model Gemini adalah menggunakan penyimpanan cache konteks. Selain tidak mungkinnya memproses banyak token dalam satu permintaan, batasan utama lainnya adalah biaya. Jika Anda memiliki aplikasi "chat dengan data Anda" tempat pengguna mengupload 10 PDF, satu video, dan beberapa dokumen kerja, Anda biasanya harus menggunakan alat/framework pembuatan dengan peningkatan pengambilan (RAG) yang lebih kompleks untuk memproses permintaan ini dan membayar sejumlah besar token yang dipindahkan ke jendela konteks. Sekarang, Anda dapat menyimpan dalam cache file yang diupload pengguna dan membayar untuk menyimpannya per jam. Biaya input / output per permintaan lebih rendah daripada biaya input / output standar, jadi jika pengguna cukup sering melakukan percakapan dengan datanya, Anda sebagai developer akan menghemat biaya yang sangat besar.

Batasan konteks panjang

Di berbagai bagian panduan ini, kita telah membahas cara model Gemini mencapai performa tinggi di berbagai evaluasi pengambilan informasi dalam tumpukan jerami. Pengujian ini mempertimbangkan penyiapan paling dasar, di mana Anda memiliki satu jarum yang Anda cari. Dalam kasus di mana Anda mungkin memiliki beberapa "jarum" atau informasi spesifik yang Anda cari, model tidak akan berperforma dengan akurasi yang sama. Performa dapat sangat bervariasi, bergantung pada konteksnya. Hal ini penting untuk dipertimbangkan karena ada pertukaran yang melekat antara mendapatkan informasi yang tepat yang diambil dan biaya. Anda bisa mendapatkan akurasi ~99% pada satu kueri, tetapi Anda harus membayar biaya token input setiap kali Anda mengirim kueri tersebut. Jadi, untuk mengambil 100 informasi, jika Anda memerlukan performa 99%, Anda mungkin perlu mengirimkan 100 permintaan. Hal ini adalah contoh yang baik tentang tempat penyimpanan cache konteks dapat mengurangi biaya yang terkait dengan penggunaan model Gemini secara signifikan sekaligus menjaga performa tetap tinggi.

Langkah berikutnya