Praktik terbaik dengan model bahasa besar (LLM)

Panduan ini menjelaskan praktik terbaik untuk bekerja dengan model bahasa besar (LLM). Bagian ini membahas topik berikut:

  • Perintah multimodal: Temukan link ke praktik terbaik untuk perintah yang menyertakan gambar, video, audio, atau dokumen.
  • Mengurangi latensi: Temukan strategi untuk meningkatkan waktu respons model demi pengalaman pengguna yang lebih baik.

Perintah multimodal

Untuk mempelajari praktik terbaik untuk perintah multimodal, lihat halaman untuk modalitas yang Anda gunakan:

Mengurangi latensi

Saat Anda membuat aplikasi interaktif, waktu respons (latensi) adalah bagian penting dari pengalaman pengguna. Bagian ini menjelaskan latensi untuk Vertex AI LLM API dan memberikan strategi untuk menguranginya.

Memahami metrik latensi untuk LLM

Latensi adalah waktu yang dibutuhkan model untuk memproses perintah input Anda dan menghasilkan respons.

Saat mengevaluasi latensi, pertimbangkan metrik berikut:

  • Waktu hingga token pertama (TTFT): Waktu yang diperlukan model untuk menampilkan token pertama respons setelah menerima perintah. TTFT sangat penting untuk aplikasi streaming yang memerlukan respons cepat.
  • Waktu hingga token terakhir (TTLT): Waktu keseluruhan yang dibutuhkan model untuk memproses perintah dan menghasilkan respons lengkap.

Strategi untuk mengurangi latensi

Untuk mengurangi latensi dan meningkatkan daya tanggap aplikasi, Anda dapat menggunakan strategi berikut dengan Vertex AI:

  • Pilih model yang tepat untuk kasus penggunaan Anda. Vertex AI menawarkan berbagai model dengan kemampuan dan karakteristik performa yang berbeda. Untuk memilih model terbaik untuk kasus penggunaan Anda, evaluasi persyaratan Anda terkait kecepatan dan kualitas output. Untuk mengetahui daftar model yang tersedia, lihat Jelajahi semua model.

  • Mengoptimalkan panjang perintah dan output. Jumlah token dalam perintah input dan output yang diharapkan secara langsung memengaruhi waktu pemrosesan. Untuk mengurangi latensi, minimalkan jumlah token Anda.

    • Tulis perintah yang jelas dan ringkas yang menyampaikan maksud Anda tanpa detail yang tidak perlu. Perintah yang lebih pendek mengurangi waktu untuk token pertama.
    • Untuk mengontrol panjang respons, gunakan petunjuk sistem. Anda dapat menginstruksikan model untuk memberikan jawaban yang ringkas atau membatasi output ke sejumlah kalimat atau paragraf tertentu. Strategi ini dapat mengurangi waktu ke token terakhir.
    • Sesuaikan temperature. Untuk mengontrol keacakan output, bereksperimenlah dengan parameter temperature. Nilai temperature yang lebih rendah dapat menghasilkan respons yang lebih singkat dan lebih fokus. Nilai yang lebih tinggi dapat menghasilkan output yang lebih beragam, tetapi berpotensi lebih panjang. Untuk mengetahui informasi selengkapnya, lihat temperature di referensi parameter model.
    • Menetapkan batas output. Untuk mencegah output yang terlalu panjang, gunakan parameter max_output_tokens untuk menetapkan panjang maksimum respons yang dihasilkan. Perhatikan bahwa tindakan ini dapat memotong respons di tengah kalimat.
  • Aktifkan respons bertahap. Saat Anda menggunakan streaming, model akan mengirimkan responsnya saat sedang dibuat, bukan menunggu output selesai. Dengan demikian, Anda dapat memproses output secara real time, sehingga Anda dapat langsung memperbarui antarmuka pengguna dan melakukan tugas serentak lainnya. Streaming meningkatkan responsivitas yang dirasakan dan menciptakan pengalaman pengguna yang lebih interaktif.

Langkah berikutnya