Ringkasan embedding teks

Embedding adalah representasi numerik dari teks, gambar, atau video yang merekam hubungan antar-input. Model machine learning, terutama model AI Generatif, cocok untuk membuat sematan dengan mengidentifikasi pola dalam set data besar. Aplikasi dapat menggunakan embedding untuk memproses dan menghasilkan bahasa, mengenali makna kompleks dan hubungan semantik khusus untuk konten Anda.

Vertex AI di Google Distributed Cloud (GDC) dengan air gap mendukung Text Embedding API untuk input tekstual dalam bahasa Inggris dan multibahasa. Text Embedding berfungsi dengan mengonversi teks menjadi array bilangan floating point yang disebut vektor. Vektor ini dirancang untuk menangkap makna teks. Panjang array embedding disebut dimensi vektor. Misalnya, satu bagian teks dapat direpresentasikan oleh vektor yang berisi ratusan dimensi. Kemudian, dengan menghitung jarak numerik antara representasi vektor dari dua bagian teks, aplikasi dapat menentukan kesamaan antara objek.

Untuk mengetahui daftar model yang didukung, lihat Model sematan.

Untuk mengetahui daftar bahasa multilingu yang didukung, lihat Bahasa penyematan teks yang didukung.

Kasus penggunaan embedding teks

Beberapa kasus penggunaan umum untuk embedding teks adalah:

  • Penelusuran semantik: Penelusuran teks yang diberi peringkat berdasarkan kemiripan semantik.
  • Klasifikasi: Menampilkan class item dengan atribut yang mirip dengan teks yang diberikan.
  • Pengelompokan: Mengelompokkan item yang atribut teksnya mirip dengan teks yang diberikan.
  • Deteksi pencilan: Menampilkan item yang atribut teksnya paling tidak berkaitan dengan teks yang diberikan.
  • Antarmuka percakapan: Mengelompokkan grup kalimat yang dapat menghasilkan respons serupa, seperti dalam ruang sematan tingkat percakapan.

Contoh kasus penggunaan: Mengembangkan chatbot rekomendasi buku

Jika Anda ingin mengembangkan chatbot rekomendasi buku, hal pertama yang harus dilakukan adalah menggunakan deep neural network (DNN) untuk mengonversi setiap buku menjadi vektor embedding, dengan satu vektor embedding merepresentasikan satu buku. Anda dapat memasukkan judul buku atau konten teks sebagai input ke DNN. Atau, Anda dapat menggunakan kedua input ini secara bersamaan, beserta metadata lain yang mendeskripsikan buku, seperti genre.

Penyematan dalam contoh ini dapat mencakup ribuan judul buku dengan ringkasan dan genrenya. Model ini mungkin memiliki representasi untuk buku seperti Wuthering Heights karya Emily Brontë dan Persuasion karya Jane Austen yang mirip satu sama lain (jarak kecil antara representasi numerik). Sebaliknya, representasi numerik buku The Great Gatsby karya F. Scott Fitzgerald akan lebih jauh, karena periode waktu, genre, dan ringkasannya kurang mirip.

Input merupakan pengaruh utama terhadap orientasi ruang sematan. Misalnya, jika kita hanya memiliki input berupa judul buku, dua buku dengan judul yang mirip, tetapi memiliki ringkasan yang sangat berbeda, bisa berdekatan. Namun, jika kita menyertakan judul dan ringkasannya, kedua buku yang sama ini akan kurang serupa (lebih jauh jaraknya) dalam ruang sematan.

Berkat AI Generatif, chatbot pemberi saran buku ini dapat meringkas, menyarankan, dan menampilkan buku yang mungkin Anda sukai (atau tidak sukai) berdasarkan kueri Anda.

Langkah berikutnya