Melihat metrik indeks vektor
Jika tabel Anda sering diperbarui atau disisipkan, sebaiknya indeks ulang indeks ScaNN yang ada secara berkala untuk meningkatkan akurasi perolehan kembali indeks Anda. Anda dapat memantau metrik indeks untuk melihat perubahan dalam distribusi vektor atau mutasi vektor sejak indeks dibuat, lalu mengindeks ulang sesuai kebutuhan.
Untuk mengetahui informasi selengkapnya tentang metrik, lihat Melihat metrik indeks vektor.
Memelihara indeks secara otomatis
Anda dapat menggunakan flag database Konfigurasi Terpadu Besar (GUC) scann.enable_index_maintenance
bersama dengan parameter auto_maintenance
tingkat indeks saat membuat indeks ScaNN. Dengan menggunakan setelan ini bersama-sama, AlloyDB dapat mengelola indeks secara inkremental dan memisahkan partisi pencilan besar saat set data Anda bertambah. Dengan membagi partisi, AlloyDB mencoba memberikan Kueri per Detik (QPS) dan hasil penelusuran yang lebih baik.
Update indeks pemeliharaan otomatis tetap ada hingga AlloyDB memperbarui indeks lagi.
Untuk mengaktifkan AlloyDB mempertahankan indeks secara otomatis, tambahkan ekstensi alloydb_scann
ke parameter shared_preload_libraries
, aktifkan tanda database scann.enable_index_maintenance
, lalu muat ekstensi alloydb_scann
dengan memulai ulang database:
Muat ekstensi
alloydb_scann
ke daftarshared_preload_libraries
:sudo sed -r -i "s|(shared_preload_libraries\s*=\s*)'(.*)'.*$|\1'\2,alloydb_scann'|" DATA_DIR/postgresql.conf
Pastikan konfigurasi parameter disetel dengan benar:
grep -iE 'shared_preload_libraries' DATA_DIR/postgresql.conf
Aktifkan tanda
scann.enable_index_maintenance
dengan menyetel tanda di filepostgresql.conf
:scann.enable_index_maintenance = ON
Mulai ulang AlloyDB Omni agar perubahan parameter diterapkan:
Docker
docker container restart CONTAINER_NAME
Ganti
CONTAINER_NAME
dengan nama yang Anda tetapkan ke container AlloyDB Omni saat Anda memulainya.Podman
podman container restart CONTAINER_NAME
Ganti
CONTAINER_NAME
dengan nama yang Anda tetapkan ke container AlloyDB Omni saat Anda memulainya.
Setelah mengaktifkan tanda scann.enable_index_maintenance
, Anda dapat mengaktifkan pemeliharaan otomatis untuk indeks, atau mengaktifkan fungsi scann_index_maintenance
untuk memanggil pemeliharaan secara manual.
Mengaktifkan pemeliharaan otomatis selama pembuatan indeks
Untuk membuat indeks ScaNN dengan pemeliharaan otomatis diaktifkan, jalankan contoh perintah berikut:
CREATE INDEX INDEX_NAME ON TABLE
USING scann (EMBEDDING_COLUMN DISTANCE_FUNCTION)
WITH (num_leaves=NUM_LEAVES_VALUE, auto_maintenance=on);
Ganti kode berikut:
INDEX_NAME
: nama indeks yang ingin Anda buat—misalnya,my-scann-index
. Nama indeks dibagikan di seluruh database Anda. Pastikan setiap nama indeks unik untuk setiap tabel dalam database Anda.TABLE
: tabel yang akan ditambahkan indeksnya.EMBEDDING_COLUMN
: kolom yang menyimpan datavector
.DISTANCE_FUNCTION
: fungsi jarak yang akan digunakan dengan indeks ini. Pilih salah satu opsi berikut:Jarak L2:
l2
Perkalian titik:
dot_product
Jarak kosinus:
cosine
NUM_LEAVES_VALUE
: jumlah partisi yang akan diterapkan ke indeks ini. Tetapkan ke nilai apa pun antara 1 hingga 1048576. Untuk mengetahui informasi selengkapnya tentang cara menentukan nilai ini, lihat Menyesuaikan indeksScaNN
.
Memanggil pemeliharaan secara manual
Jika Anda ingin memanggil pemeliharaan pada indeks tertentu sesuai permintaan, jalankan perintah berikut:
SELECT AS scann_index_maintenance('INDEX_NAME');
Mengelola daun untuk menelusuri partisi yang dibagi secara otomatis
Jika Anda telah mengaktifkan pemeliharaan indeks otomatis, AlloyDB akan otomatis membagi partisi saat nilai minimum num_leaves
tercapai. Seiring bertambahnya jumlah partisi karena pemisahan ini, Anda harus menyesuaikan jumlah leaf yang akan ditelusuri untuk mempertahankan performa yang optimal.
Untuk mengelola jumlah daun yang akan dicari secara otomatis, gunakan
pct_leaves_to_search
. Parameter ini memungkinkan Anda menentukan persentase jumlah
partisi yang akan ditelusuri. Jika Anda memperkirakan set data akan bertambah secara signifikan, maka
mulailah dengan menetapkan nilai pct_leaves_to_search
ke 1. Parameter ini dinonaktifkan secara default.
Tetapkan nilai ini ke persentase jumlah partisi saat ini. Misalnya, untuk menelusuri 1% dari
jumlah partisi saat ini, tetapkan nilai ini ke 1
.
Anda
dapat menyetel parameter ini ke nilai apa pun antara 0
hingga 100
.
Nilai defaultnya adalah 0
, yang menonaktifkan parameter ini dan menggunakan
scann.num_leaves_to_search
untuk menghitung jumlah daun yang akan ditelusuri.
Untuk menyetel flag pct_leaves_to_search
di database Anda, jalankan perintah berikut:
ALTER DATABASE DATABASE_NAME SET scann.pct_leaves_to_search = PERCENTAGE_LEAVES_TO_SEARCH;
Ganti kode berikut:
DATABASE_NAME
: nama database.PERCENTAGE_LEAVES_TO_SEARCH
: persentasenum_leaves
yang akan ditelusuri.
Membangun ulang indeks secara manual
Anda dapat membangun ulang indeks secara manual jika ingin membangun ulang indeks dengan konfigurasi yang Anda tentukan saat indeks dibuat.
Untuk membangun ulang indeks secara manual, jalankan perintah berikut:
REINDEX INDEX CONCURRENTLY INDEX_NAME;
Ganti INDEX_NAME
dengan nama indeks yang ingin Anda bangun ulang—misalnya, my-scann-index
. Nama indeks dibagikan di seluruh database Anda. Pastikan setiap nama indeks unik untuk setiap
tabel dalam database Anda.
Untuk mengetahui informasi selengkapnya tentang pengindeksan ulang di PostgreSQL, lihat REINDEX.