Messwerte für Vektorindexe ansehen
Wenn Ihre Tabelle häufig aktualisiert oder neue Zeilen eingefügt werden, empfehlen wir, den vorhandenen ScaNN-Index regelmäßig neu zu indexieren, um die Recall-Genauigkeit zu verbessern. Sie können Indexmesswerte beobachten, um Änderungen an Vektorverteilungen oder Vektormutationen seit der Erstellung des Index zu sehen, und den Index dann entsprechend neu indexieren.
Weitere Informationen zu Messwerten finden Sie unter Messwerte für Vektorindex ansehen.
Indexe automatisch verwalten
Sie können das Datenbankflag scann.enable_index_maintenance
Grand Unified Configuration (GUC) zusammen mit dem Parameter auto_maintenance
auf Indexebene verwenden, wenn Sie einen ScaNN-Index erstellen. Wenn Sie diese Einstellungen zusammen verwenden, kann AlloyDB den Index inkrementell verwalten und große Ausreißerpartitionen aufteilen, wenn Ihr Dataset wächst. Durch das Aufteilen von Partitionen versucht AlloyDB, bessere Abfragen pro Sekunde (Queries per Second, QPS) und Suchergebnisse zu liefern.
Indexaktualisierungen, die im Rahmen der automatischen Wartung erfolgen, bleiben bestehen, bis AlloyDB den Index wieder aktualisiert.
Damit AlloyDB einen Index automatisch verwalten kann, fügen Sie die Erweiterung alloydb_scann
dem Parameter shared_preload_libraries
hinzu, aktivieren Sie das Datenbankflag scann.enable_index_maintenance
und laden Sie dann die Erweiterung alloydb_scann
, indem Sie die Datenbank neu starten:
Laden Sie die
alloydb_scann
-Erweiterung in die Listeshared_preload_libraries
:sudo sed -r -i "s|(shared_preload_libraries\s*=\s*)'(.*)'.*$|\1'\2,alloydb_scann'|" DATA_DIR/postgresql.conf
Prüfen Sie, ob die Konfiguration des Parameters richtig eingestellt ist:
grep -iE 'shared_preload_libraries' DATA_DIR/postgresql.conf
Aktivieren Sie das Flag
scann.enable_index_maintenance
, indem Sie es in der Dateipostgresql.conf
festlegen:scann.enable_index_maintenance = ON
Starten Sie AlloyDB Omni neu, damit die Parameteränderung wirksam wird:
Docker
docker container restart CONTAINER_NAME
Ersetzen Sie
CONTAINER_NAME
durch den Namen, den Sie dem AlloyDB Omni-Container beim Start zugewiesen haben.Podman
podman container restart CONTAINER_NAME
Ersetzen Sie
CONTAINER_NAME
durch den Namen, den Sie dem AlloyDB Omni-Container beim Start zugewiesen haben.
Nachdem Sie das Flag scann.enable_index_maintenance
aktiviert haben, können Sie die automatische Wartung für Indexe aktivieren oder die Funktion scann_index_maintenance
aktivieren, um die Wartung manuell aufzurufen.
Automatische Wartung während der Indexerstellung aktivieren
Führen Sie den folgenden Beispielbefehl aus, um einen ScaNN-Index mit aktivierter automatischer Wartung zu erstellen:
CREATE INDEX INDEX_NAME ON TABLE
USING scann (EMBEDDING_COLUMN DISTANCE_FUNCTION)
WITH (num_leaves=NUM_LEAVES_VALUE, auto_maintenance=on);
Ersetzen Sie Folgendes:
INDEX_NAME
: Der Name des Index, den Sie erstellen möchten, z. B.my-scann-index
. Die Indexnamen sind in Ihrer Datenbank freigegeben. Achten Sie darauf, dass jeder Indexname für jede Tabelle in Ihrer Datenbank eindeutig ist.TABLE
: Die Tabelle, der der Index hinzugefügt werden soll.EMBEDDING_COLUMN
: eine Spalte, in dervector
-Daten gespeichert werden.DISTANCE_FUNCTION
: Die Distanzfunktion, die für diesen Index verwendet werden soll. Wählen Sie eine der folgenden Optionen aus:L2-Distanz:
l2
Skalarprodukt:
dot_product
Kosinus-Distanz:
cosine
NUM_LEAVES_VALUE
: Die Anzahl der Partitionen, die auf diesen Index angewendet werden sollen. Kann auf einen beliebigen Wert zwischen 1 und 1.048.576 festgelegt werden. Weitere Informationen dazu, wie Sie diesen Wert festlegen, finden Sie unterScaNN
-Index optimieren.
Wartung manuell aufrufen
Wenn Sie die Wartung für einen bestimmten Index auf Abruf aufrufen möchten, führen Sie den folgenden Befehl aus:
SELECT AS scann_index_maintenance('INDEX_NAME');
Blätter verwalten, in denen automatisch nach geteilten Partitionen gesucht werden soll
Wenn Sie die automatische Wartung von Indexen aktiviert haben, teilt AlloyDB Partitionen automatisch auf, wenn der Grenzwert num_leaves
erreicht wird. Da die Anzahl der Partitionen aufgrund dieser Aufteilungen zunimmt, sollten Sie die Anzahl der zu durchsuchenden Blätter anpassen, um eine optimale Leistung beizubehalten.
Mit pct_leaves_to_search
können Sie die Anzahl der automatisch zu durchsuchenden Blätter verwalten. Mit diesem Parameter können Sie einen Prozentsatz der Anzahl der zu durchsuchenden Partitionen angeben. Wenn Sie davon ausgehen, dass Ihr Dataset erheblich wachsen wird, legen Sie den Wert für pct_leaves_to_search
auf 1 fest. Der Parameter ist standardmäßig deaktiviert.
Legen Sie diesen Wert auf den Prozentsatz der aktuellen Anzahl von Partitionen fest. Wenn Sie beispielsweise 1% der aktuellen Anzahl von Partitionen durchsuchen möchten, legen Sie diesen Wert auf 1
fest.
Sie können diesen Parameter auf einen beliebigen Wert zwischen 0
und 100
festlegen.
Der Standardwert ist 0
. In diesem Fall wird der Parameter deaktiviert und die Anzahl der zu durchsuchenden Blätter wird anhand von scann.num_leaves_to_search
berechnet.
Führen Sie den folgenden Befehl aus, um das Flag pct_leaves_to_search
für Ihre Datenbank festzulegen:
ALTER DATABASE DATABASE_NAME SET scann.pct_leaves_to_search = PERCENTAGE_LEAVES_TO_SEARCH;
Ersetzen Sie Folgendes:
DATABASE_NAME
: der Name der DatenbankPERCENTAGE_LEAVES_TO_SEARCH
: Der Prozentsatz vonnum_leaves
, der durchsucht werden soll.
Index manuell neu erstellen
Sie können Ihren Index manuell neu erstellen, wenn Sie ihn mit den Konfigurationen neu erstellen möchten, die Sie bei der Erstellung angegeben haben.
Führen Sie den folgenden Befehl aus, um Ihren Index manuell neu zu erstellen:
REINDEX INDEX CONCURRENTLY INDEX_NAME;
Ersetzen Sie INDEX_NAME
durch den Namen des Index, den Sie neu erstellen möchten, z. B. my-scann-index
. Die Indexnamen sind in Ihrer Datenbank freigegeben. Achten Sie darauf, dass jeder Indexname für jede Tabelle in Ihrer Datenbank eindeutig ist.
Weitere Informationen zum Reindexieren in PostgreSQL finden Sie unter REINDEX.