Öffentlichen Index abfragen, um nächste Nachbarn abzurufen

Nachdem Sie den Index erstellt und bereitgestellt haben, können Sie Abfragen ausführen, um die nächsten Nachbarn abzurufen.

Im Folgenden finden Sie einige Beispiele für die Übereinstimmungsabfrage, um die nächstgelegenen Nachbarn mit dem Algorithmus „k-Nearest Neighbor“ (k-NN) zu finden.

Beispielabfragen für öffentlichen Endpunkt

Python

Python

def vector_search_find_neighbors(
    project: str,
    location: str,
    index_endpoint_name: str,
    deployed_index_id: str,
    queries: List[List[float]],
    num_neighbors: int,
) -> None:
    """Query the vector search index.

    Args:
        project (str): Required. Project ID
        location (str): Required. The region name
        index_endpoint_name (str): Required. Index endpoint to run the query
        against.
        deployed_index_id (str): Required. The ID of the DeployedIndex to run
        the queries against.
        queries (List[List[float]]): Required. A list of queries. Each query is
        a list of floats, representing a single embedding.
        num_neighbors (int): Required. The number of neighbors to return.
    """
    # Initialize the Vertex AI client
    aiplatform.init(project=project, location=location)

    # Create the index endpoint instance from an existing endpoint.
    my_index_endpoint = aiplatform.MatchingEngineIndexEndpoint(
        index_endpoint_name=index_endpoint_name
    )

    # Query the index endpoint for the nearest neighbors.
    resp = my_index_endpoint.find_neighbors(
        deployed_index_id=deployed_index_id,
        queries=queries,
        num_neighbors=num_neighbors,
    )
    print(resp)

    # Query hybrid datapoints, sparse-only datapoints, and dense-only datapoints.
    hybrid_queries = [
        aiplatform.matching_engine.matching_engine_index_endpoint.HybridQuery(
            dense_embedding=[1, 2, 3],
            sparse_embedding_dimensions=[10, 20, 30],
            sparse_embedding_values=[1.0, 1.0, 1.0],
            rrf_ranking_alpha=0.5,
        ),
        aiplatform.matching_engine.matching_engine_index_endpoint.HybridQuery(
            dense_embedding=[1, 2, 3],
            sparse_embedding_dimensions=[10, 20, 30],
            sparse_embedding_values=[0.1, 0.2, 0.3],
        ),
        aiplatform.matching_engine.matching_engine_index_endpoint.HybridQuery(
            sparse_embedding_dimensions=[10, 20, 30],
            sparse_embedding_values=[0.1, 0.2, 0.3],
        ),
        aiplatform.matching_engine.matching_engine_index_endpoint.HybridQuery(
            dense_embedding=[1, 2, 3]
        ),
    ]

    hybrid_resp = my_index_endpoint.find_neighbors(
            deployed_index_id=deployed_index_id,
            queries=hybrid_queries,
            num_neighbors=num_neighbors,)
    print(hybrid_resp)

Curl

Den unten aufgeführten publicEndpointDomainName finden Sie unter Bereitstellen. Er hat folgendes Format: <number>.<region>-<number>.vdb.vertexai.goog


  $ curl -X POST -H "Content-Type: application/json" -H "Authorization: Bearer `gcloud auth print-access-token`" https://1957880287.us-central1-181224308459.vdb.vertexai.goog/v1/projects/181224308459/locations/us-central1/indexEndpoints/3370566089086861312:findNeighbors -d '{deployed_index_id: "test_index_public1", queries: [{datapoint: {datapoint_id: "0", feature_vector: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}, neighbor_count: 5}]}'
  

Dieses curl-Beispiel zeigt, wie von http(s)-Clients aus aufgerufen wird. Allerdings unterstützt der öffentliche Endpunkt ein Dual-Protokoll für RESTful und grpc_cli.


  $ curl -X POST -H "Content-Type: application/json" -H "Authorization: Bearer `gcloud auth print-access-token`" https://1957880287.us-central1-181224308459.vdb.vertexai.goog/v1/projects/${PROJECT_ID}/locations/us-central1/indexEndpoints/${INDEX_ENDPOINT_ID}:readIndexDatapoints -d '{deployed_index_id:"test_index_public1", ids: ["606431", "896688"]}'
  

Dieses curl-Beispiel zeigt, wie eine Abfrage mit Token- und numerischen Einschränkungen durchgeführt wird.


  $ curl -X POST -H "Content-Type: application/json" -H "Authorization: Bearer `gcloud auth print-access-token`"  https://${PUBLIC_ENDPOINT_DOMAIN}/v1/projects/${PROJECT_ID}/locations/${LOCATION}/indexEndpoints/${INDEX_ENDPOINT_ID}:findNeighbors -d '{deployed_index_id:"${DEPLOYED_INDEX_ID}", queries: [{datapoint: {datapoint_id:"x", feature_vector: [1, 1], "sparse_embedding": {"values": [111.0,111.1,111.2], "dimensions": [10,20,30]}, numeric_restricts: [{namespace: "int-ns", value_int: -2, op: "GREATER"}, {namespace: "int-ns", value_int: 4, op: "LESS_EQUAL"}, {namespace: "int-ns", value_int: 0, op: "NOT_EQUAL"}], restricts: [{namespace: "color", allow_list: ["red"]}]}}]}'
  

Console

Folgen Sie dieser Anleitung, um einen Index, der auf einem öffentlichen Endpunkt bereitgestellt ist, über die Console abzufragen.

  1. Wechseln Sie im Abschnitt „Vertex AI“ der Google Cloud Console zum Abschnitt Bereitstellen und verwenden. Wählen Sie Vektorsuche.

    Zur Vektorsuche

  2. Wählen Sie den Index aus, den Sie abfragen möchten. Die Seite Indexinformationen wird geöffnet.
  3. Scrollen Sie nach unten zum Bereich Bereitgestellte Indexe und wählen Sie den bereitgestellten Index aus, den Sie abfragen möchten. Die Seite Informationen zum bereitgestellten Index wird geöffnet.
  4. Wählen Sie im Bereich Abfrageindex aus, ob Sie nach einem dichten Einbettungswert, einem dünn besetzten Einbettungswert, einem hybriden Einbettungswert (dichte und dünn besetzte Einbettungen) oder einem bestimmten Datenpunkt suchen möchten.
  5. Geben Sie die Abfrageparameter für die ausgewählte Abfrage ein. Wenn Sie beispielsweise nach einer dichten Einbettung suchen, geben Sie den Einbettungsvektor ein, nach dem gesucht werden soll.
  6. Führen Sie die Abfrage mit dem bereitgestellten curl-Befehl oder mit Cloud Shell aus.
  7. Wenn Sie Cloud Shell verwenden, wählen Sie In Cloud Shell ausführen aus.
  8. In Cloud Shell ausführen
  9. Die Ergebnisse geben die nächsten Nachbarn zurück.

Ein End-to-End-Beispiel als Anleitung zum Erstellen eines Index, zum Bereitstellen auf einem öffentlichen Endpunkt und zum Abfragen finden Sie im offiziellen Notebook: Vektorsuche und Vertex AI Embeddings für Text bei StackOverflow-Fragen verwenden.

Einstellungen beim Abfragezeitpunkt, die sich auf die Leistung auswirken

Die folgenden Parameter für die Abfragezeit können sich bei der Verwendung der Vektorsuche auf Latenz, Verfügbarkeit und Kosten auswirken. Diese Empfehlung gilt in den meisten Fällen. Testen Sie jedoch immer mit Ihren Konfigurationen, ob sie sich für Ihren Anwendungsfall eignen.

Informationen zu Parameterdefinitionen finden Sie unter Parameter für die Indexkonfiguration.

Parameter Info Auswirkungen auf die Leistung
approximateNeighborsCount

Gibt dem Algorithmus die Anzahl der ungefähren Ergebnisse an, die von jedem Shard abgerufen werden sollen.

Der Wert von approximateNeighborsCount sollte immer größer als der Wert von setNeighborsCount sein. Wenn der Wert von setNeighborsCount klein ist, wird für approximateNeighborsCount das 10-Fache dieses Werts empfohlen. Für größere setNeighborsCount-Werte kann ein kleinerer Multiplikator verwendet werden.

Das Erhöhen des Werts von approximateNeighborsCount kann sich auf folgende Weise auf die Leistung auswirken:

  • Recall: Erhöht
  • Latenz: Möglicherweise erhöht
  • Verfügbarkeit: Keine Auswirkung
  • Kosten: Kann steigen, da während einer Suche mehr Daten verarbeitet werden

Wenn Sie den Wert von approximateNeighborsCount verringern, kann sich das so auf die Leistung auswirken:

  • Recall: Verringert
  • Latenz: Verringert sich möglicherweise
  • Verfügbarkeit: Keine Auswirkung
  • Kosten: Kann die Kosten senken, da während einer Suche weniger Daten verarbeitet werden
setNeighborCount Gibt die Anzahl der Ergebnisse an, die durch die Abfrage zurückgegeben werden sollen.

Werte unter oder gleich 300 bleiben in den meisten Anwendungsfällen leistungsfähig. Bei größeren Werten sollten Sie für Ihren spezifischen Anwendungsfall testen.

fractionLeafNodesToSearch Steuert den Prozentsatz der Blattknoten, die bei der Suche nach nächsten Nachbarn besucht werden. Dies steht in Bezug auf leafNodeEmbeddingCount insofern, als je mehr Einbettungen pro Blattknoten umso mehr Daten pro Blatt untersucht werden.

Das Erhöhen des Werts von fractionLeafNodesToSearch kann die Leistung auf folgende Weise beeinflussen:

  • Recall: Erhöht
  • Latenz: Erhöht
  • Verfügbarkeit: Keine Auswirkung
  • Kosten: Kann steigen, da eine höhere Latenz mehr Maschinenressourcen belegt

Das Verringern des Werts von fractionLeafNodesToSearch kann sich auf folgende Weise auf die Leistung auswirken:

  • Recall: Verringert
  • Latenz: Verringert
  • Verfügbarkeit: Keine Auswirkung
  • Kosten: Kann sich verringern, da eine geringere Latenz weniger Maschinenressourcen belegt

Nächste Schritte