Générer des embeddings de texte

L'extension google_ml_integration inclut des fonctions d'intégration dans deux espaces de noms différents : public et google_ml. Cette page explique comment générer des embeddings de texte à l'aide de fonctions de ces espaces de noms.

La fonction embedding() du schéma public peut être utilisée avec n'importe quel modèle d'embedding Vertex AI sans enregistrer le point de terminaison. Si vous souhaitez transmettre des informations personnalisées telles que le type de tâche, enregistrez le point de terminaison, puis utilisez la fonction google_ml.embedding() dans le schéma google_ml. Pour en savoir plus sur l'enregistrement d'un point de terminaison, consultez Enregistrer un modèle.

Fonctionnement des embeddings

Imaginons une base de données qui s'exécute sur AlloyDB avec les caractéristiques suivantes :

  • La base de données contient une table, items. Chaque ligne de ce tableau décrit un article que votre entreprise vend.

  • La table items contient une colonne complaints. Cette colonne TEXT enregistre les réclamations des acheteurs concernant chaque article.

  • La base de données s'intègre à Vertex AI Model Garden, ce qui lui donne accès aux modèles gemini-embedding-001 en anglais.

Même si cette base de données stocke les réclamations concernant des articles, celles-ci sont stockées en texte brut, ce qui rend leur interrogation difficile. Par exemple, si vous souhaitez voir les articles qui reçoivent le plus de réclamations de la part des clients ayant reçu la mauvaise couleur des produits, vous pouvez effectuer des requêtes SQL ordinaires sur la table, à la recherche de différentes correspondances de mots clés. Toutefois, cette approche ne correspond qu'aux lignes contenant ces mots clés exacts.

Par exemple, une requête SQL de base telle que SELECT * FROM item WHERE complaints LIKE "%wrong color%" ne renvoie pas de ligne dans laquelle le champ complaints ne contient que The picture shows a blue one, but the one I received was red.

Les requêtes SQL utilisant des embeddings basés sur un LLM peuvent aider à renvoyer des réponses sémantiquement similaires pour de telles requêtes. En appliquant des embeddings, vous pouvez interroger la table de cet exemple pour les éléments dont les réclamations présentent une similarité sémantique avec une requête de texte donnée, par exemple It was the wrong color.

Pour générer des embeddings, sélectionnez l'un des schémas suivants.

Étapes suivantes