Cette page décrit les concepts clés que vous devez connaître avant d'enregistrer un point de terminaison de modèle d'IA et d'appeler des prédictions avec la gestion des points de terminaison de modèle.
Pour enregistrer des points de terminaison de modèle distants avec AlloyDB Omni, consultez Enregistrer et appeler des modèles d'IA distants dans AlloyDB Omni.
Présentation
La gestion des points de terminaison des modèles est une fonctionnalité d'IA AlloyDB qui inclut des fonctions et des opérateurs qui vous aident à enregistrer et à gérer les métadonnées des modèles d'IA. Vous pouvez enregistrer un point de terminaison de modèle, gérer les métadonnées de point de terminaison de modèle dans votre cluster de base de données et appeler les points de terminaison de modèle distants à l'aide de requêtes SQL.
La gestion des points de terminaison du modèle fournit l'extension google_ml_integration
, qui inclut des fonctions qui vous permettent d'enregistrer les métadonnées liées aux modèles d'IA avec AlloyDB. Ces métadonnées enregistrées sont utilisées pour générer des représentations vectorielles continues ou pour appeler des prédictions.
Le moteur de requêtes d'IA AlloyDB est une suite de fonctions qui s'appuient sur la gestion des points de terminaison de modèle (Preview) et prend en charge les opérateurs d'IA qui vous permettent de combiner des expressions en langage naturel avec des requêtes SQL, comme ai.if()
pour les filtres et les jointures, ai.rank()
pour l'ordre et ai.generate()
pour générer des récapitulatifs de vos données. Il est également compatible avec les modèles multimodaux et de classement Vertex AI.
Voici quelques exemples de types de modèles que vous pouvez enregistrer à l'aide de la gestion des points de terminaison de modèle:
- Embedding textuel et modèles génériques Vertex AI
- Modèle multimodal Vertex AI (bêta)
- Modèles de classement Vertex AI (Preview)
- Modèles d'encapsulation fournis par des fournisseurs tiers, tels que Hugging Face ou OpenAI
- Modèles d'embedding textuel hébergés par l'utilisateur, y compris les modèles auto-hébergés ou les modèles disponibles via des points de terminaison privés
- Modèles génériques avec une API basée sur JSON (par exemple, le modèle
facebook/bart-large-mnli
hébergé sur Hugging Face, le modèlegemini-pro
de Vertex AI Model Garden ou les modèlesclaude
d'Anthropic)
Cas d'utilisation
Vous pouvez appeler les points de terminaison de modèle enregistrés pour interagir avec les données existantes de votre base de données afin de générer des représentations vectorielles continues ou des prédictions. Voici quelques cas d'utilisation d'applications:
- Inférence en temps réel avec l'application des transactions: fournit des recommandations en temps réel en fonction de l'historique de navigation actuel de l'utilisateur et du contenu du panier.
- Identifier le sentiment et générer des résumés: pour une base de données d'avis clients, génère des résumés ou identifie le sentiment principal pour chaque avis.
- Systèmes de recherche et de récupération intelligents: créez des systèmes de recherche pour une base de données de base de connaissances interne et utilisez le langage naturel dans les opérateurs SQL au lieu de mots clés.
- Expériences utilisateur personnalisées: optimisez une plate-forme de contenu pour personnaliser dynamiquement les contenus affichés à chaque utilisateur en fonction de ses interactions passées.
Pour en savoir plus sur les cas d'utilisation de l'IA AlloyDB, consultez Cas d'utilisation de l'IA AlloyDB.
Fonctionnement
Vous pouvez utiliser la gestion des points de terminaison de modèle pour enregistrer un point de terminaison de modèle conforme aux éléments suivants:
- L'entrée et la sortie du modèle sont compatibles avec le format JSON.
- Le modèle peut être appelé à l'aide du protocole REST.
Lorsque vous enregistrez un point de terminaison de modèle avec la gestion des points de terminaison de modèle, chaque point de terminaison est associé à un ID de modèle unique que vous avez fourni en tant que référence au modèle.
Vous pouvez utiliser l'ID de point de terminaison du modèle pour interroger les modèles afin d'effectuer les opérations suivantes:
Générez des embeddings pour traduire des requêtes de texte en vecteurs numériques. Vous pouvez stocker les embeddings générés en tant que données vectorielles lorsque l'extension
vector
est activée dans la base de données. Pour en savoir plus, consultez Interroger et indexer des embeddings avec pgvector.Générez des embeddings multimodaux pour traduire des données multimodales telles que du texte, des images et des vidéos en embeddings. (Aperçu)
Classer ou évaluer une liste d'éléments dans une requête en fonction d'un critère exprimé en langage naturel (Aperçu)
Appelez des prédictions à l'aide de SQL.
Concepts clés
Avant de commencer à utiliser la gestion des points de terminaison des modèles, vous devez comprendre les concepts requis pour vous connecter aux modèles et les utiliser.
Schémas
Vos applications peuvent accéder à la gestion des points de terminaison de modèle à l'aide de l'extension google_ml_integration
. L'extension google_ml_integration
inclut des fonctions dans le schéma public
, google_ml
et ai
. Toutes les fonctions sont incluses dans le schéma google_ml
, et certaines sont disponibles dans les schémas public
et ai
.
Pour en savoir plus sur les schémas, consultez la page Schémas.
Fournisseur de modèles
Fournisseur de modèles indique les fournisseurs d'hébergement de modèles compatibles. Le paramétrage du fournisseur de modèles est facultatif, mais il facilite la gestion des points de terminaison de modèle en identifiant le fournisseur et en formatant automatiquement les en-têtes pour les modèles compatibles.
Pour en savoir plus sur le fournisseur de modèles, consultez Fournisseur de modèles.
Type de modèle
Type de modèle indique le type de modèle d'IA. L'extension est compatible avec l'embedding textuel, ainsi qu'avec tout type de modèle générique. Les types de modèles compatibles que vous pouvez définir lors de l'enregistrement d'un point de terminaison de modèle sont text-embedding
et generic
.
Définir le type de modèle est facultatif lorsque vous enregistrez des points de terminaison de modèle génériques, car generic
est le type de modèle par défaut.
Pour en savoir plus sur le type de modèle, consultez la section Type de modèle.
Authentification
Les types d'authentification indiquent le type d'authentification que vous pouvez utiliser pour vous connecter à la gestion des points de terminaison du modèle à l'aide de l'extension google_ml_integration
. Le paramétrage de l'authentification est facultatif et n'est requis que si vous devez vous authentifier pour accéder à votre modèle.
Pour en savoir plus sur l'authentification, consultez Authentification.
Fonctions de prédiction
Les fonctions de prédiction sont des fonctions SQL qui vous permettent d'interagir avec des modèles d'IA à partir de votre base de données AlloyDB. Ces fonctions vous permettent d'utiliser des requêtes SQL standards pour envoyer des données à un point de terminaison de modèle et générer des représentations vectorielles continues ou des prédictions.
Pour en savoir plus sur les fonctions de prédiction, consultez la section Fonctions de prédiction.
Fonctions d'opérateur
L'extension google_ml_integration
inclut les fonctions d'opérateur suivantes, qui utilisent Gemini par défaut pour utiliser le langage naturel dans les opérateurs SQL.
Pour en savoir plus sur les fonctions d'opérateur, consultez Fonctions d'opérateur.
Fonctions de transformation
Les fonctions de transformation modifient l'entrée en un format que le modèle comprend et convertissent la réponse du modèle au format attendu par la fonction de prédiction. Les fonctions de transformation sont utilisées lors de l'enregistrement du point de terminaison du modèle text-embedding
sans prise en charge intégrée. La signature des fonctions de transformation dépend de l'entrée attendue par le modèle.
Pour en savoir plus sur les fonctions de transformation, consultez la section Fonctions de transformation.
Fonction de génération d'en-tête HTTP
La fonction de génération d'en-têtes HTTP génère la sortie sous forme de paires clé-valeur JSON utilisées comme en-têtes HTTP. La signature de la fonction de prédiction définit les signatures de la fonction de génération d'en-tête.
Pour en savoir plus sur la fonction de génération d'en-têtes HTTP, consultez la section Fonction de génération d'en-têtes HTTP.
Étape suivante
- Configurez l'authentification pour les fournisseurs de modèles.
- Enregistrez un point de terminaison de modèle avec la gestion des points de terminaison de modèle.
- Découvrez la documentation de référence sur la gestion des points de terminaison des modèles.