Présentation d'AlloyDB : enregistrer et appeler des modèles d'IA distants

Avant d'enregistrer un point de terminaison de modèle d'IA et d'appeler des prédictions, découvrez les concepts clés pour enregistrer des points de terminaison de modèle d'IA et appeler des prédictions avec la gestion des points de terminaison de modèle. Ce document présente la gestion des points de terminaison de modèles, les cas d'utilisation et les concepts tels que les schémas, les fournisseurs et types de modèles, l'authentification et les différents types de fonctions.

Pour enregistrer des points de terminaison de modèles distants avec AlloyDB Omni, consultez Enregistrer et appeler des modèles d'IA distants dans AlloyDB Omni.

Présentation

La gestion des points de terminaison de modèle est une fonctionnalité AlloyDB/AI qui inclut des fonctions et des opérateurs vous aidant à enregistrer et à gérer les métadonnées des modèles d'IA. Vous pouvez enregistrer un point de terminaison de modèle, gérer les métadonnées de point de terminaison de modèle dans votre cluster de base de données et appeler les points de terminaison de modèle à distance à l'aide de requêtes SQL.

La gestion des points de terminaison de modèle fournit l'extension google_ml_integration qui inclut des fonctions permettant d'enregistrer les métadonnées associées aux modèles d'IA avec AlloyDB. Ces métadonnées enregistrées sont utilisées pour générer des embeddings vectoriels ou appeler des prédictions.

Le moteur de requêtes AlloyDB AI est une suite de fonctions qui s'appuie sur la gestion des points de terminaison de modèle (Preview) et ajoute la prise en charge des opérateurs d'IA qui vous permettent de combiner des expressions en langage naturel avec des requêtes SQL, comme ai.if() pour les filtres et les jointures, ai.rank() pour le tri et ai.generate() pour générer des résumés de vos données. Il ajoute également la compatibilité avec les modèles multimodaux et de classement Vertex AI.

Voici quelques exemples de types de modèles que vous pouvez enregistrer à l'aide de la gestion des points de terminaison de modèle :

  • Modèles génériques et d'embedding textuel Vertex AI
  • Modèle multimodal Vertex AI (Preview)
  • Modèles de classification Vertex AI (preview)
  • Modèles d'embedding fournis par des fournisseurs tiers, tels que Hugging Face ou OpenAI
  • Modèles d'embedding de texte hébergés sur mesure, y compris les modèles auto-hébergés ou ceux disponibles via des points de terminaison privés
  • Modèles génériques avec une API basée sur JSON (par exemple, le modèle facebook/bart-large-mnli hébergé sur Hugging Face, le modèle gemini-pro de Vertex AI Model Garden ou les modèles claude d'Anthropic)

Cas d'utilisation

Vous pouvez appeler les points de terminaison du modèle enregistré pour interagir avec les données existantes dans votre base de données afin de générer des embeddings ou des prédictions. Voici quelques cas d'utilisation des applications :

  • Inférence en temps réel avec application des transactions : fournit des recommandations en temps réel en fonction de l'historique de navigation actuel de l'utilisateur et du contenu de son panier.
  • Identifier le sentiment et générer des résumés : pour une base de données d'avis clients, générer des résumés ou identifier le sentiment clé pour chaque avis.
  • Systèmes de recherche et de récupération intelligents : créez des systèmes de recherche pour une base de données de connaissances internes et interrogez-les à l'aide d'opérateurs SQL optimisés par l'IA au lieu de mots clés.
  • Expériences utilisateur personnalisées : optimisez une plate-forme de contenu pour personnaliser dynamiquement le contenu affiché à chaque utilisateur en fonction de ses interactions passées.

Pour en savoir plus sur les cas d'utilisation d'AlloyDB AI, consultez Cas d'utilisation d'AlloyDB AI.

Fonctionnement

Vous pouvez utiliser la gestion des points de terminaison de modèle pour enregistrer un point de terminaison de modèle qui respecte les conditions suivantes :

  • Les entrées et sorties du modèle sont compatibles avec le format JSON.
  • Le modèle peut être appelé à l'aide du protocole REST.

Lorsque vous enregistrez un point de terminaison de modèle avec la gestion des points de terminaison de modèle, chaque point de terminaison est enregistré avec un ID de modèle unique que vous avez fourni comme référence au modèle.

Vous pouvez utiliser l'ID de point de terminaison du modèle pour interroger les modèles et effectuer les opérations suivantes :

  • Générez des embeddings pour traduire les requêtes de texte en vecteurs numériques. Vous pouvez stocker les embeddings générés sous forme de données vectorielles lorsque l'extension vector est activée dans la base de données. Pour en savoir plus, consultez Interroger et indexer des embeddings avec pgvector.

  • Générez des embeddings multimodaux pour traduire des données multimodales telles que du texte, des images et des vidéos en embeddings. (Aperçu)

  • Classez ou évaluez une liste d'éléments dans une requête en fonction d'un critère indiqué en langage naturel. (Aperçu)

  • Appelez des prédictions à l'aide de SQL.

Concepts clés

Avant de commencer à utiliser la gestion des points de terminaison de modèle, comprenez les concepts nécessaires pour vous connecter aux modèles et les utiliser.

Schémas

Vos applications peuvent accéder à la gestion des points de terminaison de modèle à l'aide de l'extension google_ml_integration. L'extension google_ml_integration inclut des fonctions dans les schémas public, google_ml et ai. Toutes les fonctions sont incluses dans le schéma google_ml, et certaines sont disponibles dans les schémas public et ai.

Pour en savoir plus sur les schémas, consultez Schémas.

Fournisseur de modèles

Fournisseur de modèle indique les fournisseurs d'hébergement de modèles compatibles. La définition du fournisseur de modèle est facultative, mais elle facilite la gestion des points de terminaison de modèle en identifiant le fournisseur et en mettant automatiquement en forme les en-têtes pour les modèles compatibles.

Pour en savoir plus sur les fournisseurs de modèles, consultez Fournisseur de modèles.

Type de modèle

Type de modèle indique le type de modèle d'IA. L'extension est compatible avec l'embedding de texte ainsi qu'avec tout type de modèle générique. Les types de modèles compatibles que vous pouvez définir lorsque vous enregistrez un point de terminaison de modèle sont text-embedding et generic.

La définition du type de modèle est facultative lors de l'enregistrement des points de terminaison de modèle génériques, car generic est le type de modèle par défaut.

Pour en savoir plus sur le type de modèle, consultez Type de modèle.

Authentification

Les types d'authentification indiquent le type d'authentification que vous pouvez utiliser pour vous connecter à la gestion des points de terminaison de modèle à l'aide de l'extension google_ml_integration. La configuration de l'authentification est facultative et n'est requise que si vous devez vous authentifier pour accéder à votre modèle.

Pour en savoir plus sur l'authentification, consultez Authentification.

Fonctions de prédiction

Les fonctions de prédiction sont des fonctions SQL qui vous permettent d'interagir avec des modèles d'IA depuis votre base de données AlloyDB. Ces fonctions vous permettent d'utiliser des requêtes SQL standards pour envoyer des données à un point de terminaison de modèle et générer des embeddings ou des prédictions.

Pour en savoir plus sur les fonctions de prédiction, consultez Fonctions de prédiction.

Fonctions de l'opérateur

L'extension google_ml_integration inclut les fonctions d'opérateur suivantes, qui utilisent Gemini par défaut pour interroger à l'aide d'opérateurs SQL optimisés par l'IA.

Pour en savoir plus sur les fonctions d'opérateur, consultez Fonctions d'opérateur.

Fonctions de transformation

Les fonctions de transformation modifient l'entrée dans un format que le modèle comprend et convertissent la réponse du modèle dans le format attendu par la fonction de prédiction. Les fonctions de transformation sont utilisées lors de l'enregistrement du point de terminaison du modèle text-embedding sans prise en charge intégrée. La signature des fonctions de transformation dépend de l'entrée attendue par le modèle.

Pour en savoir plus sur les fonctions de transformation, consultez Fonctions de transformation.

Fonction de génération d'en-tête HTTP

La fonction de génération d'en-tête HTTP génère la sortie sous forme de paires clé/valeur JSON qui sont utilisées comme en-têtes HTTP. La signature de la fonction de prédiction définit les signatures de la fonction de génération d'en-tête.

Pour en savoir plus sur la fonction de génération d'en-tête HTTP, consultez Fonction de génération d'en-tête HTTP.

Étapes suivantes