Registra y llama a modelos de IA remotos en la descripción general de AlloyDB

Antes de registrar un extremo de modelo de IA y de invocar predicciones, consulta Learn about key concepts for registering AI model endpoints and invoking predictions with Model endpoint management. En este documento, se proporciona una descripción general de la administración de extremos de modelos, los casos de uso y los conceptos, como esquemas, proveedores y tipos de modelos, autenticación y varios tipos de funciones.

Para registrar extremos de modelos remotos con AlloyDB Omni, consulta Cómo registrar y llamar a modelos de IA remotos en AlloyDB Omni.

Descripción general

La administración de extremos de modelos es una función de AlloyDB AI que incluye funciones y operadores que te ayudan a registrar y administrar metadatos de modelos de IA. Puedes registrar un extremo del modelo, administrar los metadatos del extremo del modelo en tu clúster de bases de datos y realizar llamadas a los extremos del modelo remoto con consultas en SQL.

La administración de extremos de modelos proporciona la extensión google_ml_integration, que incluye funciones que te permiten registrar los metadatos relacionados con los modelos de IA en AlloyDB. Estos metadatos registrados se usan para generar incorporaciones de vectores o invocar predicciones.

El motor de consultas de AlloyDB AI es un conjunto de funciones que se basan en la administración de extremos de modelos (vista previa) y agrega compatibilidad con operadores de IA que te permiten combinar frases en lenguaje natural con consultas en SQL, como ai.if() para filtros y uniones, ai.rank() para ordenar y ai.generate() para generar resúmenes de tus datos. También se agregó compatibilidad con los modelos de clasificación y multimodales de Vertex AI.

Estos son algunos de los tipos de modelos de ejemplo que puedes registrar con la administración de extremos de modelos:

  • Modelos genéricos y de incorporación de texto de Vertex AI
  • Modelo multimodal de Vertex AI (vista previa)
  • Modelos de clasificación de Vertex AI (versión preliminar)
  • Modelos de embeddings proporcionados por proveedores externos, como Hugging Face o OpenAI
  • Modelos de incorporación de texto alojados de forma personalizada, incluidos los modelos autoalojados o los modelos disponibles a través de extremos privados
  • Modelos genéricos con una API basada en JSON (por ejemplo, el modelo facebook/bart-large-mnli alojado en Hugging Face, el modelo gemini-pro de Model Garden de Vertex AI o los modelos claude de Anthropic)

Casos de uso

Puedes llamar a los extremos del modelo registrado para interactuar con los datos existentes en tu base de datos y generar incorporaciones o predicciones. Estos son algunos casos de uso de la aplicación:

  • Inferencia en tiempo real con aplicación de transacciones: Proporciona recomendaciones en tiempo real basadas en el historial de navegación actual del usuario y el contenido del carrito.
  • Identificar opiniones y generar resúmenes: Para una base de datos de opiniones de clientes, genera resúmenes o identifica la opinión clave de cada revisión.
  • Sistemas inteligentes de búsqueda y recuperación: Crea sistemas de búsqueda para una base de conocimiento interna y realiza consultas con operadores SQL potenciados por IA en lugar de palabras clave.
  • Experiencias de usuario personalizadas: Optimiza una plataforma de contenido para personalizar de forma dinámica el contenido que se muestra a cada usuario en función de sus interacciones anteriores.

Para obtener más información sobre los casos de uso de AlloyDB AI, consulta Casos de uso de AlloyDB AI.

Cómo funciona

Puedes usar la administración de extremos de modelos para registrar un extremo de modelo que cumpla con los siguientes requisitos:

  • La entrada y la salida del modelo admiten el formato JSON.
  • Se puede llamar al modelo con el protocolo REST.

Cuando registras un extremo del modelo con la administración de extremos del modelo, se registra cada extremo con un ID de modelo único que proporcionaste como referencia al modelo.

Puedes usar el ID del extremo del modelo para consultar modelos y hacer lo siguiente:

  • Genera embeddings para traducir instrucciones de texto en vectores numéricos. Puedes almacenar las incorporaciones generadas como datos vectoriales cuando la extensión vector está habilitada en la base de datos. Para obtener más información, consulta Indexa y consulta embeddings con pgvector.

  • Generar incorporaciones multimodales para traducir datos multimodales, como texto, imágenes y videos, a incorporaciones (Vista previa)

  • Clasifica o califica una lista de elementos en una búsqueda según un criterio establecido con lenguaje natural. (Vista previa)

  • Invoca predicciones con SQL.

Conceptos clave

Antes de comenzar a usar la administración de extremos de modelos, debes comprender los conceptos necesarios para conectarte a los modelos y usarlos.

Esquemas

Tus aplicaciones pueden acceder a la administración de extremos de modelos con la extensión google_ml_integration. La extensión google_ml_integration incluye funciones en los esquemas public, google_ml y ai. Todas las funciones se incluyen en el esquema google_ml, y algunas funciones están disponibles en los esquemas public y ai.

Para obtener más información sobre los esquemas, consulta Esquemas.

Proveedor del modelo

Proveedor de modelos indica los proveedores de hosting de modelos compatibles. Configurar el proveedor del modelo es opcional, pero ayuda a administrar el extremo del modelo, ya que identifica al proveedor y formatea automáticamente los encabezados para los modelos compatibles.

Para obtener más información sobre el proveedor del modelo, consulta Proveedor del modelo.

Tipo de modelo

Tipo de modelo indica el tipo de modelo de IA. La extensión admite la incorporación de texto y cualquier tipo de modelo genérico. Los tipos de modelos compatibles que puedes configurar cuando registras un extremo del modelo son text-embedding y generic.

Establecer el tipo de modelo es opcional cuando se registran extremos de modelos genéricos, ya que generic es el tipo de modelo predeterminado.

Para obtener más información sobre el tipo de modelo, consulta Tipo de modelo.

Autenticación

Los tipos de autenticación indican el tipo de autenticación que puedes usar para conectarte a la administración de extremos del modelo con la extensión google_ml_integration. La configuración de la autenticación es opcional y solo se requiere si necesitas autenticarte para acceder a tu modelo.

Para obtener más información sobre la autenticación, consulta Autenticación.

Funciones de predicción

Las funciones de predicción son funciones de SQL que te permiten interactuar con modelos de IA desde tu base de datos de AlloyDB. Estas funciones te permiten usar consultas de SQL estándar para enviar datos a un extremo del modelo y generar incorporaciones o predicciones.

Para obtener más información sobre las funciones de predicción, consulta Funciones de predicción.

Funciones del operador

La extensión google_ml_integration incluye las siguientes funciones de operador, que usan Gemini predeterminado para realizar consultas con operadores de SQL potenciados por IA.

Para obtener más información sobre las funciones del operador, consulta Funciones del operador.

Funciones de transformación

Las funciones de transformación modifican la entrada a un formato que el modelo comprende y convierten la respuesta del modelo al formato que espera la función de predicción. Las funciones de transformación se usan cuando se registra el extremo del modelo text-embedding sin compatibilidad integrada. La firma de las funciones de transformación depende de la entrada que espera el modelo.

Para obtener más información sobre las funciones de transformación, consulta Funciones de transformación.

Función de generación de encabezados HTTP

La función de generación de encabezados HTTP genera el resultado en pares clave-valor JSON que se usan como encabezados HTTP. La firma de la función de predicción define las firmas de la función de generación de encabezados.

Para obtener más información sobre la función de generación de encabezados HTTP, consulta Función de generación de encabezados HTTP.

¿Qué sigue?