Registrar y llamar a modelos de IA remotos en AlloyDB

Antes de registrar un endpoint de modelo de IA e invocar predicciones, consulta los conceptos clave para registrar endpoints de modelos de IA e invocar predicciones con la gestión de endpoints de modelos. En este documento se ofrece una descripción general de la gestión de endpoints de modelos, los casos prácticos y los conceptos, como los esquemas, los proveedores y los tipos de modelos, la autenticación y los distintos tipos de funciones.

Para registrar endpoints de modelos remotos con AlloyDB Omni, consulta Registrar y llamar a modelos de IA remotos en AlloyDB Omni.

Información general

La gestión de endpoints de modelos es una función de AlloyDB AI que incluye funciones y operadores que te ayudan a registrar y gestionar metadatos de modelos de IA. Puedes registrar un punto final de modelo, gestionar los metadatos de los puntos finales de modelo en tu clúster de base de datos y hacer llamadas a los puntos finales de modelo remotos mediante consultas SQL.

La gestión de endpoints de modelos proporciona la extensión google_ml_integration, que incluye funciones que te permiten registrar los metadatos relacionados con los modelos de IA en AlloyDB. Estos metadatos registrados se usan para generar inserciones de vector o invocar predicciones.

El motor de consultas de AlloyDB AI es un conjunto de funciones que se basa en la gestión de endpoints de modelos (vista previa) y añade compatibilidad con operadores de IA que te permiten combinar frases en lenguaje natural con consultas de SQL, como ai.if() para filtros y combinaciones, ai.rank() para ordenar y ai.generate() para generar resúmenes de tus datos. También se añade compatibilidad con los modelos multimodales y de clasificación de Vertex AI.

Estos son algunos de los tipos de modelos de ejemplo que puedes registrar mediante la gestión de endpoints de modelos:

  • Modelos genéricos y de inserción de texto de Vertex AI
  • Modelo multimodal de Vertex AI (vista previa)
  • Modelos de clasificación de Vertex AI (vista previa)
  • Modelos de inserción proporcionados por terceros, como Hugging Face u OpenAI
  • Modelos de embeddings de texto alojados de forma personalizada, incluidos los modelos alojados por el usuario o los modelos disponibles a través de endpoints privados
  • Modelos genéricos con una API basada en JSON, como el modelo facebook/bart-large-mnli alojado en Hugging Face, el modelo gemini-pro de Vertex AI Model Garden o los modelos claude de Anthropic

Casos prácticos

Puedes llamar a los endpoints del modelo registrado para interactuar con los datos de tu base de datos y generar inserciones o predicciones. Estos son algunos casos prácticos de la aplicación:

  • Inferencia en tiempo real con aplicación de transacciones: proporciona recomendaciones en tiempo real basadas en el historial de navegación actual del usuario y en el contenido del carrito.
  • Identificar el sentimiento y generar resúmenes: en una base de datos de reseñas de clientes, genera resúmenes o identifica el sentimiento clave de cada reseña.
  • Sistemas de búsqueda y recuperación inteligentes: crea sistemas de búsqueda para una base de datos de conocimientos interna y haz consultas con operadores de SQL basados en IA en lugar de palabras clave.
  • Experiencias de usuario personalizadas: optimizar una plataforma de contenido para personalizar de forma dinámica el contenido que se muestra a cada usuario en función de sus interacciones anteriores.

Para obtener más información sobre los casos prácticos de AlloyDB AI, consulta Casos prácticos de AlloyDB AI.

Cómo funciona

Puedes usar la gestión de endpoints de modelos para registrar un endpoint de modelo que cumpla los siguientes requisitos:

  • La entrada y la salida del modelo admiten el formato JSON.
  • Se puede llamar al modelo mediante el protocolo REST.

Cuando registras un endpoint de modelo en la gestión de endpoints de modelos, se registra cada endpoint con un ID de modelo único que has proporcionado como referencia al modelo.

Puedes usar el ID del endpoint del modelo para consultar modelos y hacer lo siguiente:

  • Genera incrustaciones para traducir las peticiones de texto a vectores numéricos. Puede almacenar las inserciones generadas como datos vectoriales cuando la extensión vector esté habilitada en la base de datos. Para obtener más información, consulta Consultas e incrustaciones indexadas con pgvector.

  • Generar embeddings multimodales para traducir datos multimodales, como texto, imágenes y vídeos, a embeddings. Vista previa

  • Clasifica o puntúa una lista de elementos en una consulta en función de un criterio expresado en lenguaje natural. Vista previa

  • Invoca predicciones mediante SQL.

Conceptos clave

Antes de empezar a usar la gestión de endpoints de modelos, familiarízate con los conceptos necesarios para conectarte a los modelos y usarlos.

Esquemas

Tus aplicaciones pueden acceder a la gestión de endpoints de modelos mediante la extensión google_ml_integration. La extensión google_ml_integration incluye funciones en los esquemas public, google_ml y ai. Todas las funciones se incluyen en el esquema google_ml y algunas están disponibles en los esquemas public y ai.

Para obtener más información sobre los esquemas, consulta Esquemas.

Proveedor del modelo

Proveedor del modelo indica los proveedores de alojamiento de modelos admitidos. Definir el proveedor del modelo es opcional, pero ayuda a gestionar el endpoint del modelo identificando el proveedor y formateando automáticamente los encabezados de los modelos admitidos.

Para obtener más información sobre los proveedores de modelos, consulta Proveedor de modelos.

Tipo de modelo

Tipo de modelo indica el tipo de modelo de IA. La extensión admite la inserción de texto, así como cualquier tipo de modelo genérico. Los tipos de modelo admitidos que puedes definir al registrar un endpoint de modelo son text-embedding y generic.

Definir el tipo de modelo es opcional al registrar endpoints de modelos genéricos, ya que generic es el tipo de modelo predeterminado.

Para obtener más información sobre el tipo de modelo, consulte Tipo de modelo.

Autenticación

Los tipos de autenticación indican el tipo de autenticación que puedes usar para conectarte a la gestión de endpoints de modelos mediante la extensión google_ml_integration. Configurar la autenticación es opcional y solo es necesario si necesitas autenticarte para acceder a tu modelo.

Para obtener más información sobre la autenticación, consulta Autenticación.

Funciones de predicción

Las funciones de predicción son funciones de SQL que te permiten interactuar con modelos de IA desde tu base de datos de AlloyDB. Estas funciones te permiten usar consultas de SQL estándar para enviar datos a un endpoint de modelo y generar inserciones o predicciones.

Para obtener más información sobre las funciones de predicción, consulta Funciones de predicción.

Funciones de operador

La extensión google_ml_integration incluye las siguientes funciones de operador, que usan Gemini predeterminado para hacer consultas con operadores SQL basados en IA.

Para obtener más información sobre las funciones de operador, consulta Funciones de operador.

Transformar funciones

Las funciones de transformación modifican la entrada a un formato que el modelo entiende y convierten la respuesta del modelo al formato que espera la función de predicción. Las funciones de transformación se usan al registrar el endpoint del modelo text-embedding sin compatibilidad integrada. La firma de las funciones de transformación depende de la entrada que espera el modelo.

Para obtener más información sobre las funciones de transformación, consulta Funciones de transformación.

Función de generación de encabezados HTTP

La función de generación de encabezados HTTP genera la salida en pares clave-valor JSON que se utilizan como encabezados HTTP. La firma de la función de predicción define las firmas de la función de generación de encabezados.

Para obtener más información sobre la función de generación de encabezados HTTP, consulta Función de generación de encabezados HTTP.

Siguientes pasos