Descripción general de los embeddings de texto

Las incrustaciones son representaciones numéricas de texto, imágenes o vídeos que captan las relaciones entre las entradas. Los modelos de aprendizaje automático, especialmente los modelos de IA generativa, son adecuados para crear inserciones identificando patrones en conjuntos de datos grandes. Las aplicaciones pueden usar incrustaciones para procesar y generar lenguaje, así como para reconocer significados complejos y relaciones semánticas específicas de tu contenido.

Vertex AI en Google Distributed Cloud (GDC) con air gap admite las APIs Text Embedding para entradas de texto en inglés y multilingües. Text Embedding funciona convirtiendo texto en matrices de números de coma flotante llamadas vectores. Estos vectores se han diseñado para captar el significado del texto. La longitud de la matriz de inserciones se denomina dimensionalidad del vector. Por ejemplo, un fragmento de texto se puede representar mediante un vector que contenga cientos de dimensiones. Después, al calcular la distancia numérica entre las representaciones vectoriales de dos fragmentos de texto, una aplicación puede determinar la similitud entre los objetos.

Para ver una lista de los modelos admitidos, consulta Modelos de embeddings.

Para ver una lista de los idiomas admitidos, consulta Idiomas admitidos para la inserción de texto.

Casos prácticos de embeddings de texto

Estos son algunos casos prácticos habituales de las inserciones de texto:

  • Búsqueda semántica: busca texto clasificado por similitud semántica.
  • Clasificación: devuelve la clase de los elementos con atributos similares al texto proporcionado.
  • Agrupación en clústeres: agrupa los elementos cuyos atributos de texto sean similares al texto proporcionado.
  • Detección de valores atípicos: devuelve los elementos en los que los atributos de texto están menos relacionados con el texto proporcionado.
  • Interfaz conversacional: agrupa conjuntos de frases que pueden dar lugar a respuestas similares, como en un espacio de inserción a nivel de conversación.

Caso práctico: desarrollar un chatbot de recomendaciones de libros

Si quieres desarrollar un chatbot de recomendación de libros, lo primero que debes hacer es usar una red neuronal profunda (DNN) para convertir cada libro en un vector de inserción, donde un vector de inserción representa un libro. Puedes introducir el título o el contenido de texto del libro en la DNN. También puede usar ambos datos a la vez, junto con otros metadatos que describan el libro, como el género.

Las inserciones de este ejemplo podrían incluir miles de títulos de libros con resúmenes y su género. Puede que haya representaciones de libros como Cumbres borrascosas, de Emily Brontë, y Persuasión, de Jane Austen, que sean similares entre sí (poca distancia entre las representaciones numéricas). Por el contrario, la representación numérica del libro El gran Gatsby, de F. Scott Fitzgerald, ya que el periodo, el género y el resumen son menos similares.

Las entradas son el factor que más influye en la orientación del espacio de inserción. Por ejemplo, si solo tuviéramos entradas de títulos de libros, dos libros con títulos similares, pero resúmenes muy diferentes, podrían estar muy cerca. Sin embargo, si incluimos el título y el resumen, estos mismos libros serán menos similares (estarán más lejos) en el espacio de los embeddings.

Con la ayuda de la IA generativa, este chatbot de sugerencias de libros puede resumir, sugerir y mostrarte libros que te gusten (o no) en función de tu consulta.

Siguientes pasos