Esta página se ha traducido con Cloud Translation API.

Infraestructura de GraphRAG para IA generativa con Vertex AI y Spanner Graph

Last reviewed 2025-07-01 UTC

Este documento proporciona una arquitectura de referencia para ayudarte a diseñar la infraestructura de aplicaciones de IA generativa GraphRAG en Google Cloud. La audiencia a la que va dirigido incluye arquitectos, desarrolladores y administradores que crean y gestionan sistemas inteligentes de recuperación de información. En este documento se presupone que el lector tiene conocimientos básicos sobre IA, gestión de datos de grafos y conceptos de gráficos de conocimiento. En este documento no se ofrecen directrices específicas para diseñar y desarrollar aplicaciones GraphRAG.

GraphRAG es un enfoque basado en gráficos para la generación aumentada de recuperación (RAG). RAG ayuda a fundamentar las respuestas generadas por IA aumentando las peticiones con datos contextuales relevantes que se obtienen mediante la búsqueda vectorial. GraphRAG combina la búsqueda vectorial con una consulta de gráfico de conocimiento para recuperar datos contextuales que reflejen mejor la interconexión de los datos de diversas fuentes. Las peticiones que se mejoran con GraphRAG pueden generar respuestas de IA más detalladas y relevantes.

Arquitectura

En el siguiente diagrama se muestra una arquitectura para una aplicación de IA generativa compatible con GraphRAG en Google Cloud:

Los flujos de ingestión y publicación de datos en la arquitectura.

La arquitectura del diagrama anterior consta de dos subsistemas: la ingestión de datos y el servicio. En las siguientes secciones se describe el propósito de los subsistemas y el flujo de datos dentro de los subsistemas y entre ellos.

Subsistema de ingestión de datos

El subsistema de ingestión de datos ingiere datos de fuentes externas y, a continuación, los prepara para GraphRAG. El flujo de ingestión y preparación de datos implica los siguientes pasos:

Los datos se ingieren en un segmento de Cloud Storage. Un analista de datos puede subir estos datos, que también se pueden ingerir desde una base de datos o transmitir desde cualquier fuente.
Cuando se ingieren datos, se envía un mensaje a un tema de Pub/Sub.
Pub/Sub activa una función de Cloud Run para procesar los datos subidos.
La función de Cloud Run crea un gráfico de conocimiento a partir de los archivos de entrada mediante la API de Gemini en Vertex AI y herramientas como LLMGraphTransformer de LangChain.
La función almacena el gráfico de conocimiento en una base de datos de Spanner Graph.
La función segmenta el contenido textual de los archivos de datos en unidades granulares mediante herramientas como RecursiveCharacterTextSplitter de LangChain o Layout Parser de Document AI.
La función crea incrustaciones vectoriales de los segmentos de texto mediante las APIs de incrustaciones de Vertex AI.
La función almacena las incrustaciones de vectores y los nodos de gráfico asociados en Spanner Graph.

Las incrustaciones vectoriales sirven de base para la recuperación semántica. Los nodos del gráfico de conocimientos permiten analizar y recorrer relaciones y patrones de datos complejos.

Subsistema de servicio

El subsistema de servicio gestiona el ciclo de vida de las consultas y las respuestas entre la aplicación de IA generativa y sus usuarios. El flujo de servicio implica los siguientes pasos:

Un usuario envía una consulta en lenguaje natural a un agente de IA, que se ha desplegado en Vertex AI Agent Engine.
El agente procesa la consulta de la siguiente manera:
1. Convierte la consulta en incrustaciones de vectores mediante las APIs Embeddings de Vertex AI.
2. Obtiene los nodos de un gráfico que están relacionados con la consulta realizando una búsqueda por similitud de vectores en la base de datos de embeddings.
3. Recupera datos relacionados con la consulta recorriendo el gráfico de conocimientos.
4. Aumenta la petición combinando la consulta original con los datos de gráfico recuperados.
5. Usa la API de clasificación de Vertex AI Search para clasificar los resultados, que constan de nodos y aristas que se obtienen de la base de datos de grafos. La clasificación se basa en la relevancia semántica de la consulta.
6. Resume los resultados llamando a la API de Gemini de Vertex AI.
A continuación, el agente envía el resultado resumido al usuario.

Puedes almacenar y ver registros de actividad de consultas y respuestas en Cloud Logging, así como configurar la monitorización basada en registros mediante Cloud Monitoring.

Productos usados

Esta arquitectura de referencia usa los siguientes productos y herramientas de Google:

Spanner Graph: una base de datos gráfica que ofrece las funciones de escalabilidad, disponibilidad y coherencia de Spanner.
Vertex AI: una plataforma de aprendizaje automático que te permite entrenar y desplegar modelos de aprendizaje automático y aplicaciones de IA, así como personalizar LLMs para usarlos con aplicaciones basadas en IA.
Funciones de Cloud Run: una plataforma de computación sin servidor que te permite ejecutar funciones con un solo propósito directamente en Google Cloud.
Cloud Storage: un almacén de objetos ilimitado y a un coste bajo para diversos tipos de datos. Se puede acceder a los datos desde dentro y fuera de Google Cloud, y se replican en varias ubicaciones para ofrecer redundancia.
Pub/Sub: un servicio de mensajería asíncrono y escalable que desacopla los servicios que producen mensajes de los servicios que los procesan.
Cloud Logging: un sistema de gestión de registros en tiempo real con funciones de almacenamiento, búsqueda, análisis y alertas.
Cloud Monitoring: un servicio que ofrece visibilidad sobre el rendimiento, la disponibilidad y el estado de tus aplicaciones e infraestructura.

Casos prácticos

GraphRAG facilita la recuperación inteligente de datos para casos prácticos en varios sectores. En esta sección se describen algunos casos prácticos en los sectores de la sanidad, las finanzas, los servicios jurídicos y la fabricación.

Atención sanitaria y productos farmacéuticos: ayuda a la toma de decisiones clínicas

En los sistemas de apoyo a las decisiones clínicas, GraphRAG integra grandes cantidades de datos procedentes de literatura médica, historias clínicas electrónicas de pacientes, bases de datos de interacciones entre medicamentos y resultados de ensayos clínicos en un gráfico de conocimiento unificado. Cuando los médicos e investigadores consultan los síntomas y los medicamentos actuales de un paciente, GraphRAG recorre el gráfico de conocimiento para identificar las afecciones relevantes y las posibles interacciones entre medicamentos. También puede generar recomendaciones de tratamiento personalizadas basadas en otros datos, como el perfil genético del paciente. Este tipo de recuperación de información proporciona respuestas más ricas en contexto y basadas en pruebas que la concordancia con palabras clave.

Servicios financieros: unificación de datos financieros

Las empresas de servicios financieros usan gráficos de conocimiento para ofrecer a sus analistas una vista unificada y estructurada de los datos procedentes de fuentes dispares, como informes de analistas, llamadas de resultados y evaluaciones de riesgos. Los gráficos de conocimiento identifican entidades de datos clave, como empresas y ejecutivos, y asignan las relaciones cruciales entre las entidades. Este enfoque proporciona una red de datos rica e interconectada, lo que permite realizar análisis financieros más profundos y eficientes. Los analistas pueden descubrir información valiosa que antes estaba oculta, como las complejas dependencias de la cadena de suministro, los miembros de la junta que se solapan entre competidores y la exposición a riesgos geopolíticos complejos.

Servicios jurídicos: investigación de casos y análisis de precedentes

En el sector jurídico, GraphRAG se puede usar para generar recomendaciones jurídicas personalizadas basadas en precedentes, leyes, jurisprudencia, actualizaciones normativas y documentos internos. Cuando los abogados se preparan para un caso, pueden hacer preguntas matizadas sobre argumentos jurídicos específicos, resoluciones anteriores de casos similares o las implicaciones de una nueva legislación. GraphRAG aprovecha la interconexión del conocimiento jurídico disponible para identificar precedentes relevantes y explicar su aplicabilidad. También puede sugerir contraargumentos rastreando las relaciones entre conceptos jurídicos, leyes e interpretaciones judiciales. Con este enfoque, los profesionales del ámbito jurídico pueden obtener estadísticas más completas y precisas que con los métodos de recuperación de conocimientos convencionales.

Fabricación y cadena de suministro: extraer el conocimiento institucional

Las operaciones de fabricación y de la cadena de suministro requieren un alto grado de precisión. Los conocimientos necesarios para mantener el nivel de precisión requerido suelen estar ocultos en miles de documentos densos y estáticos de procedimientos operativos estándar (POE). Cuando falla una línea de producción o una máquina de una fábrica, o si se produce un problema logístico, los ingenieros y técnicos suelen perder un tiempo valioso buscando en documentos PDF desconectados para diagnosticar y solucionar el problema. Los gráficos de conocimiento y la IA conversacional se pueden combinar para convertir el conocimiento institucional oculto en un partner de diagnóstico interactivo.

Alternativas de diseño

La arquitectura que se describe en este documento es modular. Puedes adaptar ciertos componentes de la arquitectura para usar productos, herramientas y tecnologías alternativos en función de tus requisitos.

Crear el gráfico de conocimiento

Puedes usar la herramienta LLMGraphTransformer de LangChain para crear un gráfico de conocimiento desde cero. Si especificas el esquema del gráfico con parámetros de LLMGraphTransformer como allowed_nodes, allowed_relationships, node_properties y relationship_properties, puedes mejorar la calidad del gráfico de conocimiento resultante. Sin embargo, LLMGraphTransformer puede extraer entidades de dominios genéricos, por lo que puede que no sea adecuado para dominios específicos, como los de sanidad o productos farmacéuticos. Además, si tu organización ya tiene un proceso sólido para crear gráficos de conocimiento, el subsistema de ingestión de datos que se muestra en esta arquitectura de referencia es opcional.

Almacenar el gráfico de conocimiento y las inserciones vectoriales

La arquitectura de este documento usa Spanner como almacén de datos del gráfico de conocimientos y las inserciones vectoriales. Si tus grafos de conocimiento empresariales ya existen en otro lugar (por ejemplo, en una plataforma como Neo4j), puedes usar una base de datos de vectores para las inserciones. Sin embargo, este enfoque requiere un esfuerzo de gestión adicional y puede costar más. Spanner proporciona un almacén de datos consolidado y coherente a nivel mundial para estructuras de grafos e incrustaciones de vectores. Este tipo de almacén de datos permite una gestión de datos unificada, lo que ayuda a optimizar los costes, el rendimiento, la seguridad, la gobernanza y la eficiencia operativa.

Tiempo de ejecución del agente

En esta arquitectura de referencia, el agente se despliega en Vertex AI Agent Engine, que proporciona un tiempo de ejecución gestionado para los agentes de IA. Otras opciones que puedes tener en cuenta son Cloud Run y Google Kubernetes Engine (GKE). No vamos a hablar de esas opciones en este documento.

Fundamentación con RAG

Como se explica en la sección Casos prácticos, GraphRAG permite extraer datos de forma inteligente para fundamentar la información en muchos casos. Sin embargo, si los datos de origen que usas para aumentar las peticiones no tienen interrelaciones complejas, RAG puede ser una opción adecuada para tu aplicación de IA generativa.

Las siguientes arquitecturas de referencia muestran cómo puedes crear la infraestructura necesaria para RAG en Google Cloud usando bases de datos gestionadas habilitadas para vectores o productos de búsqueda de vectores especializados:

Factores del diseño

En esta sección se describen los factores de diseño, las prácticas recomendadas y las recomendaciones que debes tener en cuenta al usar esta arquitectura de referencia para desarrollar una topología que cumpla tus requisitos específicos de seguridad, fiabilidad, coste y rendimiento.

Las directrices de esta sección no son exhaustivas. En función de los requisitos de tu carga de trabajo y de los Google Cloud productos y funciones de terceros Google Cloud que utilices, puede que haya factores de diseño y compensaciones adicionales que debas tener en cuenta.

Seguridad, privacidad y cumplimiento

En esta sección se describen las consideraciones y recomendaciones de diseño para diseñar una topología en Google Cloud que cumpla los requisitos de seguridad y cumplimiento de tu carga de trabajo.

Producto	Consideraciones y recomendaciones de diseño
Vertex AI	Vertex AI admite Google Cloud controles de seguridad que puedes usar para cumplir tus requisitos de residencia de datos, cifrado de datos, seguridad de red y transparencia de acceso. Para obtener más información, consulta la siguiente documentación: Controles de seguridad de Vertex AI Controles de seguridad de la IA generativa IA generativa y gestión de datos Los modelos de IA generativa pueden producir respuestas dañinas, sobre todo cuando se les pide explícitamente que lo hagan. Para mejorar la seguridad y mitigar posibles usos inadecuados, puedes configurar filtros de contenido que actúen como barreras ante respuestas dañinas. Para obtener más información, consulta Filtros de seguridad y de contenido.
Spanner Graph	De forma predeterminada, los datos almacenados en Spanner Graph se encriptan mediante Google-owned and Google-managed encryption keys. Si necesitas usar claves de cifrado que controles y gestiones, puedes usar claves de cifrado gestionadas por el cliente (CMEKs). Para obtener más información, consulta el artículo Acerca de las CMEK.
Cloud Run Functions	De forma predeterminada, Cloud Run encripta los datos mediante Google-owned and Google-managed encryption keys. Para proteger tus contenedores con claves que controles, puedes usar claves de cifrado gestionadas por el cliente (CMEKs). Para obtener más información, consulta el artículo Usar claves de cifrado gestionadas por el cliente. Para asegurarte de que solo se desplieguen imágenes de contenedor autorizadas en Cloud Run, puedes usar la autorización binaria. Cloud Run te ayuda a cumplir los requisitos de residencia de datos. Tus funciones de Cloud Run se ejecutan en la región seleccionada.
Cloud Storage	De forma predeterminada, los datos almacenados en Cloud Storage se encriptan mediante Google-owned and Google-managed encryption keys. Si es necesario, puedes usar CMEKs o tus propias claves, que puedes gestionar con un método de gestión externo, como las claves de cifrado proporcionadas por el cliente (CSEKs). Para obtener más información, consulta Opciones de cifrado de datos. Cloud Storage admite dos métodos para conceder a los usuarios acceso a tus segmentos y objetos: Gestión de Identidades y Accesos (IAM) y listas de control de acceso (LCA). En la mayoría de los casos, recomendamos usar IAM, que te permite conceder permisos a nivel de proyecto y de contenedor. Para obtener más información, consulta Descripción general del control de acceso. Los datos que cargues en el subsistema de ingestión de datos a través de Cloud Storage pueden incluir datos sensibles. Puedes usar Protección de Datos Sensibles para descubrir, clasificar y desidentificar datos sensibles. Para obtener más información, consulta el artículo Usar Protección de Datos Sensibles con Cloud Storage. Cloud Storage te ayuda a cumplir los requisitos de residencia de datos. Los datos se almacenan o replican en la región que especifiques.
Pub/Sub	De forma predeterminada, Pub/Sub cifra todos los mensajes, tanto en reposo como en tránsito, mediante Google-owned and Google-managed encryption keys. Pub/Sub admite el uso de CMEKs para cifrar mensajes en la capa de aplicación. Para obtener más información, consulta Configurar el cifrado de mensajes. Si tienes requisitos de residencia de datos, puedes configurar políticas de almacenamiento de mensajes para asegurarte de que los datos de los mensajes se almacenan en ubicaciones específicas.
Cloud Logging	Los registros de auditoría de actividad de administrador están habilitados de forma predeterminada en todos los servicios de Google Cloud que se usan en esta arquitectura de referencia. Estos registros registran llamadas a la API u otras acciones que modifican la configuración o los metadatos de losGoogle Cloud recursos. En los servicios que se usan en esta arquitectura, puedes habilitar los registros de auditoría de acceso a datos. Google Cloud Estos registros te permiten monitorizar las llamadas a la API que leen la configuración o los metadatos de los recursos, o las solicitudes de los usuarios para crear, modificar o leer datos de recursos proporcionados por los usuarios. Para cumplir los requisitos de residencia de datos, puedes configurar Cloud Logging para que almacene los datos de registro en la región que especifiques. Para obtener más información, consulta Regionalizar los registros.

Para consultar principios y recomendaciones de seguridad específicos de las cargas de trabajo de IA y aprendizaje automático, consulta la sección Perspectiva de IA y aprendizaje automático: seguridad del Google Cloud framework Well-Architected Google Cloud .

Fiabilidad

En esta sección se describen las consideraciones de diseño y las recomendaciones para crear y operar una infraestructura fiable para tu implementación en Google Cloud.

Producto	Consideraciones y recomendaciones de diseño
Vertex AI	Vertex AI admite la cuota compartida dinámica (DSQ) para los modelos de Gemini. DSQ te ayuda a gestionar de forma flexible las solicitudes de pago por uso y elimina la necesidad de gestionar la cuota manualmente o de solicitar aumentos de cuota. DSQ asigna de forma dinámica los recursos disponibles para un modelo y una región concretos entre los clientes activos. Con DSQ, no hay límites de cuota predefinidos para clientes individuales. Si el número de solicitudes supera la capacidad asignada, se devuelve el código de error 429. En el caso de las cargas de trabajo críticas para el negocio que requieren constantemente un alto rendimiento, puedes reservar rendimiento mediante la opción Rendimiento aprovisionado. Si los datos se pueden compartir en varias regiones o países, puedes usar un endpoint global.
Spanner Graph	Spanner se ha diseñado para ofrecer una alta disponibilidad de datos y una escalabilidad global. Para ayudar a garantizar la disponibilidad incluso durante una interrupción en una región, Spanner ofrece configuraciones multirregionales, que replican datos en varias zonas de varias regiones. Además de estas funciones de resiliencia integradas, Spanner ofrece las siguientes funciones para admitir estrategias de recuperación ante desastres completas: Protección contra la eliminación de bases de datos Funciones de copia de seguridad y restauración sólidas, incluidas copias programadas y entre regiones Recuperación a un momento dado (PITR) para protegerse frente a la corrupción lógica de datos, los errores de los operadores o las escrituras accidentales durante un máximo de siete días Para obtener más información, consulta el artículo Introducción a la recuperación tras fallos.
Cloud Run Functions	Cloud Run es un servicio regional. Los datos se almacenan de forma síncrona en varias zonas de una región. El tráfico se balancea de carga automáticamente entre las zonas. Si se produce una interrupción en una zona, Cloud Run sigue funcionando y no se pierden datos. Si se produce una interrupción en una región, el servicio dejará de funcionar hasta que Google resuelva el problema.
Cloud Storage	Puedes crear segmentos de Cloud Storage en uno de los tres tipos de ubicación: regional, birregional o multirregional. Los datos almacenados en segmentos regionales se replican de forma síncrona en varias zonas de una región. Para disfrutar de una mayor disponibilidad, puedes usar segmentos birregionales o multirregionales, en los que los datos se replican de forma asíncrona en varias regiones.
Pub/Sub	Para evitar errores durante los periodos de picos transitorios en el tráfico de mensajes, puedes limitar la tasa de solicitudes de publicación configurando el control de flujo en los ajustes del editor. Para gestionar los intentos de publicación fallidos, ajusta las variables de reintento de solicitud según sea necesario. Para obtener más información, consulta Reintentar solicitudes.
Todos los productos de la arquitectura	Después de implementar tu carga de trabajo en Google Cloud, usa Active Assist para obtener recomendaciones que te ayuden a optimizar aún más la fiabilidad de tus recursos en la nube. Revisa las recomendaciones y aplícalas según corresponda en tu entorno. Para obtener más información, consulta Buscar recomendaciones en Active Assist.

Para consultar los principios y las recomendaciones de fiabilidad específicos de las cargas de trabajo de IA y aprendizaje automático, consulta el artículo Perspectiva de IA y aprendizaje automático: fiabilidad del marco de trabajo Well-Architected.

Optimización de costes

En esta sección se ofrecen directrices para optimizar el coste de configurar y operar una Google Cloud topología que se cree con esta arquitectura de referencia.

Producto	Consideraciones y recomendaciones de diseño
Vertex AI	Para analizar y gestionar los costes de Vertex AI, te recomendamos que crees una base de consultas por segundo (CPS) y tokens por segundo (TPS) y que monitorices estas métricas después de la implementación. La línea de base también ayuda a planificar la capacidad. Por ejemplo, la línea de base te ayuda a determinar cuándo es necesario el rendimiento aprovisionado. Seleccionar el modelo adecuado para tu aplicación de IA generativa es una decisión fundamental que afecta directamente a los costes y al rendimiento. Para identificar el modelo que ofrece un equilibrio óptimo entre rendimiento y coste en tu caso práctico específico, prueba los modelos de forma iterativa. Te recomendamos que empieces con el modelo más rentable y que vayas pasando gradualmente a opciones más potentes. La longitud de tus peticiones (entrada) y de las respuestas generadas (salida) influyen directamente en el rendimiento y el coste. Escribe peticiones que sean breves, directas y que proporcionen suficiente contexto. Diseña tus peticiones para obtener respuestas concisas del modelo. Por ejemplo, incluye frases como "resume en dos frases" o "enumera tres puntos clave". Para obtener más información, consulta las prácticas recomendadas para diseñar peticiones. Para reducir el coste de las solicitudes que contienen contenido repetido con un número elevado de tokens de entrada, utiliza el almacenamiento en caché del contexto. Cuando sea pertinente, considera la predicción por lotes. Las solicitudes por lotes se facturan a un precio inferior al de las solicitudes estándar.
Spanner Graph	Usa el autoescalador gestionado para ajustar dinámicamente la capacidad de computación de las bases de datos de gráficos de Spanner en función del uso de la CPU y las necesidades de almacenamiento. A menudo se requiere una capacidad mínima, incluso para cargas de trabajo pequeñas. Para obtener una capacidad de computación predecible, estable o básica, compra descuentos por compromiso de uso (CUDs). Los CUDs ofrecen descuentos significativos a cambio de comprometerse a un gasto por hora determinado en capacidad de computación. Cuando copies copias de seguridad en diferentes regiones para la recuperación tras fallos o para cumplir los requisitos, ten en cuenta los costes de salida de red. Para reducir los costes, copia solo las copias de seguridad esenciales.
Cloud Run Functions	Cuando creas funciones de Cloud Run, puedes especificar la cantidad de memoria y CPU que se asignará. Para controlar los costes, empieza con las asignaciones predeterminadas (mínimas) de CPU y memoria. Para mejorar el rendimiento, puedes aumentar la asignación configurando el límite de CPU y el límite de memoria. Para obtener más información, consulta la siguiente documentación: Configurar límites de memoria para los servicios Configurar límites de CPU para los servicios Si puedes predecir los requisitos de CPU y memoria, puedes ahorrar dinero con los CUDs.
Cloud Storage	En el caso del segmento de Cloud Storage del subsistema de ingestión de datos, elige una clase de almacenamiento adecuada en función de los requisitos de tu carga de trabajo en cuanto a conservación de datos y frecuencia de acceso. Por ejemplo, para controlar los costes de almacenamiento, puedes elegir la clase Estándar y usar la gestión del ciclo de vida de los objetos. Este enfoque permite degradar automáticamente los objetos a una clase de almacenamiento de menor coste o eliminarlos automáticamente en función de las condiciones especificadas.
Cloud Logging	Para controlar el coste de almacenar registros, puedes hacer lo siguiente: Reduce el volumen de registros excluyendo o filtrando las entradas de registro innecesarias. Para obtener más información, consulta el artículo sobre filtros de exclusión. Reduce el periodo de conservación de registros. Para obtener más información, consulta Configurar la conservación personalizada.
Todos los productos de la arquitectura	Después de implementar tu carga de trabajo en Google Cloud, usa Active Assist para obtener recomendaciones que te ayuden a optimizar aún más el coste de tus recursos en la nube. Revisa las recomendaciones y aplícalas según corresponda en tu entorno. Para obtener más información, consulta Buscar recomendaciones en Active Assist.

Para estimar el coste de tus Google Cloud recursos, usa la Google Cloud calculadora de precios.

Para consultar los principios y las recomendaciones de optimización de costes específicos de las cargas de trabajo de IA y aprendizaje automático, consulta el artículo Perspectiva de IA y aprendizaje automático: optimización de costes del framework Well-Architected.

Optimización del rendimiento

En esta sección se describen las consideraciones y recomendaciones de diseño para diseñar una topología en Google Cloud que cumpla los requisitos de rendimiento de sus cargas de trabajo.

Producto	Consideraciones y recomendaciones de diseño
Vertex AI	Seleccionar el modelo adecuado para tu aplicación de IA generativa es una decisión fundamental que afecta directamente a los costes y al rendimiento. Para identificar el modelo que ofrece un equilibrio óptimo entre rendimiento y coste en tu caso práctico específico, prueba los modelos de forma iterativa. Te recomendamos que empieces con el modelo más rentable y que vayas pasando gradualmente a opciones más potentes. La longitud de tus peticiones (entrada) y de las respuestas generadas (salida) influyen directamente en el rendimiento y el coste. Escribe peticiones que sean breves, directas y que proporcionen suficiente contexto. Diseña tus peticiones para obtener respuestas concisas del modelo. Por ejemplo, incluye frases como "resume en dos frases" o "enumera tres puntos clave". Para obtener más información, consulta las prácticas recomendadas para diseñar peticiones. El optimizador de peticiones de Vertex AI te permite mejorar y optimizar rápidamente el rendimiento de las peticiones a gran escala, así como eliminar la necesidad de reescribirlas manualmente. El optimizador te ayuda a adaptar las peticiones de forma eficiente en diferentes modelos.
Spanner Graph	Para obtener recomendaciones sobre cómo optimizar el rendimiento de Spanner Graph, consulta la siguiente documentación: Prácticas recomendadas para diseñar un esquema de Spanner Graph Prácticas recomendadas para optimizar consultas de gráficos de Spanner
Cloud Run Functions	De forma predeterminada, a cada instancia de función de Cloud Run se le asigna una CPU y 256 MiB de memoria. En función de tus requisitos de rendimiento, puedes configurar límites de CPU y memoria. Para obtener más información, consulta la siguiente documentación: Configurar límites de memoria para los servicios Configurar límites de CPU para los servicios Para obtener más información sobre la optimización del rendimiento, consulta los consejos generales para el desarrollo en Cloud Run.
Cloud Storage	Para subir archivos grandes, puedes usar subidas compuestas paralelas. Con esta estrategia, el archivo grande se divide en fragmentos. Los fragmentos se suben a Cloud Storage en paralelo y, a continuación, los datos se recomponen en la nube. Cuando el ancho de banda de la red y la velocidad del disco no son factores limitantes, las subidas compuestas paralelas pueden ser más rápidas que las operaciones de subida normales. Sin embargo, esta estrategia tiene algunas limitaciones y consecuencias económicas. Para obtener más información, consulta Subidas compuestas paralelas.
Todos los productos de la arquitectura	Después de implementar tu carga de trabajo en Google Cloud, usa Active Assist para obtener recomendaciones que te ayuden a optimizar aún más el rendimiento de tus recursos en la nube. Revisa las recomendaciones y aplícalas según corresponda en tu entorno. Para obtener más información, consulta Buscar recomendaciones en Active Assist.

Para consultar los principios y las recomendaciones de optimización del rendimiento específicos de las cargas de trabajo de IA y aprendizaje automático, consulte el artículo Perspectiva de IA y aprendizaje automático: optimización del rendimiento del marco de trabajo Well-Architected.

Implementación

Para descubrir cómo funciona GraphRAG en Google Cloud, descarga y ejecuta el siguiente cuaderno de Jupyter de GitHub: GraphRAG en Google Cloud con Spanner Graph y Vertex AI Agent Engine.

Siguientes pasos

Crear aplicaciones GraphRAG con Spanner Graph y LangChain
Elegir modelos e infraestructura para tus aplicaciones de IA generativa
Infraestructura de RAG para IA generativa con Vertex AI y Vector Search
Infraestructura de RAG para IA generativa con Vertex AI y AlloyDB para PostgreSQL
Infraestructura de RAG para IA generativa con GKE y Cloud SQL
Infraestructura de RAG para IA generativa con Google Agentspace y Vertex AI
Para obtener información sobre los principios y las recomendaciones de arquitectura para cargas de trabajo de IA en Google Cloud, consulta el marco de trabajo Well-Architected: perspectiva de IA y aprendizaje automático.
Para ver más arquitecturas de referencia, diagramas y prácticas recomendadas, consulta el centro de arquitectura de Cloud.

Colaboradores

Autores:

Tristan Li | Arquitecto principal de IA y aprendizaje automático
Kumar Dhanagopal | Desarrollador de soluciones entre productos

Otros colaboradores:

Ahsif Sheikh | Ingeniero de clientes de IA
Ashish Chauhan | Ingeniero de clientes de IA
Greg Brosman | Responsable de producto
Lukas Bruderer | Responsable de Producto de Cloud AI
Nanditha Embar | Ingeniera de clientes de IA
Piyush Mathur | Responsable de Producto de Spanner
Smitha Venkat | Ingeniera de clientes de IA