Este documento proporciona una arquitectura de referencia para ayudarte a diseñar la infraestructura de aplicaciones de IA generativa GraphRAG en Google Cloud. La audiencia a la que va dirigido incluye arquitectos, desarrolladores y administradores que crean y gestionan sistemas inteligentes de recuperación de información. En este documento se presupone que el lector tiene conocimientos básicos sobre IA, gestión de datos de grafos y conceptos de gráficos de conocimiento. En este documento no se ofrecen directrices específicas para diseñar y desarrollar aplicaciones GraphRAG.
GraphRAG es un enfoque basado en gráficos para la generación aumentada de recuperación (RAG). RAG ayuda a fundamentar las respuestas generadas por IA aumentando las peticiones con datos contextuales relevantes que se obtienen mediante la búsqueda vectorial. GraphRAG combina la búsqueda vectorial con una consulta de gráfico de conocimiento para recuperar datos contextuales que reflejen mejor la interconexión de los datos de diversas fuentes. Las peticiones que se aumentan con GraphRAG pueden generar respuestas de IA más detalladas y relevantes.
Arquitectura
En el siguiente diagrama se muestra una arquitectura para una aplicación de IA generativa compatible con GraphRAG en Google Cloud:
La arquitectura del diagrama anterior consta de dos subsistemas: la ingestión de datos y el servicio. En las siguientes secciones se describe el propósito de los subsistemas y el flujo de datos dentro de los subsistemas y entre ellos.
Subsistema de ingestión de datos
El subsistema de ingestión de datos ingiere datos de fuentes externas y, a continuación, los prepara para GraphRAG. El flujo de ingestión y preparación de datos implica los siguientes pasos:
- Los datos se ingieren en un segmento de Cloud Storage. Un analista de datos puede subir estos datos, que también se pueden ingerir desde una base de datos o transmitir desde cualquier fuente.
- Cuando se ingieren datos, se envía un mensaje a un tema de Pub/Sub.
- Pub/Sub activa una función de Cloud Run para procesar los datos subidos.
- La función de Cloud Run crea un gráfico de conocimiento a partir de los archivos de entrada mediante la API de Gemini en Vertex AI y herramientas como
LLMGraphTransformer
de LangChain. - La función almacena el gráfico de conocimiento en una base de datos de Spanner Graph.
- La función segmenta el contenido textual de los archivos de datos en unidades granulares mediante herramientas como
RecursiveCharacterTextSplitter
de LangChain o Layout Parser de Document AI. - La función crea incrustaciones vectoriales de los segmentos de texto mediante las APIs de incrustaciones de Vertex AI.
- La función almacena las incrustaciones de vectores y los nodos de gráficos asociados en Spanner Graph.
Las incrustaciones vectoriales sirven de base para la recuperación semántica. Los nodos del gráfico de conocimientos permiten recorrer y analizar relaciones y patrones de datos complejos.
Subsistema de servicio
El subsistema de servicio gestiona el ciclo de vida de las consultas y las respuestas entre la aplicación de IA generativa y sus usuarios. El flujo de servicio implica los siguientes pasos:
- Un usuario envía una consulta en lenguaje natural a un agente de IA, que se ha desplegado en Vertex AI Agent Engine.
- El agente procesa la consulta de la siguiente manera:
- Convierte la consulta en incrustaciones de vectores mediante las APIs Embeddings de Vertex AI.
- Obtiene los nodos de gráfico relacionados con la consulta realizando una búsqueda por similitud de vectores en la base de datos de embeddings.
- Recupera datos relacionados con la consulta recorriendo el gráfico de conocimientos.
- Aumenta la petición combinando la consulta original con los datos de gráfico recuperados.
- Usa la API de clasificación de aplicaciones de IA para clasificar los resultados, que constan de nodos y aristas que se obtienen de la base de datos de grafos. La clasificación se basa en la relevancia semántica de la consulta.
- Resume los resultados llamando a la API de Gemini de Vertex AI.
- A continuación, el agente envía el resultado resumido al usuario.
Puedes almacenar y ver registros de actividad de consultas y respuestas en Cloud Logging, así como configurar la monitorización basada en registros mediante Cloud Monitoring.
Productos usados
Esta arquitectura de referencia usa los siguientes productos y herramientas de Google:
- Spanner Graph: una base de datos gráfica que ofrece las funciones de escalabilidad, disponibilidad y coherencia de Spanner.
- Vertex AI: una plataforma de aprendizaje automático que te permite entrenar y desplegar modelos de aprendizaje automático y aplicaciones de IA, así como personalizar LLMs para usarlos con aplicaciones basadas en IA.
- Funciones de Cloud Run: una plataforma de computación sin servidor que te permite ejecutar funciones con un solo propósito directamente en Google Cloud.
- Cloud Storage: un almacén de objetos ilimitado y a un coste bajo para diversos tipos de datos. Se puede acceder a los datos desde dentro y fuera de Google Cloud, y se replican en varias ubicaciones para ofrecer redundancia.
- Pub/Sub: un servicio de mensajería asíncrono y escalable que desacopla los servicios que producen mensajes de los que los procesan.
- Cloud Logging: un sistema de gestión de registros en tiempo real con funciones de almacenamiento, búsqueda, análisis y alertas.
- Cloud Monitoring: un servicio que ofrece visibilidad sobre el rendimiento, la disponibilidad y el estado de tus aplicaciones e infraestructura.
Casos prácticos
GraphRAG facilita la recuperación inteligente de datos para casos prácticos en varios sectores. En esta sección se describen algunos casos prácticos en los sectores de la sanidad, las finanzas, los servicios jurídicos y la fabricación.
Atención sanitaria y productos farmacéuticos: ayuda a la toma de decisiones clínicas
En los sistemas de apoyo a las decisiones clínicas, GraphRAG integra grandes cantidades de datos procedentes de literatura médica, historias clínicas electrónicas de pacientes, bases de datos de interacciones entre medicamentos y resultados de ensayos clínicos en un gráfico de conocimiento unificado. Cuando los médicos e investigadores consultan los síntomas y los medicamentos actuales de un paciente, GraphRAG recorre el gráfico de conocimiento para identificar las afecciones relevantes y las posibles interacciones entre medicamentos. También puede generar recomendaciones de tratamiento personalizadas basadas en otros datos, como el perfil genético del paciente. Este tipo de recuperación de información proporciona respuestas más ricas en contexto y basadas en pruebas que la concordancia con palabras clave.
Servicios financieros: unificación de datos financieros
Las empresas de servicios financieros usan gráficos de conocimiento para ofrecer a sus analistas una vista unificada y estructurada de los datos procedentes de fuentes dispares, como informes de analistas, llamadas de resultados y evaluaciones de riesgos. Los gráficos de conocimiento identifican entidades de datos clave, como empresas y ejecutivos, y asignan las relaciones cruciales entre las entidades. Este enfoque proporciona una red de datos rica e interconectada, lo que permite realizar análisis financieros más profundos y eficientes. Los analistas pueden descubrir información valiosa que antes estaba oculta, como las complejas dependencias de la cadena de suministro, los miembros de la junta que se solapan entre competidores y la exposición a riesgos geopolíticos complejos.
Servicios jurídicos: investigación de casos y análisis de precedentes
En el sector jurídico, GraphRAG se puede usar para generar recomendaciones jurídicas personalizadas basadas en precedentes, leyes, jurisprudencia, actualizaciones normativas y documentos internos. Cuando los abogados se preparan para un caso, pueden hacer preguntas matizadas sobre argumentos jurídicos específicos, resoluciones anteriores de casos similares o las implicaciones de una nueva legislación. GraphRAG aprovecha la interconexión del conocimiento jurídico disponible para identificar precedentes relevantes y explicar su aplicabilidad. También puede sugerir contraargumentos rastreando las relaciones entre conceptos jurídicos, leyes e interpretaciones judiciales. Con este enfoque, los profesionales del ámbito jurídico pueden obtener estadísticas más completas y precisas que con los métodos de recuperación de conocimientos convencionales.
Fabricación y cadena de suministro: extraer el conocimiento institucional
Las operaciones de fabricación y de la cadena de suministro requieren un alto grado de precisión. Los conocimientos necesarios para mantener el nivel de precisión requerido suelen estar ocultos en miles de documentos densos y estáticos de procedimientos operativos estándar (POE). Cuando falla una línea de producción o una máquina de una fábrica, o si se produce un problema logístico, los ingenieros y técnicos suelen perder un tiempo valioso buscando en documentos PDF desconectados para diagnosticar y solucionar el problema. Los gráficos de conocimiento y la IA conversacional se pueden combinar para convertir el conocimiento institucional oculto en un partner de diagnóstico interactivo.
Alternativas de diseño
La arquitectura que se describe en este documento es modular. Puedes adaptar determinados componentes de la arquitectura para usar productos, herramientas y tecnologías alternativos en función de tus requisitos.
Crear el gráfico de conocimiento
Puedes usar la herramienta LLMGraphTransformer
de LangChain para crear un gráfico de conocimiento desde cero. Si especificas el esquema del gráfico con parámetros de LLMGraphTransformer
como allowed_nodes
, allowed_relationships
, node_properties
y relationship_properties
, puedes mejorar la calidad del gráfico de conocimiento resultante. Sin embargo, LLMGraphTransformer
puede extraer entidades de dominios genéricos, por lo que puede que no sea adecuado para dominios específicos, como los de sanidad o productos farmacéuticos. Además, si tu organización ya tiene un proceso sólido para crear gráficos de conocimiento, el subsistema de ingestión de datos que se muestra en esta arquitectura de referencia es opcional.
Almacenar el gráfico de conocimiento y las incrustaciones de vectores
La arquitectura de este documento usa Spanner como almacén de datos del gráfico de conocimientos y las inserciones vectoriales. Si tus grafos de conocimiento empresariales ya existen en otro lugar (por ejemplo, en una plataforma como Neo4j), puedes usar una base de datos de vectores para las inserciones. Sin embargo, este enfoque requiere un esfuerzo de gestión adicional y puede costar más. Spanner proporciona un almacén de datos consolidado y coherente a nivel mundial para estructuras de grafos e incrustaciones de vectores. Este almacén de datos permite una gestión de datos unificada, lo que ayuda a optimizar los costes, el rendimiento, la seguridad, el control y la eficiencia operativa.
Tiempo de ejecución del agente
En esta arquitectura de referencia, el agente se despliega en Vertex AI Agent Engine, que proporciona un tiempo de ejecución gestionado para los agentes de IA. Otras opciones que puedes tener en cuenta son Cloud Run y Google Kubernetes Engine (GKE). No vamos a hablar de esas opciones en este documento.
Fundamentación con RAG
Como se explica en la sección Casos prácticos, GraphRAG permite extraer datos de forma inteligente para fundamentar la información en muchos casos. Sin embargo, si los datos de origen que usas para aumentar las peticiones no tienen interrelaciones complejas, RAG puede ser una opción adecuada para tu aplicación de IA generativa.
Las siguientes arquitecturas de referencia muestran cómo puedes crear la infraestructura necesaria para RAG en Google Cloud usando bases de datos gestionadas habilitadas para vectores o productos de búsqueda de vectores especializados:
- Infraestructura para una aplicación de IA generativa compatible con RAG que use Vertex AI y Vector Search
- Infraestructura para una aplicación de IA generativa compatible con RAG que use Vertex AI y AlloyDB para PostgreSQL
- Infraestructura para una aplicación de IA generativa compatible con RAG que use GKE y Cloud SQL
Factores del diseño
En esta sección se describen los factores de diseño, las prácticas recomendadas y las recomendaciones que debes tener en cuenta al usar esta arquitectura de referencia para desarrollar una topología que cumpla tus requisitos específicos de seguridad, fiabilidad, coste y rendimiento.
Las directrices de esta sección no son exhaustivas. En función de los requisitos de tu carga de trabajo y de los Google Cloud productos y funciones de terceros Google Cloud que utilices, puede que haya factores de diseño y compensaciones adicionales que debas tener en cuenta.
Seguridad, privacidad y cumplimiento
En esta sección se describen las consideraciones y recomendaciones de diseño para diseñar una topología en Google Cloud que cumpla los requisitos de seguridad y cumplimiento de tu carga de trabajo.
Producto | Consideraciones y recomendaciones de diseño |
---|---|
Vertex AI | Vertex AI admite Google Cloud controles de seguridad que puedes usar para cumplir tus requisitos de residencia de datos, cifrado de datos, seguridad de red y transparencia de acceso. Para obtener más información, consulta la siguiente documentación:
Los modelos de IA generativa pueden producir respuestas dañinas, sobre todo cuando se les pide explícitamente que lo hagan. Para mejorar la seguridad y reducir el riesgo de un uso inadecuado, puedes configurar filtros de contenido que actúen como barreras ante respuestas dañinas. Para obtener más información, consulta Filtros de seguridad y de contenido. |
Spanner Graph | De forma predeterminada, los datos almacenados en Spanner Graph se encriptan mediante Google-owned and Google-managed encryption keys. Si necesitas usar claves de cifrado que controles y gestiones, puedes usar claves de cifrado gestionadas por el cliente (CMEKs). Para obtener más información, consulta el artículo Acerca de las CMEK. |
Cloud Run Functions | De forma predeterminada, Cloud Run encripta los datos mediante Google-owned and Google-managed encryption keys. Para proteger tus contenedores con claves que controles, puedes usar claves de cifrado gestionadas por el cliente (CMEKs). Para obtener más información, consulta el artículo Usar claves de cifrado gestionadas por el cliente. Para asegurarte de que solo se desplieguen imágenes de contenedor autorizadas en Cloud Run, puedes usar la autorización binaria. Cloud Run te ayuda a cumplir los requisitos de residencia de datos. Tus funciones de Cloud Run se ejecutan en la región seleccionada. |
Cloud Storage |
De forma predeterminada, los datos almacenados en Cloud Storage se encriptan mediante Google-owned and Google-managed encryption keys. Si es necesario, puedes usar CMEKs o tus propias claves, que puedes gestionar con un método de gestión externo, como las claves de cifrado proporcionadas por el cliente (CSEKs). Para obtener más información, consulta Opciones de cifrado de datos. Cloud Storage admite dos métodos para conceder a los usuarios acceso a tus segmentos y objetos: Gestión de Identidades y Accesos (IAM) y listas de control de acceso (LCA). En la mayoría de los casos, recomendamos usar IAM, que te permite conceder permisos a nivel de proyecto y de contenedor. Para obtener más información, consulta Descripción general del control de acceso. Los datos que cargues en el subsistema de ingestión de datos a través de Cloud Storage pueden incluir datos sensibles. Puedes usar Protección de Datos Sensibles para descubrir, clasificar y desidentificar datos sensibles. Para obtener más información, consulta el artículo Usar Protección de Datos Sensibles con Cloud Storage. Cloud Storage te ayuda a cumplir los requisitos de residencia de datos. Los datos se almacenan o replican en la región que especifiques. |
Pub/Sub | De forma predeterminada, Pub/Sub cifra todos los mensajes, tanto en reposo como en tránsito, mediante Google-owned and Google-managed encryption keys. Pub/Sub admite el uso de CMEKs para cifrar mensajes en la capa de aplicación. Para obtener más información, consulta Configurar el cifrado de mensajes. Si tienes requisitos de residencia de datos, puedes configurar políticas de almacenamiento de mensajes para asegurarte de que los datos de los mensajes se almacenan en ubicaciones específicas. |
Cloud Logging | Los registros de auditoría de actividad de administrador están habilitados de forma predeterminada en todos los servicios de Google Cloud que se usan en esta arquitectura de referencia. Estos registros registran llamadas a la API u otras acciones que modifican la configuración o los metadatos de losGoogle Cloud recursos. En los servicios que se usan en esta arquitectura, puedes habilitar los registros de auditoría de acceso a datos. Google Cloud Estos registros te permiten monitorizar las llamadas a la API que leen la configuración o los metadatos de los recursos, o las solicitudes de los usuarios para crear, modificar o leer datos de recursos proporcionados por los usuarios. Para cumplir los requisitos de residencia de datos, puedes configurar Cloud Logging para que almacene los datos de registro en la región que especifiques. Para obtener más información, consulta Regionalizar los registros. |
Para consultar principios y recomendaciones de seguridad específicos de las cargas de trabajo de IA y aprendizaje automático, consulta la sección Perspectiva de IA y aprendizaje automático: seguridad del Google Cloud framework Well-Architected Google Cloud .
Fiabilidad
En esta sección se describen las consideraciones de diseño y las recomendaciones para crear y operar una infraestructura fiable para tu implementación en Google Cloud.
Producto | Consideraciones y recomendaciones de diseño |
---|---|
Vertex AI | Vertex AI admite la cuota compartida dinámica (DSQ) para los modelos de Gemini. DSQ ayuda a gestionar de forma flexible las solicitudes de pago por uso y elimina la necesidad de gestionar la cuota manualmente o de solicitar aumentos de cuota. DSQ asigna de forma dinámica los recursos disponibles para un modelo y una región concretos entre los clientes activos. Con DSQ, no hay límites de cuota predefinidos para clientes individuales. Si el número de solicitudes supera la capacidad asignada, se devuelve el código de error 429. En el caso de las cargas de trabajo críticas para el negocio que requieren constantemente un alto rendimiento, puedes reservar rendimiento mediante la opción Rendimiento aprovisionado. Si los datos se pueden compartir en varias regiones o países, puedes usar un endpoint global. |
Spanner Graph | Spanner se ha diseñado para ofrecer una alta disponibilidad de datos y una escalabilidad global. Para ayudar a garantizar la disponibilidad incluso durante una interrupción en una región, Spanner ofrece configuraciones multirregionales, que replican datos en varias zonas de varias regiones. Además de estas funciones de resiliencia integradas, Spanner ofrece las siguientes funciones para admitir estrategias de recuperación ante desastres completas:
Para obtener más información, consulta el artículo Introducción a la recuperación tras fallos. |
Cloud Run Functions | Cloud Run es un servicio regional. Los datos se almacenan de forma síncrona en varias zonas de una región. El tráfico se balancea de carga automáticamente entre las zonas. Si se produce una interrupción en una zona, Cloud Run sigue funcionando y no se pierden datos. Si se produce una interrupción en una región, el servicio dejará de funcionar hasta que Google resuelva el problema. |
Cloud Storage | Puedes crear segmentos de Cloud Storage en uno de los tres tipos de ubicación: regional, birregional o multirregional. Los datos almacenados en segmentos regionales se replican de forma síncrona en varias zonas de una región. Para disfrutar de una mayor disponibilidad, puedes usar segmentos birregionales o multirregionales, en los que los datos se replican de forma asíncrona en varias regiones. |
Pub/Sub | Para evitar errores durante los periodos de picos transitorios en el tráfico de mensajes, puedes limitar la tasa de solicitudes de publicación configurando el control de flujo en los ajustes del editor. Para gestionar los intentos de publicación fallidos, ajusta las variables de reintento de solicitud según sea necesario. Para obtener más información, consulta Reintentar solicitudes. |
Todos los productos de la arquitectura | Después de implementar tu carga de trabajo en Google Cloud, usa Active Assist para obtener recomendaciones que te ayuden a optimizar aún más la fiabilidad de tus recursos en la nube. Revisa las recomendaciones y aplícalas según corresponda en tu entorno. Para obtener más información, consulta el artículo Buscar recomendaciones en el centro de recomendaciones. |
Para consultar los principios y las recomendaciones de fiabilidad específicos de las cargas de trabajo de IA y aprendizaje automático, consulta el artículo Perspectiva de IA y aprendizaje automático: fiabilidad del marco de trabajo Well-Architected.
Optimización de costes
En esta sección se ofrecen directrices para optimizar el coste de configurar y operar una Google Cloud topología que se cree con esta arquitectura de referencia.
Producto | Consideraciones y recomendaciones de diseño |
---|---|
Vertex AI | Para analizar y gestionar los costes de Vertex AI, te recomendamos que crees una base de referencia de consultas por segundo (CPS) y tokens por segundo (TPS), y que monitorices estas métricas después de la implementación. El valor de referencia también ayuda a planificar la capacidad. Por ejemplo, la línea de base te ayuda a determinar cuándo es necesario el rendimiento aprovisionado. Seleccionar el modelo adecuado para tu aplicación de IA generativa es una decisión fundamental que afecta directamente a los costes y al rendimiento. Para identificar el modelo que ofrece un equilibrio óptimo entre rendimiento y coste en tu caso práctico específico, prueba los modelos de forma iterativa. Te recomendamos que empieces con el modelo más rentable y que vayas pasando gradualmente a opciones más potentes. La longitud de tus peticiones (entrada) y de las respuestas generadas (salida) influyen directamente en el rendimiento y el coste. Escribe peticiones que sean breves, directas y que proporcionen suficiente contexto. Diseña tus peticiones para obtener respuestas concisas del modelo. Por ejemplo, incluye frases como "resume en dos frases" o "enumera tres puntos clave". Para obtener más información, consulta las prácticas recomendadas para diseñar peticiones. Para reducir el coste de las solicitudes que contienen contenido repetido con un número elevado de tokens de entrada, utiliza el almacenamiento en caché del contexto. Cuando sea pertinente, considera la predicción por lotes. Las solicitudes por lotes se facturan a un precio inferior al de las solicitudes estándar. |
Spanner Graph | Usa el autoescalador gestionado para ajustar dinámicamente la capacidad de computación de las bases de datos de gráficos de Spanner en función del uso de la CPU y las necesidades de almacenamiento. A menudo se requiere una capacidad mínima, incluso para cargas de trabajo pequeñas. Para obtener una capacidad de computación predecible, estable o básica, compra descuentos por compromiso de uso (CUDs). Los CUDs ofrecen descuentos significativos a cambio de comprometerse a un gasto por hora determinado en capacidad de computación. Cuando copies copias de seguridad en diferentes regiones para la recuperación tras desastres o para cumplir los requisitos, ten en cuenta los costes de salida de red. Para reducir los costes, copia solo las copias de seguridad esenciales. |
Cloud Run Functions | Cuando creas funciones de Cloud Run, puedes especificar la cantidad de memoria y CPU que se asignará. Para controlar los costes, empieza con las asignaciones predeterminadas (mínimas) de CPU y memoria. Para mejorar el rendimiento, puedes aumentar la asignación configurando el límite de CPU y el límite de memoria. Para obtener más información, consulta la siguiente documentación: Si puedes predecir los requisitos de CPU y memoria, puedes ahorrar dinero con los CUDs. |
Cloud Storage | En el caso del segmento de Cloud Storage del subsistema de ingestión de datos, elige una clase de almacenamiento adecuada en función de los requisitos de tu carga de trabajo en cuanto a conservación de datos y frecuencia de acceso. Por ejemplo, para controlar los costes de almacenamiento, puedes elegir la clase Estándar y usar la gestión del ciclo de vida de los objetos. Este enfoque permite degradar automáticamente los objetos a una clase de almacenamiento de menor coste o eliminarlos automáticamente en función de las condiciones especificadas. |
Cloud Logging | Para controlar el coste de almacenar registros, puedes hacer lo siguiente:
|
Todos los productos de la arquitectura | Después de implementar tu carga de trabajo en Google Cloud, usa Active Assist para obtener recomendaciones que te ayuden a optimizar aún más el coste de tus recursos en la nube. Revisa las recomendaciones y aplícalas según corresponda en tu entorno. Para obtener más información, consulta el artículo Buscar recomendaciones en el centro de recomendaciones. |
Para estimar el coste de tus Google Cloud recursos, usa la Google Cloud calculadora de precios.
Para consultar los principios y las recomendaciones de optimización de costes específicos de las cargas de trabajo de IA y aprendizaje automático, consulta el artículo Perspectiva de IA y aprendizaje automático: optimización de costes del framework Well-Architected.
Optimización del rendimiento
En esta sección se describen las consideraciones y recomendaciones de diseño para diseñar una topología en Google Cloud que cumpla los requisitos de rendimiento de sus cargas de trabajo.
Producto | Consideraciones y recomendaciones de diseño |
---|---|
Vertex AI |
Seleccionar el modelo adecuado para tu aplicación de IA generativa es una decisión fundamental que afecta directamente a los costes y al rendimiento. Para identificar el modelo que ofrece un equilibrio óptimo entre rendimiento y coste en tu caso práctico específico, prueba los modelos de forma iterativa. Te recomendamos que empieces con el modelo más rentable y que vayas pasando gradualmente a opciones más potentes. La longitud de tus peticiones (entrada) y de las respuestas generadas (salida) influyen directamente en el rendimiento y el coste. Escribe peticiones que sean breves, directas y que proporcionen suficiente contexto. Diseña tus peticiones para obtener respuestas concisas del modelo. Por ejemplo, incluye frases como "resume en dos frases" o "enumera tres puntos clave". Para obtener más información, consulta las prácticas recomendadas para diseñar peticiones. El optimizador de peticiones de Vertex AI te permite mejorar y optimizar rápidamente el rendimiento de las peticiones a gran escala, así como eliminar la necesidad de reescribirlas manualmente. El optimizador te ayuda a adaptar las peticiones de forma eficiente en diferentes modelos. |
Spanner Graph | Para obtener recomendaciones sobre cómo optimizar el rendimiento de Spanner Graph, consulta la siguiente documentación: |
Cloud Run Functions | De forma predeterminada, cada instancia de función de Cloud Run tiene asignada una CPU y 256 MiB de memoria. En función de tus requisitos de rendimiento, puedes configurar límites de CPU y memoria. Para obtener más información, consulta la siguiente documentación: Para obtener más información sobre la optimización del rendimiento, consulta los consejos generales para el desarrollo en Cloud Run. |
Cloud Storage | Para subir archivos grandes, puedes usar subidas compuestas paralelas. Con esta estrategia, el archivo grande se divide en fragmentos. Los fragmentos se suben a Cloud Storage en paralelo y, a continuación, los datos se recomponen en la nube. Cuando el ancho de banda de la red y la velocidad del disco no son factores limitantes, las subidas compuestas paralelas pueden ser más rápidas que las operaciones de subida normales. Sin embargo, esta estrategia tiene algunas limitaciones y consecuencias económicas. Para obtener más información, consulta Subidas compuestas paralelas. |
Todos los productos de la arquitectura | Después de implementar tu carga de trabajo en Google Cloud, usa Active Assist para obtener recomendaciones que te ayuden a optimizar aún más el rendimiento de tus recursos en la nube. Revisa las recomendaciones y aplícalas según corresponda en tu entorno. Para obtener más información, consulta el artículo Buscar recomendaciones en el centro de recomendaciones. |
Para consultar los principios y las recomendaciones de optimización del rendimiento específicos de las cargas de trabajo de IA y aprendizaje automático, consulta el artículo Perspectiva de IA y aprendizaje automático: optimización del rendimiento del marco de trabajo Well-Architected.
Implementación
Para descubrir cómo funciona GraphRAG en Google Cloud, descarga y ejecuta el siguiente cuaderno de Jupyter de GitHub: GraphRAG en Google Cloud con Spanner Graph y Vertex AI Agent Engine.
Siguientes pasos
- Crea aplicaciones GraphRAG con Spanner Graph y LangChain.
- Elige los modelos y la infraestructura para tus aplicaciones de IA generativa.
- Diseñar la infraestructura de aplicaciones de IA generativa compatibles con RAG:
- Para obtener información sobre los principios y las recomendaciones de arquitectura para cargas de trabajo de IA en Google Cloud, consulta el marco de trabajo Well-Architected: perspectiva de IA y aprendizaje automático.
- Para ver más arquitecturas de referencia, diagramas y prácticas recomendadas, consulta el centro de arquitectura de Cloud.
Colaboradores
Autores:
- Tristan Li | Arquitecto principal de IA y aprendizaje automático
- Kumar Dhanagopal | Desarrollador de soluciones entre productos
Otros colaboradores:
- Ahsif Sheikh | Ingeniero de clientes de IA
- Ashish Chauhan | Ingeniero de clientes de IA
- Greg Brosman | Responsable de producto
- Lukas Bruderer | Responsable de Producto de Cloud AI
- Nanditha Embar | Ingeniera de clientes de IA
- Piyush Mathur | Responsable de Producto de Spanner
- Smitha Venkat | Ingeniera de clientes de IA