Se usó la API de Cloud Translation para traducir esta página.

Infraestructura de GraphRAG para la IA generativa con Vertex AI y Spanner Graph

Last reviewed 2025-07-01 UTC

En este documento, se proporciona una arquitectura de referencia para ayudarte a diseñar la infraestructura de las aplicaciones de IA generativa de GraphRAG en Google Cloud. El público objetivo incluye arquitectos, desarrolladores y administradores que crean y administran sistemas inteligentes de recuperación de información. En este documento, se supone que tienes conocimientos básicos sobre la IA, la administración de datos de gráficos y los conceptos de los gráficos de conocimiento. En este documento, no se proporciona orientación específica para diseñar y desarrollar aplicaciones de GraphRAG.

GraphRAG es un enfoque basado en gráficos para la generación mejorada por recuperación (RAG). La RAG ayuda a fundamentar las respuestas generadas por IA, ya que aumenta las instrucciones con datos contextualmente relevantes que se recuperan con la búsqueda vectorial. GraphRAG combina la búsqueda de vectores con una consulta del gráfico de conocimiento para recuperar datos contextuales que reflejan mejor la interconexión de los datos de diversas fuentes. Las instrucciones que se mejoran con GraphRAG pueden generar respuestas de IA más detalladas y pertinentes.

Arquitectura

En el siguiente diagrama, se muestra una arquitectura para una aplicación de IA generativa compatible con GraphRAG en Google Cloud:

Los flujos de transferencia y entrega de datos en la arquitectura

La arquitectura del diagrama anterior consta de dos subsistemas: la transferencia y la publicación de datos. En las siguientes secciones, se describe el propósito de los subsistemas y el flujo de datos dentro de ellos y entre ellos.

Subsistema de transferencia de datos

El subsistema de transferencia de datos transfiere datos de fuentes externas y, luego, los prepara para GraphRAG. El flujo de transferencia y preparación de datos incluye los siguientes pasos:

Los datos se transfieren a un bucket de Cloud Storage. Un analista de datos puede subir estos datos, transferirlos desde una base de datos o transmitirlos desde cualquier fuente.
Cuando se transfieren datos, se envía un mensaje a un tema de Pub/Sub.
Pub/Sub activa una función de Cloud Run para procesar los datos subidos.
La función de Cloud Run crea un gráfico de conocimiento a partir de los archivos de entrada con la API de Gemini en Vertex AI y herramientas como LLMGraphTransformer de LangChain.
La función almacena el gráfico de conocimiento en una base de datos de gráficos de Spanner.
La función segmenta el contenido textual de los archivos de datos en unidades detalladas con herramientas como RecursiveCharacterTextSplitter de LangChain o Layout Parser de Document AI.
La función crea embeddings vectoriales de los segmentos de texto con las APIs de Vertex AI Embeddings.
La función almacena las incorporaciones de vectores y los nodos de gráficos asociados en Spanner Graph.

Los embeddings de vectores sirven como base para la recuperación semántica. Los nodos del gráfico de conocimiento permiten el recorrido y el análisis de relaciones y patrones de datos complejos.

Subsistema de entrega

El subsistema de entrega administra el ciclo de vida de la consulta y la respuesta entre la aplicación de IA generativa y sus usuarios. El flujo de entrega implica los siguientes pasos:

Un usuario envía una consulta en lenguaje natural a un agente de IA, que se implementa en Vertex AI Agent Engine.
El agente procesa la búsqueda de la siguiente manera:
1. Convierte la búsqueda en embeddings de vectores con las APIs de Vertex AI Embeddings.
2. Recupera los nodos del gráfico relacionados con la búsqueda realizando una búsqueda de similitud de vectores en la base de datos de incorporaciones.
3. Recupera datos relacionados con la búsqueda a través del gráfico de conocimiento.
4. Aumenta la instrucción combinando la búsqueda original con los datos del gráfico recuperados.
5. Usa la API de clasificación de Vertex AI Search para clasificar los resultados, que constan de nodos y aristas que se recuperan de la base de datos de grafos. La clasificación se basa en la relevancia semántica para la búsqueda.
6. Resume los resultados llamando a la API de Gemini de Vertex AI.
Luego, el agente envía el resultado resumido al usuario.

Puedes almacenar y ver registros de la actividad de consulta y respuesta en Cloud Logging, y puedes configurar la supervisión basada en registros con Cloud Monitoring.

Productos usados

En esta arquitectura de referencia, se usan los siguientes productos y herramientas de Google:

Spanner Graph: Es una base de datos de gráficos que proporciona las funciones de escalabilidad, disponibilidad y coherencia de Spanner.
Vertex AI: Es una plataforma de AA que te permite entrenar y, también, implementar modelos de AA y aplicaciones de IA, y personalizar LLM para usarlos en aplicaciones impulsadas por IA.
Funciones de Cloud Run: Es una plataforma de procesamiento sin servidores que te permite ejecutar funciones de un solo propósito directamente en Google Cloud.
Cloud Storage: Un depósito de objetos de bajo costo y sin límites para varios tipos de datos. Se puede acceder a los datos desde y hacia Google Cloud, y estos se replican en las ubicaciones para aumentar la redundancia.
Pub/Sub: Un servicio de mensajería asíncrona y escalable que separa los servicios que producen mensajes de servicios que procesan esos mensajes.
Cloud Logging: Un sistema de administración de registros en tiempo real con almacenamiento, búsqueda, análisis y alertas.
Cloud Monitoring: Un servicio que proporciona visibilidad del rendimiento, la disponibilidad y el estado de la infraestructura y las aplicaciones.

Casos de uso

GraphRAG facilita la recuperación inteligente de datos para casos de uso en diversos sectores. En esta sección, se describen algunos casos de uso en los sectores de la salud, las finanzas, los servicios legales y la manufactura.

Cuidado de la salud y productos farmacéuticos: Asistencia para decisiones clínicas

En los sistemas de asistencia para la toma de decisiones clínicas, GraphRAG integra grandes cantidades de datos de la literatura médica, las historias clínicas electrónicas de los pacientes, las bases de datos de interacciones entre medicamentos y los resultados de los ensayos clínicos en un gráfico de conocimiento unificado. Cuando los profesionales clínicos y los investigadores consultan los síntomas y los medicamentos actuales de un paciente, GraphRAG recorre el gráfico de conocimiento para identificar afecciones pertinentes y posibles interacciones farmacológicas. También puede generar recomendaciones de tratamiento personalizadas basadas en otros datos, como el perfil genético del paciente. Este tipo de recuperación de información proporciona respuestas más enriquecidas contextualmente y basadas en evidencia que la concordancia de palabras clave.

Servicios financieros: Unificación de datos financieros

Las empresas de servicios financieros usan gráficos de conocimiento para brindarles a sus analistas una vista unificada y estructurada de los datos de fuentes dispares, como informes de analistas, llamadas de ganancias y evaluaciones de riesgos. Los gráficos de conocimiento identifican entidades de datos clave, como empresas y ejecutivos, y asignan las relaciones cruciales entre las entidades. Este enfoque proporciona una red de datos enriquecida y conectada, lo que permite un análisis financiero más profundo y eficiente. Los analistas pueden descubrir estadísticas que antes estaban ocultas, como las intrincadas dependencias de la cadena de suministro, los miembros de la junta que se superponen entre los competidores y la exposición a riesgos geopolíticos complejos.

Servicios legales: Investigación de casos y análisis de precedentes

En el sector legal, GraphRAG se puede usar para generar recomendaciones legales personalizadas basadas en precedentes, estatutos, jurisprudencia, actualizaciones reglamentarias y documentos internos. Cuando los abogados se preparan para los casos, pueden hacer preguntas detalladas sobre argumentos legales específicos, fallos anteriores en casos similares o las implicaciones de la nueva legislación. GraphRAG aprovecha la interconexión del conocimiento jurídico disponible para identificar precedentes pertinentes y explicar su aplicabilidad. También puede sugerir contraargumentos rastreando las relaciones entre conceptos legales, estatutos e interpretaciones judiciales. Con este enfoque, los profesionales del derecho pueden obtener estadísticas más completas y precisas que con los métodos convencionales de recuperación de conocimiento.

Fabricación y cadena de suministro: Cómo desbloquear el conocimiento institucional

Las operaciones de fabricación y cadena de suministro requieren un alto grado de precisión. El conocimiento necesario para mantener el nivel de precisión requerido suele estar oculto en miles de documentos densos y estáticos de Procedimientos Operativos Estándar (SOP). Cuando falla una línea de producción o una máquina en una fábrica, o si se produce un problema logístico, los ingenieros y técnicos suelen perder tiempo valioso buscando en documentos PDF desconectados para diagnosticar y solucionar el problema. Los gráficos de conocimiento y la IA conversacional se pueden combinar para convertir el conocimiento institucional oculto en un socio de diagnóstico interactivo.

Alternativas de diseño

La arquitectura que se describe en este documento es modular. Puedes adaptar ciertos componentes de la arquitectura para usar productos, herramientas y tecnologías alternativos según tus requisitos.

Cómo compilar el gráfico de conocimiento

Puedes usar la herramienta LLMGraphTransformer de LangChain para crear un gráfico de conocimiento desde cero. Si especificas el esquema del gráfico con parámetros LLMGraphTransformer, como allowed_nodes, allowed_relationships, node_properties y relationship_properties, puedes mejorar la calidad del gráfico de conocimiento resultante. Sin embargo, LLMGraphTransformer podría extraer entidades de dominios genéricos, por lo que podría no ser adecuado para dominios de nicho, como el de la atención médica o el farmacéutico. Además, si tu organización ya tiene un proceso sólido para compilar gráficos de conocimiento, el subsistema de transferencia de datos que se muestra en esta arquitectura de referencia es opcional.

Almacenar el gráfico de conocimiento y los embeddings vectoriales

La arquitectura de este documento usa Spanner como almacén de datos para el gráfico de conocimiento y los embeddings de vectores. Si tus grafos de conocimiento empresariales ya existen en otro lugar (como en una plataforma como Neo4j), puedes considerar usar una base de datos de vectores para las incorporaciones. Sin embargo, este enfoque requiere un esfuerzo de administración adicional y podría costar más. Spanner proporciona un almacén de datos consolidado y coherente a nivel global para las estructuras de grafos y las incorporaciones de vectores. Este tipo de almacén de datos permite una administración unificada de los datos, lo que ayuda a optimizar el costo, el rendimiento, la administración de la seguridad y la eficiencia operativa.

Tiempo de ejecución del agente

En esta arquitectura de referencia, el agente se implementa en Vertex AI Agent Engine, que proporciona un entorno de ejecución administrado para agentes de IA. Otras opciones que puedes considerar incluyen Cloud Run y Google Kubernetes Engine (GKE). El análisis de esas opciones está fuera del alcance de este documento.

Fundamentación con RAG

Como se analizó en la sección Casos de uso, GraphRAG permite la recuperación inteligente de datos para la fundamentación en muchas situaciones. Sin embargo, si los datos de origen que usas para aumentar las instrucciones no tienen interrelaciones complejas, la RAG podría ser una opción adecuada para tu aplicación de IA generativa.

En las siguientes arquitecturas de referencia, se muestra cómo puedes compilar la infraestructura necesaria para RAG en Google Cloud con bases de datos administradas habilitadas para vectores o productos especializados de búsqueda de vectores:

Consideraciones del diseño

En esta sección, se describen los factores de diseño, las prácticas recomendadas y las recomendaciones que debes tener en cuenta cuando usas esta arquitectura de referencia para desarrollar una topología que cumpla con tus requisitos específicos de seguridad, confiabilidad, costo y rendimiento.

La guía de esta sección no está completa. Según los requisitos de tu carga de trabajo y los productos y funciones de Google Cloud y de terceros que uses, es posible que debas considerar factores de diseño y compensaciones adicionales.

Security, privacy, and compliance

En esta sección, se describen las consideraciones y recomendaciones de diseño para crear una topología en Google Cloud que cumpla con los requisitos de seguridad y cumplimiento de tu carga de trabajo.

Producto	Consideraciones y recomendaciones de diseño
Vertex AI	Vertex AI admite Google Cloud controles de seguridad que puedes usar para cumplir con tus requisitos de residencia de datos, encriptación de datos, seguridad de red y transparencia de acceso. Para obtener más información, consulta la siguiente documentación: Controles de seguridad para Vertex AI Controles de seguridad para la IA generativa IA generativa y administración de datos Los modelos de IA generativa pueden producir respuestas dañinas, en especial cuando se les solicita explícitamente que lo hagan. Para mejorar la seguridad y mitigar el posible uso inadecuado, puedes configurar filtros de contenido que actúen como barreras para las respuestas dañinas. Para obtener más información, consulta Filtros de seguridad y contenido.
Spanner Graph	De forma predeterminada, los datos que se almacenan en Spanner Graph se encriptan con Google-owned and Google-managed encryption keys. Si necesitas usar claves de encriptación que controlas y administras, puedes usar claves de encriptación administradas por el cliente (CMEK). Para obtener más información, consulta Acerca de CMEK.
Funciones de Cloud Run	De forma predeterminada, Cloud Run encripta los datos con Google-owned and Google-managed encryption keys. Para proteger tus contenedores con claves que controlas, puedes usar CMEK. Para obtener más información, consulta Usa claves de encriptación administradas por el cliente. Para garantizar que solo se implementen imágenes de contenedor autorizadas en Cloud Run, puedes usar la Autorización Binaria. Cloud Run te ayuda a cumplir con los requisitos de residencia de datos. Tus Cloud Run Functions se ejecutan dentro de la región seleccionada.
Cloud Storage	De forma predeterminada, los datos que se almacenan en Cloud Storage se encriptan con Google-owned and Google-managed encryption keys. Si es necesario, puedes usar CMEK o tus propias claves que administres con un método de administración externo, como las claves de encriptación proporcionadas por el cliente (CSEK). Para obtener más información, consulta Opciones de encriptación de datos. Cloud Storage admite dos sistemas para otorgar permiso a los usuarios para acceder a tus buckets y objetos: Identity and Access Management (IAM) y las listas de control de acceso (LCA). En la mayoría de los casos, recomendamos usar IAM, que te permite otorgar permisos a nivel de proyecto y de bucket. Para obtener más información, consulta Descripción general del control de acceso. Los datos que cargas en el subsistema de transferencia de datos a través de Cloud Storage pueden incluir datos sensibles. Puedes usar Sensitive Data Protection para descubrir, clasificar y desidentificar datos sensibles. Para obtener más información, consulta Usa la Protección de datos sensibles con Cloud Storage. Cloud Storage te ayuda a cumplir con los requisitos de residencia de datos. Los datos se almacenan o replican dentro de la región que especifiques.
Pub/Sub	De forma predeterminada, Pub/Sub encripta todos los mensajes, tanto en reposo como en tránsito, con Google-owned and Google-managed encryption keys. Pub/Sub admite el uso de CMEK para la encriptación de mensajes en la capa de aplicación. Para obtener más información, consulta Configura la encriptación de mensajes. Si tienes requisitos de residencia de datos, para asegurarte de que los datos de los mensajes se almacenen en ubicaciones específicas, puedes configurar políticas de almacenamiento de mensajes.
Cloud Logging	Los registros de auditoría de actividad del administrador están habilitados de forma predeterminada para todos los servicios de Google Cloud que se usan en esta arquitectura de referencia. En estos registros, se asientan las llamadas a la API y otras acciones que modifican la configuración o los metadatos de los recursos deGoogle Cloud . Para los servicios de Google Cloud que se usan en esta arquitectura, puedes habilitar los registros de auditoría de acceso a los datos. Estos registros te permiten realizar un seguimiento de las llamadas a la API que leen la configuración o los metadatos de los recursos o las solicitudes del usuario para crear, modificar o leer datos de los recursos que proporciona el usuario. Para cumplir con los requisitos de residencia de datos, puedes configurar Cloud Logging para almacenar datos de registro en la región que especifiques. Para obtener más información, consulta Regionaliza tus registros.

Para conocer los principios y las recomendaciones de seguridad específicos de las cargas de trabajo de IA y AA, consulta la perspectiva de IA y AA: seguridad en el Google Cloud Framework de Well-Architected.

Confiabilidad

En esta sección, se describen las consideraciones y recomendaciones de diseño para compilar y operar una infraestructura confiable para tu implementación en Google Cloud.

Producto	Consideraciones y recomendaciones de diseño
Vertex AI	Vertex AI admite la cuota compartida dinámica (DSQ) para los modelos de Gemini. El DSQ ayuda a administrar de forma flexible las solicitudes de pago por uso y elimina la necesidad de administrar la cuota de forma manual o solicitar aumentos de cuota. El DSQ asigna de forma dinámica los recursos disponibles para un modelo y una región determinados entre los clientes activos. Con DSQ, no hay límites de cuota predefinidos para los clientes individuales. Si la cantidad de solicitudes supera la capacidad asignada, se muestra el código de error 429. Para las cargas de trabajo que son fundamentales para la empresa y requieren constantemente una capacidad de procesamiento alta, puedes reservar capacidad de procesamiento con la capacidad de procesamiento aprovisionada. Si los datos se pueden compartir en varias regiones o países, puedes usar un extremo global.
Spanner Graph	Spanner está diseñado para una alta disponibilidad de datos y escalabilidad global. Para ayudar a garantizar la disponibilidad incluso durante una interrupción regional, Spanner ofrece configuraciones multirregionales, que replican los datos en varias zonas de varias regiones. Además de estas capacidades de resiliencia integradas, Spanner proporciona las siguientes funciones para admitir estrategias integrales de recuperación ante desastres: Protección contra la eliminación de bases de datos Sólidas capacidades de copia de seguridad y restablecimiento, incluidas las copias programadas y entre regiones Recuperación de un momento determinado (PITR) para proteger contra la corrupción lógica de datos, errores del operador o escrituras accidentales durante un máximo de siete días Para obtener más información, consulta Descripción general de la recuperación ante desastres.
Funciones de Cloud Run	Cloud Run es un servicio regional. Los datos se almacenan de forma síncrona en varias zonas dentro de una región. Las cargas del tráfico se balancean automáticamente entre las zonas. Si se produce una interrupción zonal, Cloud Run continuará ejecutándose y los datos no se perderán. Si se produce una interrupción regional, el servicio deja de ejecutarse hasta que Google resuelva la interrupción.
Cloud Storage	Puedes crear buckets de Cloud Storage en uno de los tres tipos de ubicación: regional, birregional o multirregión. Los datos que se almacenan en buckets regionales se replican de forma síncrona en varias zonas dentro de una región. Para obtener una mayor disponibilidad, puedes usar buckets birregionales o multirregionales, en los que los datos se replican de manera asíncrona en todas las regiones.
Pub/Sub	Para evitar errores durante los períodos de aumentos transitorios en el tráfico de mensajes, puedes limitar la frecuencia de solicitudes de publicación configurando el control de flujo en la configuración del publicador. Para controlar los intentos de publicación con errores, ajusta las variables de solicitud de reintento según sea necesario. Para obtener más información, consulta Reintenta solicitudes.
Todos los productos de la arquitectura	Después de implementar tu carga de trabajo en Google Cloud, usa Active Assist para obtener recomendaciones que te permitan optimizar aún más la confiabilidad de tus recursos de la nube. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta Cómo encontrar recomendaciones en Active Assist.

Para conocer los principios y las recomendaciones de confiabilidad específicos de las cargas de trabajo de IA y AA, consulta Perspectiva de IA y AA: Confiabilidad en Well-Architected Framework.

Optimización de costos

En esta sección, se proporciona orientación para optimizar el costo de configurar y operar una topología de Google Cloud que compilas a través de esta arquitectura de referencia.

Producto	Consideraciones y recomendaciones de diseño
Vertex AI	Para analizar y administrar los costos de Vertex AI, te recomendamos que crees un valor de referencia de las consultas por segundo (QPS) y los tokens por segundo (TPS), y que supervises estas métricas después de la implementación. La referencia también ayuda con la planificación de la capacidad. Por ejemplo, el valor de referencia te ayuda a determinar cuándo es necesaria la capacidad de procesamiento aprovisionada. Seleccionar el modelo adecuado para tu aplicación de IA generativa es una decisión fundamental que afecta directamente los costos y el rendimiento. Para identificar el modelo que proporciona un equilibrio óptimo entre el rendimiento y el costo para tu caso de uso específico, prueba los modelos de forma iterativa. Te recomendamos que comiences con el modelo más rentable y que avances gradualmente hacia opciones más potentes. La longitud de tus instrucciones (entrada) y las respuestas generadas (salida) afectan directamente el rendimiento y el costo. Escribe instrucciones que sean breves, directas y proporcionen contexto suficiente. Diseña tus instrucciones para obtener respuestas concisas del modelo. Por ejemplo, incluye frases como "resume en 2 oraciones" o "enumera 3 puntos clave". Para obtener más información, consulta las prácticas recomendadas para el diseño de instrucciones. Para reducir el costo de las solicitudes que contienen contenido repetido con altos recuentos de tokens de entrada, usa el almacenamiento de contexto en caché. Cuando sea pertinente, considera la predicción por lotes. Las solicitudes por lotes se facturan a un precio más bajo que las solicitudes estándares.
Spanner Graph	Usa el escalador automático administrado para ajustar de forma dinámica la capacidad de procesamiento de las bases de datos de grafos de Spanner en función del uso de CPU y las necesidades de almacenamiento. A menudo, se requiere una capacidad mínima, incluso para cargas de trabajo pequeñas. Para obtener capacidad de procesamiento predecible, estable o de referencia, compra descuentos por compromiso de uso (CUD). Los CUD ofrecen descuentos significativos a cambio de comprometerse a una determinada inversión por hora en capacidad de procesamiento. Cuando copies copias de seguridad a diferentes regiones para la recuperación ante desastres o el cumplimiento, ten en cuenta los costos de salida de red. Para ayudar a reducir los costos, copia solo las copias de seguridad esenciales.
Funciones de Cloud Run	Cuando creas funciones de Cloud Run, puedes especificar la cantidad de memoria y CPU que se asignarán. Para controlar los costos, comienza con las asignaciones de CPU y memoria predeterminadas (mínimas). Para mejorar el rendimiento, puedes aumentar la asignación configurando el límite de CPU y el límite de memoria. Para obtener más información, consulta la siguiente documentación: Configura límites de memoria para los servicios Configura los límites de CPU para los servicios Si puedes predecir los requisitos de CPU y memoria, puedes ahorrar dinero con los CUD.
Cloud Storage	Para el bucket de Cloud Storage en el subsistema de transferencia de datos, elige una clase de almacenamiento adecuada según los requisitos de tu carga de trabajo para la retención de datos y la frecuencia de acceso. Por ejemplo, para controlar los costos de almacenamiento, puedes elegir la clase Standard y usar la Administración del ciclo de vida de los objetos. Este enfoque permite cambiar automáticamente los objetos a una clase de almacenamiento de menor costo o borrarlos automáticamente según las condiciones especificadas.
Cloud Logging	Para controlar el costo de almacenamiento de registros, puedes hacer lo siguiente: Reduce el volumen de los registros excluyendo o filtrando las entradas de registro innecesarias. Para obtener más información, consulta Filtros de exclusión. Reduce el período de retención de registros. Para obtener más información, consulta Configura la retención personalizada.
Todos los productos de la arquitectura	Después de implementar tu carga de trabajo en Google Cloud, usa Active Assist para obtener recomendaciones que te permitan optimizar aún más el costo de tus recursos de la nube. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta Cómo encontrar recomendaciones en Active Assist.

Para estimar el costo de tus recursos de Google Cloud , usa la Google Cloud calculadora de precios.

Para conocer los principios y las recomendaciones de optimización de costos específicos para las cargas de trabajo de IA y AA, consulta Perspectiva de IA y AA: Optimización de costos en el Framework de Well-Architected.

Optimización del rendimiento

En esta sección, se describen las consideraciones y recomendaciones de diseño para crear una topología en Google Cloud que cumpla con los requisitos de rendimiento de tus cargas de trabajo.

Producto	Consideraciones y recomendaciones de diseño
Vertex AI	Seleccionar el modelo adecuado para tu aplicación de IA generativa es una decisión fundamental que afecta directamente los costos y el rendimiento. Para identificar el modelo que proporciona un equilibrio óptimo entre el rendimiento y el costo para tu caso de uso específico, prueba los modelos de forma iterativa. Te recomendamos que comiences con el modelo más rentable y que avances gradualmente hacia opciones más potentes. La longitud de tus instrucciones (entrada) y las respuestas generadas (salida) afectan directamente el rendimiento y el costo. Escribe instrucciones que sean breves, directas y proporcionen contexto suficiente. Diseña tus instrucciones para obtener respuestas concisas del modelo. Por ejemplo, incluye frases como "resume en 2 oraciones" o "enumera 3 puntos clave". Para obtener más información, consulta las prácticas recomendadas para el diseño de instrucciones. El optimizador de instrucciones de Vertex AI te permite mejorar y optimizar rápidamente el rendimiento de las instrucciones a gran escala, y elimina la necesidad de volver a escribirlas de forma manual. El optimizador te ayuda a adaptar las instrucciones de manera eficiente en diferentes modelos.
Spanner Graph	Si deseas obtener recomendaciones para optimizar el rendimiento de Spanner Graph, consulta la siguiente documentación: Prácticas recomendadas para diseñar un esquema de Spanner Graph Prácticas recomendadas para optimizar las consultas de Spanner Graph
Funciones de Cloud Run	De forma predeterminada, a cada instancia de función de Cloud Run se le asigna una CPU y 256 MiB de memoria. Según tus requisitos de rendimiento, puedes configurar límites de CPU y memoria. Para obtener más información, consulta la siguiente documentación: Configura límites de memoria para los servicios Configura los límites de CPU para los servicios Para obtener más orientación sobre la optimización del rendimiento, consulta Sugerencias generales para el desarrollo de Cloud Run.
Cloud Storage	Para subir archivos grandes, puedes usar cargas compuestas en paralelo. Con esta estrategia, el archivo grande se divide en fragmentos. Los fragmentos se suben a Cloud Storage en paralelo y, luego, los datos se recomponen en la nube. Cuando el ancho de banda de la red y la velocidad del disco no son factores limitantes, las cargas compuestas paralelas pueden ser más rápidas que las operaciones de carga normales. Sin embargo, esta estrategia tiene algunas implicaciones de costos y limitaciones. Para obtener más información, consulta Cargas compuestas paralelas.
Todos los productos de la arquitectura	Después de implementar tu carga de trabajo en Google Cloud, usa Active Assist para obtener recomendaciones que te permitan optimizar aún más el rendimiento de tus recursos de la nube. Revisa las recomendaciones y aplícalas según corresponda a tu entorno. Para obtener más información, consulta Cómo encontrar recomendaciones en Active Assist.

Si deseas conocer los principios y las recomendaciones de optimización del rendimiento específicos para las cargas de trabajo de IA y AA, consulta Perspectiva de IA y AA: Optimización del rendimiento en el Framework de Well-Architected.

Implementación

Para explorar cómo funciona GraphRAG en Google Cloud, descarga y ejecuta el siguiente notebook de Jupyter desde GitHub:GraphRAG on Google Cloud With Spanner Graph and Vertex AI Agent Engine.

¿Qué sigue?

Crea aplicaciones de GraphRAG con Spanner Graph y LangChain
Elige modelos y la infraestructura para tus aplicaciones de IA generativa
Infraestructura de RAG para IA generativa con Vertex AI y Vector Search
Infraestructura de RAG para IA generativa con Vertex AI y AlloyDB para PostgreSQL
Infraestructura de RAG para IA generativa con GKE y Cloud SQL
Infraestructura de RAG para IA generativa con Google Agentspace y Vertex AI
Para obtener información sobre los principios y las recomendaciones de arquitectura para las cargas de trabajo de IA en Google Cloud, consulta el Marco de Well-Architected: perspectiva de IA y AA.
Para obtener más información sobre las arquitecturas de referencia, los diagramas y las prácticas recomendadas, explora Cloud Architecture Center.

Colaboradores

Autores:

Tristan Li | Arquitecto principal, IA/AA
Autor: Kumar Dhanagopal | Desarrollador de soluciones entre productos

Otros colaboradores:

Ahsif Sheikh | Ingeniero de Atención al Cliente de IA
Ashish Chauhan | Ingeniero de Atención al Cliente de IA
Greg Brosman | Gerente de producto
Lukas Bruderer | Gerente de producto, IA de Cloud
Nanditha Embar | Ingeniera de Atención al Cliente de IA
Piyush Mathur | Gerente de producto, Spanner
Smitha Venkat | Ingeniera de Atención al Cliente de IA