Esta página foi traduzida pela API Cloud Translation.

Infraestrutura do GraphRAG para IA generativa usando a Vertex AI e o Spanner Graph

Last reviewed 2025-07-01 UTC

Este documento fornece uma arquitetura de referência para ajudar você a projetar infraestrutura para aplicativos de IA generativa GraphRAG em Google Cloud. O público-alvo inclui arquitetos, desenvolvedores e administradores que criam e gerenciam sistemas inteligentes de recuperação de informações. Este documento pressupõe um entendimento básico de IA, gerenciamento de dados de gráficos e conceitos de mapa de informações. Este documento não oferece orientações específicas para projetar e desenvolver aplicativos GraphRAG.

O GraphRAG é uma abordagem baseada em gráficos para a geração aumentada de recuperação (RAG). A RAG ajuda a embasar as respostas geradas por IA, aumentando os comandos com dados contextualmente relevantes recuperados usando a pesquisa vetorial. O GraphRAG combina a pesquisa vetorial com uma consulta de mapa de informações para recuperar dados contextuais que refletem melhor a interconexão de dados de diversas fontes. Os comandos aumentados com o GraphRAG podem gerar respostas de IA mais detalhadas e relevantes.

Arquitetura

O diagrama a seguir mostra uma arquitetura para um aplicativo de IA generativa com capacidade de GraphRAG em Google Cloud:

Os fluxos de ingestão e disponibilização de dados na arquitetura.

A arquitetura no diagrama anterior consiste em dois subsistemas: ingestão e exibição de dados. As seções a seguir descrevem a finalidade dos subsistemas e o fluxo de dados dentro e entre eles.

Subsistema de ingestão de dados

O subsistema de ingestão de dados ingere dados de fontes externas e os prepara para o GraphRAG. O fluxo de ingestão e preparação de dados envolve as seguintes etapas:

Os dados são ingeridos em um bucket do Cloud Storage. Esses dados podem ser enviados por um analista de dados, ingeridos de um banco de dados ou transmitidos de qualquer fonte.
Quando os dados são ingeridos, uma mensagem é enviada para um tópico do Pub/Sub.
O Pub/Sub aciona uma função do Cloud Run para processar os dados enviados.
A função do Cloud Run cria um grafo de conhecimento com base nos arquivos de entrada usando a API Gemini na Vertex AI e ferramentas como o LLMGraphTransformer do LangChain.
A função armazena o Mapa de informações em um banco de dados de gráficos do Spanner.
A função segmenta o conteúdo textual dos arquivos de dados em unidades granulares usando ferramentas como o RecursiveCharacterTextSplitter da LangChain ou o analisador de layout da Document AI.
A função cria embeddings de vetor dos segmentos de texto usando as APIs Embeddings da Vertex AI.
A função armazena os embeddings de vetor e os nós de gráfico associados no Spanner Graph.

Os embeddings de vetor servem como base para a recuperação semântica. Os nós do grafo de conhecimento permitem o percurso e a análise de relações e padrões de dados complexos.

Subsistema de veiculação

O subsistema de disponibilização gerencia o ciclo de vida de consulta-resposta entre o aplicativo de IA generativa e os usuários. O fluxo de veiculação envolve as seguintes etapas:

Um usuário envia uma consulta em linguagem natural para um agente de IA implantado no Vertex AI Agent Engine.
O agente processa a consulta da seguinte maneira:<br>
1. Converte a consulta em embeddings de vetor usando as APIs Embeddings da Vertex AI.
2. Recupera nós de gráfico relacionados à consulta realizando uma pesquisa de similaridade vetorial no banco de dados de embeddings.
3. Recupera dados relacionados à consulta percorrendo o gráfico de conhecimento.
4. Aumenta o comando combinando a consulta original com os dados do gráfico recuperados.
5. Usa a API Ranking da Vertex AI para Pesquisa para classificar os resultados, que consistem em nós e arestas recuperados do banco de dados de gráficos. A classificação é baseada na relevância semântica para a consulta.
6. Resume os resultados chamando a API Gemini da Vertex AI.
Em seguida, o agente envia o resultado resumido para o usuário.

É possível armazenar e ver registros de atividade de consulta-resposta no Cloud Logging e configurar o monitoramento com base em registros usando o Cloud Monitoring.

Produtos usados

Esta arquitetura de referência usa os seguintes produtos e ferramentas do Google:

Gráfico do Spanner: um banco de dados de gráficos que oferece os recursos de escalonabilidade, disponibilidade e consistência do Spanner.
Vertex AI: uma plataforma de ML que permite treinar e implantar modelos de ML e aplicativos de IA, além de personalizar LLMs para uso em aplicativos com tecnologia de IA.
Funções do Cloud Run: uma plataforma de computação sem servidor que permite executar funções de propósito único diretamente no Google Cloud.
Cloud Storage: um armazenamento de objetos de baixo custo e sem limite para diversos tipos de dados. Os dados podem ser acessados de dentro e fora Google Cloude são replicados entre locais para redundância.
Pub/Sub: um serviço de mensagens assíncrono e escalonável que separa os serviços que produzem mensagens daqueles que processam essas mensagens.
Cloud Logging: um sistema de gerenciamento de registros em tempo real com armazenamento, pesquisa, análise e alertas.
Cloud Monitoring: um serviço que fornece visibilidade do desempenho, da disponibilidade e da integridade dos aplicativos e da infraestrutura.

Casos de uso

O GraphRAG facilita a recuperação inteligente de dados para casos de uso em vários setores. Esta seção descreve alguns casos de uso nas áreas de saúde, finanças, serviços jurídicos e manufatura.

Saúde e produtos farmacêuticos: suporte à decisão clínica

Em sistemas de suporte a decisões clínicas, o GraphRAG integra grandes quantidades de dados da literatura médica, registros eletrônicos de saúde de pacientes, bancos de dados de interação medicamentosa e resultados de ensaios clínicos em um mapa de informações unificado. Quando médicos e pesquisadores consultam os sintomas e os medicamentos atuais de um paciente, o GraphRAG percorre o mapa de informações para identificar condições relevantes e possíveis interações medicamentosas. Ela também pode gerar recomendações de tratamento personalizadas com base em outros dados, como o perfil genético do paciente. Esse tipo de recuperação de informações fornece respostas mais ricas em contexto e baseadas em evidências do que a correspondência de palavras-chave.

Serviços financeiros: unificação de dados financeiros

As empresas de serviços financeiros usam gráficos de conhecimento para oferecer aos analistas uma visão unificada e estruturada de dados de fontes diferentes, como relatórios de analistas, conferências de resultados e avaliações de risco. Os gráficos de informações identificam entidades de dados importantes, como empresas e executivos, e mapeiam as relações cruciais entre elas. Essa abordagem oferece uma rede de dados rica e interconectada, que permite uma análise financeira mais eficiente e detalhada. Os analistas podem descobrir insights antes ocultos, como dependências complexas da cadeia de suprimentos, membros do conselho que se sobrepõem entre concorrentes e exposição a riscos geopolíticos complexos.

Serviços jurídicos: pesquisa de casos e análise de precedentes

No setor jurídico, o GraphRAG pode ser usado para gerar recomendações legais personalizadas com base em precedentes, estatutos, jurisprudência, atualizações regulatórias e documentos internos. Ao se preparar para casos, os advogados podem fazer perguntas detalhadas sobre argumentos jurídicos específicos, decisões anteriores em casos semelhantes ou as implicações de novas legislações. O GraphRAG aproveita a interconexão do conhecimento jurídico disponível para identificar precedentes relevantes e explicar a aplicabilidade deles. Ele também pode sugerir contra-argumentos rastreando as relações entre conceitos jurídicos, leis e interpretações judiciais. Com essa abordagem, os profissionais do direito podem ter insights mais completos e precisos do que os métodos convencionais de recuperação de conhecimento.

Manufatura e cadeia de suprimentos: como desbloquear o conhecimento institucional

As operações de fabricação e cadeia de suprimentos exigem um alto grau de precisão. O conhecimento necessário para manter o nível de precisão exigido geralmente está em milhares de documentos densos e estáticos de procedimentos operacionais padrão (POP). Quando uma linha de produção ou uma máquina em uma fábrica falha, ou se ocorre um problema logístico, engenheiros e técnicos muitas vezes perdem tempo procurando em documentos PDF desconectados para diagnosticar e resolver o problema. Os mapas de informações e a IA de conversação podem ser combinados para transformar o conhecimento institucional em um parceiro de diagnóstico interativo.

Alternativas de design

A arquitetura descrita neste documento é modular. É possível adaptar alguns componentes da arquitetura para usar produtos, ferramentas e tecnologias alternativas, dependendo dos seus requisitos.

Como criar o mapa de informações

Você pode usar a ferramenta LLMGraphTransformer do LangChain para criar um gráfico de conhecimento do zero. Ao especificar o esquema do gráfico com parâmetros LLMGraphTransformer, como allowed_nodes, allowed_relationships, node_properties e relationship_properties, é possível melhorar a qualidade do gráfico de conhecimento resultante. No entanto, LLMGraphTransformer pode extrair entidades de domínios genéricos, então talvez não seja adequado para domínios de nicho, como saúde ou produtos farmacêuticos. Além disso, se a organização já tiver um processo robusto para criar grafos de conhecimento, o subsistema de ingestão de dados mostrado nesta arquitetura de referência será opcional.

Armazenar o mapa de informações e os embeddings de vetores

A arquitetura neste documento usa o Spanner como o repositório de dados para o gráfico de conhecimento e os embeddings de vetores. Se os gráficos de conhecimento da sua empresa já existirem em outro lugar (como em uma plataforma como Neo4j), considere usar um banco de dados de vetores para os embeddings. No entanto, essa abordagem exige mais esforço de gerenciamento e pode custar mais. O Spanner oferece um repositório de dados consolidado e globalmente consistente para estruturas de gráficos e incorporações de vetores. Esse repositório permite o gerenciamento unificado de dados, o que ajuda a otimizar o custo, o desempenho, a governança de segurança e a eficiência operacional.

Tempo de execução do agente

Nesta arquitetura de referência, o agente é implantado no Vertex AI Agent Engine, que fornece um ambiente de execução gerenciado para agentes de IA. Outras opções que você pode considerar incluem o Cloud Run e o Google Kubernetes Engine (GKE). Uma discussão dessas opções está fora do escopo deste documento.

Embasamento usando RAG

Como discutido na seção Casos de uso, o GraphRAG permite a recuperação inteligente de dados para fundamentação em muitos cenários. No entanto, se os dados de origem usados para aumentar os comandos não tiverem inter-relações complexas, a RAG poderá ser uma opção adequada para seu aplicativo de IA generativa.

As arquiteturas de referência a seguir mostram como criar a infraestrutura necessária para RAG em Google Cloud usando bancos de dados gerenciados habilitados para vetores ou produtos especializados de pesquisa vetorial:

Considerações sobre o design

Nesta seção, descrevemos fatores de design, práticas recomendadas e recomendações a serem consideradas ao usar essa arquitetura de referência para desenvolver uma topologia que atenda aos seus requisitos específicos de segurança, confiabilidade, custo e desempenho.

As orientações desta seção não são completas. Dependendo dos requisitos da sua carga de trabalho e dos produtos e recursos do Google Cloud e de terceiros que você usa, pode haver outros fatores de design e compensações que você precisa considerar.

segurança, privacidade e conformidade

Nesta seção, descrevemos considerações e recomendações de design para criar uma topologia no Google Cloud que atenda aos requisitos de segurança e conformidade da sua carga de trabalho.

Produto	Considerações e recomendações de design
Vertex AI	A Vertex AI é compatível com controles de Google Cloud segurança que podem ser usados para atender aos seus requisitos de residência de dados, criptografia de dados, segurança de rede e transparência no acesso. Para mais informações, consulte a seguinte documentação: Controles de segurança para a Vertex AI Controles de segurança para IA generativa IA generativa e governança de dados Os modelos de IA generativa podem produzir respostas prejudiciais, especialmente quando são explicitamente solicitados a isso. Para aumentar a segurança e reduzir o risco de uso indevido, configure filtros de conteúdo para agir como barreiras contra respostas nocivas. Para mais informações, consulte Filtros de segurança e conteúdo.
Spanner Graph	Por padrão, os dados armazenados no Spanner Graph são criptografados usando Google-owned and Google-managed encryption keys. Se você precisar usar chaves de criptografia controladas e gerenciadas por você, use as chaves de criptografia gerenciadas pelo cliente (CMEKs). Para mais informações, consulte Sobre a CMEK.
Funções do Cloud Run	Por padrão, o Cloud Run criptografa os dados usando Google-owned and Google-managed encryption keys. Para proteger seus contêineres usando chaves controladas por você, use CMEKs. Para mais informações, consulte Como usar chaves de criptografia gerenciadas pelo cliente. Para garantir que apenas imagens de contêiner autorizadas sejam implantadas no Cloud Run, use a autorização binária. O Cloud Run ajuda você a atender aos requisitos de residência de dados. As funções do Cloud Run são executadas na região selecionada.
Cloud Storage	Por padrão, os dados armazenados no Cloud Storage são criptografados com Google-owned and Google-managed encryption keys. Se necessário, use CMEKs ou suas próprias chaves gerenciadas utilizando um método de gerenciamento externo, como chaves de criptografia fornecidas pelo cliente (CSEKs). Para mais informações, consulte Opções de criptografia de dados. O Cloud Storage é compatível com dois métodos para conceder aos usuários acesso aos buckets e objetos: Identity and Access Management (IAM) e listas de controle de acesso (ACLs). Na maioria dos casos, recomendamos usar o IAM, que permite conceder permissões no nível do bucket e do projeto. Para mais informações, consulte Visão geral do controle de acesso. Os dados carregados no subsistema de ingestão de dados pelo Cloud Storage podem incluir dados sensíveis. Use a Proteção de Dados Sensíveis para descobrir, classificar e desidentificar dados sensíveis. Para mais informações, consulte Como usar a Proteção de Dados Sensíveis com o Cloud Storage. O Cloud Storage ajuda você a atender aos requisitos de residência de dados. Os dados são armazenados ou replicados na região especificada.
Pub/Sub	Por padrão, o Pub/Sub criptografa todas as mensagens, em repouso e em trânsito, usando Google-owned and Google-managed encryption keys. O Pub/Sub pode usar CMEKs para criptografia de mensagens na camada do aplicativo. Para mais informações, consulte Configurar a criptografia de mensagens. Se você tiver requisitos de residência de dados, para garantir que os dados das mensagens sejam armazenados em locais específicos, configure políticas de armazenamento de mensagens.
Cloud Logging	Os registros de auditoria de atividades do administrador são ativados por padrão para todos os serviços do Google Cloud usados nesta arquitetura de referência. Esses registros gravam chamadas de API ou outras ações que modificam a configuração ou os metadados de recursos doGoogle Cloud . Para os serviços do Google Cloud usados nesta arquitetura, é possível ativar os registros de auditoria de acesso a dados. Com eles, é possível rastrear chamadas de API que leem a configuração ou os metadados de recursos ou solicitações de usuários para criar, modificar ou ler dados de recursos fornecidos pelo usuário. Para ajudar a atender aos requisitos de residência de dados, configure o Cloud Logging para armazenar dados de registro na região especificada. Para mais informações, consulte Regionalizar seus registros.

Para princípios e recomendações de segurança específicos para cargas de trabalho de IA e ML, consulte Perspectiva de IA e ML: segurança no Google Cloud Well-Architected Framework.

Confiabilidade

Esta seção descreve considerações e recomendações de design para criar e operar uma infraestrutura confiável para sua implantação em Google Cloud.

Produto	Considerações e recomendações de design
Vertex AI	A Vertex AI oferece suporte à cota compartilhada dinâmica (DSQ, na sigla em inglês) para modelos do Gemini. O DSQ ajuda a gerenciar de maneira flexível as solicitações de pagamento por uso e elimina a necessidade de gerenciar a cota manualmente ou solicitar aumentos. A DSQ aloca dinamicamente os recursos disponíveis para um determinado modelo e região entre os clientes ativos. Com o DSQ, não há limites de cota predefinidos para clientes individuais. Se o número de solicitações exceder a capacidade alocada, o código de erro 429 será retornado. Para cargas de trabalho essenciais para os negócios e que exigem consistentemente alta capacidade de processamento, é possível reservar a capacidade de processamento usando a capacidade de processamento provisionada. Se os dados puderem ser compartilhados em várias regiões ou países, use um endpoint global.
Spanner Graph	O Spanner foi projetado para alta disponibilidade de dados e escalonabilidade global. Para garantir a disponibilidade mesmo durante uma interrupção regional, o Spanner oferece configurações multirregionais, que replicam dados em várias zonas de diversas regiões. Além desses recursos de resiliência integrados, o Spanner oferece os seguintes recursos para oferecer suporte a estratégias abrangentes de recuperação de desastres: Proteção contra exclusão de banco de dados Recursos robustos de backup e restauração, incluindo cópias programadas e entre regiões Recuperação pontual (PITR) para proteção contra corrupção de dados lógicos, erros de operador ou gravações acidentais por até sete dias Para mais informações, consulte Visão geral da recuperação de desastres.
Funções do Cloud Run	O Cloud Run é um serviço regional. Os dados são armazenados de forma síncrona em várias zonas dentro de uma região. É feito o balanceamento de carga automático no tráfego entre as zonas. Em caso de interrupção do serviço na zona, o Cloud Run continua em execução e os dados não são perdidos. Se ocorrer uma interrupção do serviço na região, o serviço vai parar de ser executado até que o Google resolva essa interrupção.
Cloud Storage	É possível criar buckets do Cloud Storage em um destes três tipos de local: regional, birregional ou multirregional. Os dados armazenados em buckets regionais são replicados de maneira síncrona em várias zonas dentro de uma região. Para maior disponibilidade, use buckets birregionais ou multirregionais, em que os dados são replicados de forma assíncrona entre regiões.
Pub/Sub	Para evitar erros durante períodos de picos transitórios no tráfego de mensagens, limite a taxa de solicitações de publicação configurando o controle de fluxo nas configurações do editor. Para lidar com tentativas de publicação com falha, ajuste as variáveis de solicitação de nova tentativa conforme necessário. Para mais informações, consulte Repetir solicitações.
Todos os produtos na arquitetura	Depois de implantar sua carga de trabalho no Google Cloud, use o Active Assist para receber recomendações e otimizar ainda mais a confiabilidade dos recursos da nuvem. Revise as recomendações e aplique-as conforme apropriado para seu ambiente. Para mais informações, consulte Encontrar recomendações no Active Assist.

Para princípios e recomendações de confiabilidade específicos para cargas de trabalho de IA e ML, consulte Perspectiva de IA e ML: confiabilidade no framework bem arquitetado.

Otimização de custos

Nesta seção, você encontra orientações para otimizar o custo de configuração e operação de uma topologia Google Cloud criada usando essa arquitetura de referência.

Produto	Considerações e recomendações de design
Vertex AI	Para analisar e gerenciar os custos da Vertex AI, recomendamos criar um valor de referência de consultas por segundo (QPS) e tokens por segundo (TPS) e monitorar essas métricas após a implantação. A referência também ajuda no planejamento da capacidade. Por exemplo, a análise comparativa ajuda a determinar quando a capacidade de processamento provisionada é necessária. Selecionar o modelo adequado para seu aplicativo de IA generativa é uma decisão crítica que afeta diretamente os custos e o desempenho. Para identificar o modelo que oferece um equilíbrio ideal entre desempenho e custo para seu caso de uso específico, teste os modelos de forma iterativa. Recomendamos que você comece com o modelo mais econômico e avance gradualmente para opções mais eficientes. O tamanho dos comandos (entrada) e das respostas geradas (saída) afeta diretamente o desempenho e o custo. Escreva comandos que sejam curtos, diretos e forneçam contexto suficiente. Crie comandos para receber respostas concisas do modelo. Por exemplo, inclua frases como "resuma em duas frases" ou "liste três pontos principais". Para mais informações, consulte as práticas recomendadas para criação de comandos. Para reduzir o custo das solicitações que contêm conteúdo repetido com altas contagens de tokens de entrada, use o armazenamento em cache de contexto. Quando relevante, considere a previsão em lote. As solicitações em lote são cobradas a um preço menor do que as solicitações padrão.
Spanner Graph	Use o escalonador automático gerenciado para ajustar dinamicamente a capacidade de computação dos bancos de dados de grafos do Spanner com base no uso da CPU e nas necessidades de armazenamento. Uma capacidade mínima é geralmente necessária, mesmo para cargas de trabalho pequenas. Para capacidade de computação previsível, estável ou básica, compre descontos por compromisso de uso (CUDs). Os CUDs oferecem descontos significativos em troca de um compromisso com um determinado gasto por hora na capacidade de computação. Ao copiar backups para diferentes regiões para recuperação de desastres ou conformidade, considere os custos de saída de rede. Para reduzir custos, copie apenas os backups essenciais.
Funções do Cloud Run	Ao criar funções do Cloud Run, é possível especificar a quantidade de memória e CPU que será alocada. Para controlar os custos, comece com as alocações padrão (mínimas) de CPU e memória. Para melhorar o desempenho, aumente a alocação configurando o limite de CPU e o limite de memória. Para mais informações, consulte a seguinte documentação: Configurar limites de memória para serviços Configurar limites de CPU para serviços Se você conseguir prever os requisitos de CPU e memória, poderá economizar dinheiro com CUDs.
Cloud Storage	Para o bucket do Cloud Storage no subsistema de ingestão de dados, escolha uma classe de armazenamento adequada com base nos requisitos de retenção de dados e frequência de acesso da sua carga de trabalho. Por exemplo, para controlar os custos de armazenamento, escolha a classe Standard e use o Gerenciamento do ciclo de vida de objetos. Essa abordagem permite o downgrade automático de objetos para uma classe de armazenamento de menor custo ou a exclusão automática de objetos com base em condições especificadas.
Cloud Logging	Para controlar o custo de armazenamento de registros, faça isto: Exclua ou filtre entradas desnecessárias para reduzir o volume de registros. Para mais informações, consulte Filtros de exclusão. Reduza o período de armazenamento de registros. Para mais informações, consulte Configurar retenção personalizada.
Todos os produtos na arquitetura	Depois de implantar sua carga de trabalho no Google Cloud, use o Active Assist para receber recomendações e otimizar ainda mais o custo dos seus recursos de nuvem. Revise as recomendações e aplique-as conforme apropriado para seu ambiente. Para mais informações, consulte Encontrar recomendações no Active Assist.

Para estimar o custo dos seus recursos do Google Cloud , use a calculadora de preços doGoogle Cloud .

Para princípios e recomendações de otimização de custos específicos para cargas de trabalho de IA e ML, consulte Perspectiva de IA e ML: otimização de custos no Framework bem arquitetado.

Otimização de desempenho

Nesta seção, descrevemos considerações e recomendações de design para criar uma topologia em Google Cloud que atenda aos requisitos de desempenho das suas cargas de trabalho.

Produto	Considerações e recomendações de design
Vertex AI	Selecionar o modelo adequado para seu aplicativo de IA generativa é uma decisão crítica que afeta diretamente os custos e o desempenho. Para identificar o modelo que oferece um equilíbrio ideal entre desempenho e custo para seu caso de uso específico, teste os modelos de forma iterativa. Recomendamos que você comece com o modelo mais econômico e avance gradualmente para opções mais eficientes. O tamanho dos comandos (entrada) e das respostas geradas (saída) afeta diretamente o desempenho e o custo. Escreva comandos que sejam curtos, diretos e forneçam contexto suficiente. Crie comandos para receber respostas concisas do modelo. Por exemplo, inclua frases como "resuma em duas frases" ou "liste três pontos principais". Para mais informações, consulte as práticas recomendadas para criação de comandos. Com o otimizador de comandos da Vertex AI, é possível melhorar e otimizar rapidamente o desempenho dos comandos em grande escala, sem precisar reescrever manualmente. O otimizador ajuda você a adaptar comandos de maneira eficiente em diferentes modelos.
Spanner Graph	Para recomendações sobre como otimizar o desempenho do Spanner Graph, consulte a seguinte documentação: Práticas recomendadas para projetar um esquema de gráfico do Spanner Práticas recomendadas para ajustar consultas de gráficos do Spanner
Funções do Cloud Run	Por padrão, cada instância de função do Cloud Run recebe uma única CPU e 256 MiB de memória. Dependendo dos requisitos de desempenho, é possível configurar limites de CPU e memória. Para mais informações, consulte a seguinte documentação: Configurar limites de memória para serviços Configurar limites de CPU para serviços Para mais orientações sobre otimização de desempenho, consulte Dicas gerais de desenvolvimento do Cloud Run.
Cloud Storage	Para fazer upload de arquivos grandes, use uploads compostos paralelos. Com essa estratégia, o arquivo grande é dividido em fragmentos. Os fragmentos são transferidos para o Cloud Storage em paralelo e, em seguida, os dados são recompostos na nuvem. Quando a largura de banda da rede e a velocidade do disco não são fatores limitantes, os uploads compostos paralelos podem ser mais rápidos do que as operações de upload normais. No entanto, essa estratégia tem algumas limitações e implicações de custo. Para mais informações, consulte Uploads compostos paralelos.
Todos os produtos na arquitetura	Depois de implantar sua carga de trabalho no Google Cloud, use o Active Assist para receber recomendações e otimizar ainda mais a performance dos seus recursos de nuvem. Revise as recomendações e aplique-as conforme apropriado para seu ambiente. Para mais informações, consulte Encontrar recomendações no Active Assist.

Para princípios e recomendações de otimização de performance específicos para cargas de trabalho de IA e ML, consulte Perspectiva de IA e ML: otimização de performance no Framework bem arquitetado.

Implantação

Para saber como o GraphRAG funciona no Google Cloud, faça o download e execute o seguinte notebook Jupyter do GitHub: GraphRAG no Google Cloud com o Spanner Graph e o Vertex AI Agent Engine.

A seguir

Criar aplicativos GraphRAG usando o Spanner Graph e o LangChain
Escolher modelos e infraestrutura para seus aplicativos de IA generativa
Infraestrutura de RAG para IA generativa usando a Vertex AI e a Vector Search
Infraestrutura de RAG para IA generativa usando a Vertex AI e o AlloyDB para PostgreSQL
Infraestrutura de RAG para IA generativa usando o GKE e o Cloud SQL
Infraestrutura de RAG para IA generativa usando o Google Agentspace e a Vertex AI
Para saber mais sobre princípios e recomendações de arquitetura para cargas de trabalho de IA em Google Cloud, consulte o Well-Architected Framework: perspectiva de IA e ML.
Para mais arquiteturas de referência, diagramas e práticas recomendadas, confira a Central de arquitetura do Cloud.

Colaboradores

Autores:

Tristan Li | Arquiteto principal, IA/ML
Kumar Dhanagopal | Desenvolvedor de soluções para vários produtos

Outros colaboradores:

Ahsif Sheikh | Engenheiro de clientes de IA
Ashish Chauhan | Engenheiro de clientes de IA
Greg Brosman | Gerente de produtos
Lukas Bruderer | Gerente de produtos, IA do Cloud
Nanditha Embar | Engenheira de clientes de IA
Piyush Mathur | Gerente de produtos, Spanner
Smitha Venkat | Engenheira de clientes de IA