Infrastructure GraphRAG pour l'IA générative à l'aide de Vertex AI et Spanner Graph

Last reviewed 2025-07-01 UTC

Ce document fournit une architecture de référence pour vous aider à concevoir l'infrastructure des applications d'IA générative GraphRAG dans Google Cloud. Ce document s'adresse aux architectes, aux développeurs et aux administrateurs qui créent et gèrent des systèmes de recherche d'informations intelligents. Dans ce document, nous partons du principe que vous possédez des connaissances de base sur les concepts d'IA, de gestion des données graphiques et de Knowledge Graph. Ce document ne fournit pas de conseils spécifiques pour concevoir et développer des applications GraphRAG.

GraphRAG est une approche basée sur les graphiques pour la génération augmentée par récupération (RAG). Le RAG permet d'ancrer les réponses générées par l'IA en augmentant les requêtes avec des données contextuellement pertinentes récupérées à l'aide de la recherche vectorielle. GraphRAG combine la recherche vectorielle à une requête Knowledge Graph pour récupérer des données contextuelles qui reflètent mieux l'interconnexion des données provenant de diverses sources. Les requêtes augmentées à l'aide de GraphRAG peuvent générer des réponses d'IA plus détaillées et pertinentes.

Architecture

Le schéma suivant montre une architecture pour une application d'IA générative compatible avec GraphRAG dans Google Cloud :

Flux d'ingestion et de diffusion des données dans l'architecture.

L'architecture du diagramme précédent se compose de deux sous-systèmes : l'ingestion et la diffusion de données. Les sections suivantes décrivent l'objectif des sous-systèmes et le flux de données dans et entre les sous-systèmes.

Sous-système d'ingestion de données

Le sous-système d'ingestion de données ingère les données provenant de sources externes, puis les prépare pour GraphRAG. Le flux d'ingestion et de préparation des données comprend les étapes suivantes :

  1. Les données sont ingérées dans un bucket Cloud Storage. Ces données peuvent être importées par un analyste de données, ingérées à partir d'une base de données ou diffusées depuis n'importe quelle source.
  2. Lors de l'ingestion des données, un message est envoyé à un sujet Pub/Sub.
  3. Pub/Sub déclenche une fonction Cloud Run pour traiter les données importées.
  4. La fonction Cloud Run crée un graphique de connaissances à partir des fichiers d'entrée à l'aide de l'API Gemini dans Vertex AI et d'outils tels que LLMGraphTransformer de LangChain.
  5. La fonction stocke le knowledge graph dans une base de données Spanner Graph.
  6. La fonction segmente le contenu textuel des fichiers de données en unités granulaires à l'aide d'outils tels que RecursiveCharacterTextSplitter de LangChain ou le Layout Parser de Document AI.
  7. La fonction crée des embeddings vectoriels des segments de texte à l'aide des API Vertex AI Embeddings.
  8. La fonction stocke les embeddings vectoriels et les nœuds de graphique associés dans Spanner Graph.

Les embeddings vectoriels servent de base à la récupération sémantique. Les nœuds du graphique de connaissances permettent de parcourir et d'analyser les relations et les modèles de données complexes.

Sous-système de mise en service

Le sous-système de mise en service gère le cycle de vie des requêtes et des réponses entre l'application d'IA générative et ses utilisateurs. Le processus de diffusion comprend les étapes suivantes :

  1. Un utilisateur envoie une requête en langage naturel à un agent d'IA déployé sur Vertex AI Agent Engine.
  2. L'agent traite la requête comme suit :
    1. Convertit la requête en embeddings vectoriels à l'aide des API Vertex AI Embeddings.
    2. Il récupère les nœuds de graphique associés à la requête en effectuant une recherche de similarité vectorielle dans la base de données d'embeddings.
    3. Récupère les données liées à la requête en parcourant le graphique des connaissances.
    4. Il augmente le prompt en combinant la requête d'origine avec les données graphiques récupérées.
    5. Utilise l'API AI Applications ranking pour classer les résultats, qui se composent de nœuds et d'arêtes extraits de la base de données graphiques. Le classement est basé sur la pertinence sémantique par rapport à la requête.
    6. Résume les résultats en appelant l'API Gemini Vertex AI.
  3. L'agent envoie ensuite le résultat résumé à l'utilisateur.

Vous pouvez stocker et afficher les journaux d'activité des requêtes et des réponses dans Cloud Logging, et configurer la surveillance basée sur les journaux à l'aide de Cloud Monitoring.

Produits utilisés

Cette architecture de référence utilise les produits et outils Google suivants :

  • Spanner Graph : base de données de graphiques qui fournit les fonctionnalités d'évolutivité, de disponibilité et de cohérence de Spanner.
  • Vertex AI : plate-forme de ML qui vous permet d'entraîner et de déployer des modèles de ML et des applications d'IA, et de personnaliser les LLM à utiliser dans des applications basées sur l'IA.
  • Fonctions Cloud Run : plate-forme de calcul sans serveur qui vous permet d'exécuter des fonctions à usage unique directement dans Google Cloud.
  • Cloud Storage : store d'objets économique et sans limite pour tout type de données. Les données sont accessibles depuis et en dehors de Google Cloud, et sont répliquées sur plusieurs emplacements à des fins de redondance.
  • Pub/Sub : service de messagerie asynchrone et évolutif qui dissocie les services qui produisent des messages des services qui traitent ces messages.
  • Cloud Logging : système de gestion des journaux en temps réel avec stockage, recherche, analyse et alertes.
  • Cloud Monitoring : service qui offre une visibilité sur les performances, la disponibilité et l'état de vos applications et de votre infrastructure.

Cas d'utilisation

GraphRAG facilite la récupération intelligente de données pour les cas d'utilisation dans divers secteurs. Cette section décrit quelques cas d'utilisation dans les secteurs de la santé, de la finance, des services juridiques et de l'industrie.

Santé et produits pharmaceutiques : aide à la décision clinique

Dans les systèmes d'aide à la décision clinique, GraphRAG intègre de grandes quantités de données issues de la littérature médicale, des dossiers médicaux électroniques des patients, des bases de données sur les interactions médicamenteuses et des résultats d'essais cliniques dans un graphique de connaissances unifié. Lorsque des cliniciens et des chercheurs interrogent les symptômes et les médicaments actuels d'un patient, GraphRAG parcourt le Knowledge Graph pour identifier les affections pertinentes et les interactions médicamenteuses potentielles. Elle peut également générer des recommandations de traitement personnalisées en fonction d'autres données, comme le profil génétique du patient. Ce type de récupération d'informations fournit des réponses plus riches en contexte et basées sur des preuves que la mise en correspondance de mots clés.

Services financiers : unifier les données financières

Les entreprises de services financiers utilisent des graphiques de connaissances pour offrir à leurs analystes une vue unifiée et structurée des données provenant de sources disparates, comme les rapports d'analystes, les conférences téléphoniques sur les résultats et les évaluations des risques. Les Knowledge Graphs identifient les entités de données clés, comme les entreprises et les dirigeants, et cartographient les relations cruciales entre les entités. Cette approche fournit un Web de données riche et interconnecté, ce qui permet une analyse financière plus approfondie et plus efficace. Les analystes peuvent découvrir des insights auparavant cachés, comme des dépendances complexes de la chaîne d'approvisionnement, des membres du conseil d'administration qui se chevauchent entre concurrents et l'exposition à des risques géopolitiques complexes.

Dans le secteur juridique, GraphRAG peut être utilisé pour générer des recommandations juridiques personnalisées basées sur des précédents, des lois, de la jurisprudence, des mises à jour réglementaires et des documents internes. Lorsqu'ils préparent des affaires, les avocats peuvent poser des questions nuancées sur des arguments juridiques spécifiques, des décisions antérieures sur des affaires similaires ou les implications de nouvelles législations. GraphRAG exploite l'interconnexion des connaissances juridiques disponibles pour identifier les précédents pertinents et expliquer leur applicabilité. Il peut également suggérer des contre-arguments en traçant les relations entre les concepts juridiques, les lois et les interprétations judiciaires. Grâce à cette approche, les professionnels du droit peuvent obtenir des insights plus complets et précis que les méthodes classiques de récupération des connaissances.

Fabrication et chaîne d'approvisionnement : libérer les connaissances institutionnelles

Les opérations de fabrication et de chaîne d'approvisionnement nécessitent un haut degré de précision. Les connaissances nécessaires pour maintenir le niveau de précision requis sont souvent enfouies dans des milliers de documents de procédures opérationnelles standards (POS) denses et statiques. Lorsqu'une chaîne de production ou une machine d'usine tombe en panne, ou en cas de problème logistique, les ingénieurs et techniciens perdent souvent un temps précieux à chercher dans des documents PDF déconnectés pour diagnostiquer et résoudre le problème. Les Knowledge Graphs et l'IA conversationnelle peuvent être combinés pour transformer les connaissances institutionnelles enfouies en un partenaire de diagnostic interactif.

Alternatives de conception

L'architecture décrite dans ce document est modulaire. Vous pouvez adapter certains composants de l'architecture pour utiliser d'autres produits, outils et technologies en fonction de vos besoins.

Créer le Knowledge Graph

Vous pouvez utiliser l'outil LLMGraphTransformer de LangChain pour créer un graphique de connaissances à partir de zéro. En spécifiant le schéma du graphique avec des paramètres LLMGraphTransformer tels que allowed_nodes, allowed_relationships, node_properties et relationship_properties, vous pouvez améliorer la qualité du graphique de connaissances obtenu. Toutefois, LLMGraphTransformer peut extraire des entités de domaines génériques. Il n'est donc pas adapté aux domaines de niche tels que la santé ou les produits pharmaceutiques. De plus, si votre organisation dispose déjà d'un processus robuste pour créer des graphiques de connaissances, le sous-système d'ingestion de données présenté dans cette architecture de référence est facultatif.

Stocker le Knowledge Graph et les embeddings vectoriels

L'architecture décrite dans ce document utilise Spanner comme data store pour le graphique de connaissances et les embeddings vectoriels. Si vos graphiques de connaissances d'entreprise existent déjà ailleurs (par exemple, sur une plate-forme comme Neo4j), vous pouvez envisager d'utiliser une base de données vectorielle pour les embeddings. Toutefois, cette approche nécessite un effort de gestion supplémentaire et peut être plus coûteuse. Spanner fournit un data store consolidé et cohérent à l'échelle mondiale pour les structures de graphiques et les embeddings vectoriels. Un tel data store permet une gestion unifiée des données, ce qui contribue à optimiser les coûts, les performances, la gouvernance de la sécurité et l'efficacité opérationnelle.

Environnement d'exécution de l'agent

Dans cette architecture de référence, l'agent est déployé sur Vertex AI Agent Engine, qui fournit un environnement d'exécution géré pour les agents d'IA. Vous pouvez également envisager d'utiliser Cloud Run et Google Kubernetes Engine (GKE). L'examen de ces options dépasse le cadre de ce document.

Ancrage à l'aide de la RAG

Comme indiqué dans la section Cas d'utilisation, GraphRAG permet de récupérer des données intelligentes pour l'ancrage dans de nombreux scénarios. Toutefois, si les données sources que vous utilisez pour augmenter les requêtes ne présentent pas d'interrelations complexes, la RAG peut être un choix approprié pour votre application d'IA générative.

Les architectures de référence suivantes montrent comment créer l'infrastructure requise pour RAG dans Google Cloud en utilisant des bases de données gérées compatibles avec les vecteurs ou des produits de recherche vectorielle spécialisés :

Considérations de conception

Cette section décrit les facteurs de conception, les bonnes pratiques et les recommandations à prendre en compte lorsque vous utilisez cette architecture de référence pour développer une topologie qui répond à vos exigences spécifiques en termes de sécurité, de fiabilité, de coût et de performances.

Les conseils de cette section ne sont pas exhaustifs. En fonction des exigences de votre charge de travail et des produits et fonctionnalités Google Cloud que vous utilisez, il peut y avoir d'autres facteurs de conception et compromis à prendre en compte.

Sécurité, confidentialité et conformité

Cette section décrit les considérations et recommandations de conception pour concevoir une topologie dans Google Cloud qui répond aux exigences de sécurité et de conformité de votre charge de travail.

Produit Remarques et recommandations concernant la conception
Vertex AI

Vertex AI est compatible avec les contrôles de sécurité Google Cloud que vous pouvez utiliser pour répondre à vos exigences en termes de résidence des données, de chiffrement des données, de sécurité réseau et de transparence des accès. Pour en savoir plus, consultez la documentation suivante :

Les modèles d'IA générative peuvent produire des réponses nuisibles, en particulier lorsqu'ils reçoivent des requêtes explicites en ce sens. Pour renforcer la sécurité et limiter les cas d'utilisation abusive, vous pouvez configurer des filtres de contenu afin de bloquer les réponses potentiellement dangereuses. Pour en savoir plus, consultez Filtres de sécurité et de contenu.

Spanner Graph Par défaut, les données stockées dans Spanner Graph sont chiffrées à l'aide de Google-owned and Google-managed encryption keys. Si vous devez utiliser des clés de chiffrement que vous contrôlez et gérez, vous pouvez utiliser des clés de chiffrement gérées par le client (CMEK). Pour en savoir plus, consultez À propos de CMEK.
Fonctions Cloud Run

Par défaut, Cloud Run chiffre les données à l'aide de Google-owned and Google-managed encryption keys. Pour protéger vos conteneurs à l'aide de clés que vous contrôlez, vous pouvez utiliser des CMEK. Pour en savoir plus, consultez Utiliser des clés de chiffrement gérées par le client.

Pour vous assurer que seules les images de conteneurs autorisées sont déployées sur Cloud Run, vous pouvez utiliser l'autorisation binaire.

Cloud Run vous aide à répondre aux exigences de résidence des données. Vos fonctions Cloud Run s'exécutent dans la région sélectionnée.

Cloud Storage

Par défaut, les données stockées dans Cloud Storage sont chiffrées à l'aide de Google-owned and Google-managed encryption keys. Si nécessaire, vous pouvez utiliser des clés CMEK ou vos propres clés que vous gérez à l'aide d'une méthode de gestion externe, telle que les clés de chiffrement fournies par le client (CSEK). Pour en savoir plus, consultez Options de chiffrement des données.

Cloud Storage propose deux systèmes pour autoriser des utilisateurs à accéder à vos buckets et objets : Identity and Access Management (IAM) et les listes de contrôle d'accès (LCA). Dans la plupart des cas, nous vous recommandons d'utiliser IAM, qui vous permet d'accorder des autorisations au niveau du bucket et du projet. Pour en savoir plus, consultez Présentation du contrôle des accès.

Les données que vous chargez dans le sous-système d'ingestion de données via Cloud Storage peuvent inclure des données sensibles. Vous pouvez utiliser Sensitive Data Protection pour découvrir, classer et anonymiser les données sensibles. Pour en savoir plus, consultez Utiliser la protection des données sensibles avec Cloud Storage.

Cloud Storage vous aide à répondre aux exigences de résidence des données. Les données sont stockées ou répliquées dans la région que vous spécifiez.

Pub/Sub

Par défaut, Pub/Sub chiffre tous les messages, au repos et en transit, à l'aide de Google-owned and Google-managed encryption keys. Pub/Sub permet d'utiliser des CMEK pour le chiffrement des messages au niveau de la couche Application. Pour en savoir plus, consultez Configurer le chiffrement des messages.

Si vous avez des exigences de résidence des données, vous pouvez configurer des règles de stockage des messages pour vous assurer que les données des messages sont stockées dans des emplacements spécifiques.

Cloud Logging

Les journaux d'audit des activités d'administration sont activés par défaut pour tous les services Google Cloud utilisés dans cette architecture de référence. Ces journaux enregistrent les appels d'API ou d'autres actions qui modifient la configuration ou les métadonnées des ressourcesGoogle Cloud .

Pour les services Google Cloud utilisés dans cette architecture, vous pouvez activer les journaux d'audit d'accès aux données. Ces journaux vous permettent de suivre les appels d'API qui lisent la configuration ou les métadonnées des ressources, ou les demandes utilisateur visant à créer, modifier ou lire des données de ressources fournies par l'utilisateur.

Pour vous aider à respecter les exigences de résidence des données, vous pouvez configurer Cloud Logging afin qu'il stocke les données de journaux dans la région de votre choix. Pour en savoir plus, consultez Régionaliser vos journaux.

Pour connaître les principes et recommandations de sécurité spécifiques aux charges de travail d'IA et de ML, consultez Enjeux spécifiques à l'IA et au ML : sécurité dans le framework Google Cloud  Well-Architected.

Fiabilité

Cette section décrit les considérations et les recommandations de conception pour créer et exploiter une infrastructure fiable pour votre déploiement dans Google Cloud.

Produit Remarques et recommandations concernant la conception
Vertex AI

Vertex AI est compatible avec les quotas partagés dynamiques pour les modèles Gemini. DSQ permet de gérer de manière flexible les demandes de paiement à l'utilisation. Il n'est donc plus nécessaire de gérer les quotas manuellement ni de demander des augmentations de quotas. DSQ alloue dynamiquement les ressources disponibles pour un modèle et une région donnés aux clients actifs. Avec DSQ, aucune limite de quota prédéfinie n'est imposée aux clients individuels.

Si le nombre de vos requêtes dépasse la capacité allouée, le code d'erreur 429 est renvoyé. Pour les charges de travail critiques pour l'entreprise et qui nécessitent systématiquement un débit élevé, vous pouvez réserver du débit à l'aide du débit provisionné. Si les données peuvent être partagées dans plusieurs régions ou pays, vous pouvez utiliser un point de terminaison global.

Spanner Graph

Spanner est conçu pour offrir une haute disponibilité des données et une évolutivité mondiale. Pour garantir la disponibilité même en cas d'indisponibilité d'une région, Spanner propose des configurations multirégionales, qui répliquent les données dans plusieurs zones de plusieurs régions. En plus de ces capacités de résilience intégrées, Spanner fournit les fonctionnalités suivantes pour prendre en charge des stratégies complètes de reprise après sinistre :

  • Protection contre la suppression de bases de données
  • Fonctionnalités robustes de sauvegarde et de restauration, y compris les copies planifiées et interrégionales
  • Récupération à un moment précis (PITR) pour la protection contre la corruption des données logiques, les erreurs d'opérateur ou les écritures accidentelles pendant sept jours maximum

Pour en savoir plus, consultez Présentation de la reprise après sinistre.

Fonctions Cloud Run Cloud Run est un service régional. Les données sont stockées de manière synchrone dans plusieurs zones d'une même région. Le trafic est automatiquement équilibré entre les zones. En cas de panne zonale, Cloud Run continue de s'exécuter et les données ne sont pas perdues. En cas de panne régionale, le service cesse de fonctionner jusqu'à ce que Google résolve le problème.
Cloud Storage Vous pouvez créer des buckets Cloud Storage dans l'un des trois types d'emplacements suivants : régional, birégional ou multirégional. Les données stockées dans des buckets régionaux sont répliquées de manière synchrone dans plusieurs zones d'une même région. Pour une disponibilité plus élevée, vous pouvez utiliser des buckets birégionaux ou multirégionaux, dans lesquels les données sont répliquées de manière asynchrone entre les régions.
Pub/Sub

Pour éviter les erreurs lors des pics temporaires de trafic de messages, vous pouvez limiter le taux de requêtes de publication en configurant le contrôle de flux dans les paramètres de l'éditeur.

Pour gérer les tentatives de publication ayant échoué, ajustez les variables de demande de nouvelle tentative si nécessaire. Pour en savoir plus, consultez Requêtes de nouvelle tentative.

Tous les produits de l'architecture Après avoir déployé votre charge de travail dans Google Cloud, utilisez Active Assist pour obtenir des recommandations permettant d'optimiser davantage la fiabilité de vos ressources cloud. Examinez les recommandations et appliquez-les en fonction de votre environnement. Pour en savoir plus, consultez Trouver des recommandations dans le hub de recommandations.

Pour obtenir des principes et des recommandations de fiabilité spécifiques aux charges de travail d'IA et de ML, consultez Enjeux spécifiques à l'IA et au ML : fiabilité dans le Framework Well-Architected.

Optimisation des coûts

Cette section fournit des conseils pour optimiser les coûts de configuration et d'exploitation d'une topologie Google Cloud que vous créez à l'aide de cette architecture de référence.

Produit Remarques et recommandations concernant la conception
Vertex AI

Pour analyser et gérer les coûts Vertex AI, nous vous recommandons de créer une référence de requêtes par seconde (RPS) et de jetons par seconde (TPS), puis de surveiller ces métriques après le déploiement. La référence permet également de planifier la capacité. Par exemple, la référence vous aide à déterminer quand le débit provisionné est nécessaire.

Le choix du modèle approprié pour votre application d'IA générative est une décision essentielle qui a un impact direct sur les coûts et les performances. Pour identifier le modèle qui offre un équilibre optimal entre performances et coût pour votre cas d'utilisation spécifique, testez les modèles de manière itérative. Nous vous recommandons de commencer par le modèle le plus économique et de passer progressivement à des options plus puissantes.

La longueur de vos requêtes (entrée) et des réponses générées (sortie) affecte directement les performances et les coûts. Rédigez des requêtes courtes et directes, qui fournissent suffisamment de contexte. Concevez vos requêtes pour obtenir des réponses concises du modèle. Par exemple, incluez des expressions telles que "résume en deux phrases" ou "liste trois points clés". Pour en savoir plus, consultez les bonnes pratiques pour concevoir des requêtes.

Pour réduire le coût des requêtes contenant du contenu répété avec un nombre élevé de jetons d'entrée, utilisez la mise en cache de contexte.

Si cela est pertinent, envisagez d'utiliser la prédiction par lot. Les requêtes par lot sont facturées à un prix inférieur à celui des requêtes standards.

Spanner Graph

Utilisez l'autoscaler géré pour ajuster de manière dynamique la capacité de calcul des bases de données Spanner Graph en fonction de l'utilisation du processeur et des besoins de stockage. Une capacité minimale est souvent requise, même pour les petites charges de travail.

Pour une capacité de calcul prévisible, stable ou de référence, souscrivez des remises sur engagement d'utilisation (CUD). Les CUD offrent des remises importantes en échange d'un engagement à dépenser un certain montant horaire pour la capacité de calcul.

Lorsque vous copiez des sauvegardes dans différentes régions à des fins de reprise après sinistre ou de conformité, tenez compte des frais de sortie réseau. Pour réduire les coûts, ne copiez que les sauvegardes essentielles.

Fonctions Cloud Run

Lorsque vous créez des fonctions Cloud Run, vous pouvez spécifier la quantité de mémoire et de processeur à allouer. Pour contrôler les coûts, commencez par les allocations de CPU et de mémoire par défaut (minimales). Pour améliorer les performances, vous pouvez augmenter l'allocation en configurant la limite de processeur et la limite de mémoire. Pour en savoir plus, consultez la documentation suivante :

Si vous pouvez prévoir les besoins en processeur et en mémoire, vous pouvez réaliser des économies grâce aux remises sur engagement d'utilisation.

Cloud Storage Pour le bucket Cloud Storage du sous-système d'ingestion de données, choisissez une classe de stockage appropriée en fonction des exigences de votre charge de travail en termes de conservation des données et de fréquence d'accès. Par exemple, pour contrôler les coûts de stockage, vous pouvez choisir la classe Standard et utiliser la gestion du cycle de vie des objets. Cette approche permet de déclasser automatiquement les objets vers une classe de stockage plus économique ou de les supprimer automatiquement en fonction de conditions spécifiées.
Cloud Logging

Pour contrôler le coût de stockage des journaux, vous pouvez effectuer les opérations suivantes :

Tous les produits de l'architecture Après avoir déployé votre charge de travail dans Google Cloud, utilisez Active Assist pour obtenir des recommandations permettant d'optimiser davantage le coût de vos ressources cloud. Examinez les recommandations et appliquez-les en fonction de votre environnement. Pour en savoir plus, consultez Trouver des recommandations dans le hub de recommandations.

Pour estimer le coût de vos ressources Google Cloud , utilisez le simulateur de coûtGoogle Cloud .

Pour connaître les principes et les recommandations d'optimisation des coûts spécifiques aux charges de travail d'IA et de ML, consultez la section Perspective de l'IA et du ML : optimisation des coûts du framework Well-Architected.

Optimisation des performances

Cette section décrit les considérations de conception et les recommandations pour concevoir une topologie dans Google Cloud qui répond aux exigences de performances de vos charges de travail.

Produit Remarques et recommandations concernant la conception
Vertex AI

Le choix du modèle approprié pour votre application d'IA générative est une décision essentielle qui a un impact direct sur les coûts et les performances. Pour identifier le modèle qui offre un équilibre optimal entre performances et coût pour votre cas d'utilisation spécifique, testez les modèles de manière itérative. Nous vous recommandons de commencer par le modèle le plus économique et de passer progressivement à des options plus puissantes.

La longueur de vos requêtes (entrée) et des réponses générées (sortie) affecte directement les performances et les coûts. Rédigez des requêtes courtes et directes, qui fournissent suffisamment de contexte. Concevez vos requêtes pour obtenir des réponses concises du modèle. Par exemple, incluez des expressions telles que "résume en deux phrases" ou "liste trois points clés". Pour en savoir plus, consultez les bonnes pratiques pour concevoir des requêtes.

L'optimiseur de requêtes Vertex AI vous permet d'améliorer et d'optimiser rapidement les performances des requêtes à grande échelle, et vous évite de devoir les réécrire manuellement. L'optimiseur vous aide à adapter efficacement les requêtes à différents modèles.

Spanner Graph

Pour obtenir des recommandations afin d'optimiser les performances de Spanner Graph, consultez les ressources documentaires suivantes :

Fonctions Cloud Run

Par défaut, chaque instance de fonction Cloud Run se voit allouer un processeur et 256 Mio de mémoire. En fonction de vos exigences en termes de performances, vous pouvez configurer des limites de processeur et de mémoire. Pour en savoir plus, consultez la documentation suivante :

Pour obtenir d'autres conseils sur l'optimisation des performances, consultez Conseils de développement généraux pour Cloud Run.

Cloud Storage Pour importer des fichiers volumineux, vous pouvez utiliser des importations composites parallèles. Grâce à cette stratégie, les fichiers volumineux sont divisés en fragments. Les fragments sont importés dans Cloud Storage en parallèle, puis les données sont recomposées dans le cloud. Lorsque la bande passante réseau et la vitesse du disque ne sont pas des facteurs limitants, les importations composites parallèles peuvent se révéler plus rapides que les opérations d'importation standards. Cependant, cette stratégie présente certaines limites et a des répercussions en termes de coûts. Pour en savoir plus, consultez Importations composites parallèles.
Tous les produits de l'architecture Après avoir déployé votre charge de travail dans Google Cloud, utilisez Active Assist pour obtenir des recommandations permettant d'optimiser davantage les performances de vos ressources cloud. Examinez les recommandations et appliquez-les en fonction de votre environnement. Pour en savoir plus, consultez Trouver des recommandations dans le hub de recommandations.

Pour obtenir des principes et des recommandations d'optimisation des performances spécifiques aux charges de travail d'IA et de ML, consultez Perspective de l'IA et du ML : optimisation des performances dans le framework Well-Architected.

Déploiement

Pour découvrir comment fonctionne GraphRAG dans Google Cloud, téléchargez et exécutez le notebook Jupyter suivant depuis GitHub : GraphRAG sur Google Cloud avec Spanner Graph et Vertex AI Agent Engine.

Étapes suivantes

Contributeurs

Auteurs :

Autres contributeurs :