Questa pagina è stata tradotta dall'API Cloud Translation.

Infrastruttura GraphRAG per l'AI generativa utilizzando Vertex AI e Spanner Graph

Last reviewed 2025-07-01 UTC

Questo documento fornisce un'architettura di riferimento per aiutarti a progettare l'infrastruttura per le applicazioni di AI generativa GraphRAG in Google Cloud. Il pubblico di destinazione include architetti, sviluppatori e amministratori che creano e gestiscono sistemi di recupero intelligente delle informazioni. Il documento presuppone una conoscenza di base dei concetti di AI, gestione dei dati grafici e knowledge graph. Questo documento non fornisce indicazioni specifiche per la progettazione e lo sviluppo di applicazioni GraphRAG.

GraphRAG è un approccio basato su grafi alla generazione RAG (Retrieval-Augmented Generation). La RAG contribuisce a basare le risposte generate dall'AI su dati contestualmente pertinenti recuperati tramite la ricerca vettoriale. GraphRAG combina la ricerca vettoriale con una query del Knowledge Graph per recuperare dati contestuali che riflettono meglio l'interconnessione dei dati provenienti da diverse origini. I prompt arricchiti con GraphRAG possono generare risposte dell'AI più dettagliate e pertinenti.

Architettura

Il seguente diagramma mostra un'architettura per un'applicazione di AI generativa compatibile con GraphRAG in Google Cloud:

I flussi di importazione e pubblicazione dei dati nell'architettura.

L'architettura nel diagramma precedente è costituita da due sottosistemi: inserimento e pubblicazione dei dati. Le sezioni seguenti descrivono lo scopo dei sottosistemi e il flusso di dati all'interno e tra i sottosistemi.

Sottosistema di importazione dati

Il sottosistema di importazione dati importa i dati da origini esterne e li prepara per GraphRAG. Il flusso di importazione e preparazione dei dati prevede i seguenti passaggi:

I dati vengono importati in un bucket Cloud Storage. Questi dati possono essere caricati da un analista di dati, importati da un database o trasmessi in streaming da qualsiasi origine.
Quando i dati vengono importati, viene inviato un messaggio a un argomento Pub/Sub.
Pub/Sub attiva una funzione Cloud Run per elaborare i dati caricati.
La funzione Cloud Run crea un knowledge graph dai file di input utilizzando l'API Gemini in Vertex AI e strumenti come LLMGraphTransformer di LangChain.
La funzione archivia il Knowledge Graph in un database Spanner Graph.
La funzione segmenta i contenuti testuali dei file di dati in unità granulari utilizzando strumenti come RecursiveCharacterTextSplitter di LangChain o Layout Parser di Document AI.
La funzione crea incorporamenti vettoriali dei segmenti di testo utilizzando le API Vertex AI Embeddings.
La funzione archivia gli incorporamenti vettoriali e i nodi del grafico associati in Spanner Graph.

Gli embedding vettoriali fungono da base per il recupero semantico. I nodi del Knowledge Graph consentono l'attraversamento e l'analisi di relazioni e pattern di dati complessi.

Sottosistema di pubblicazione

Il sottosistema di pubblicazione gestisce il ciclo di vita della query-risposta tra l'applicazione di AI generativa e i suoi utenti. Il flusso di pubblicazione prevede i seguenti passaggi:

Un utente invia una query in linguaggio naturale a un agente AI, di cui è stato eseguito il deployment su Vertex AI Agent Engine.
L'agente elabora la query nel seguente modo:
1. Converte la query in incorporamenti vettoriali utilizzando le API Vertex AI Embeddings.
2. Recupera i nodi del grafico correlati alla query eseguendo una ricerca di similarità vettoriale nel database degli incorporamenti.
3. Recupera i dati correlati alla query attraversando il knowledge graph.
4. Aumenta il prompt combinando la query originale con i dati del grafico recuperati.
5. Utilizza l'API Vertex AI Search Ranking per classificare i risultati, che consistono in nodi e archi recuperati dal database del grafico. Il ranking si basa sulla pertinenza semantica rispetto alla query.
6. Riassume i risultati chiamando l'API Gemini di Vertex AI.
L'agente invia quindi il risultato riepilogativo all'utente.

Puoi archiviare e visualizzare i log delle attività di query-risposta in Cloud Logging e configurare il monitoraggio basato sui log utilizzando Cloud Monitoring.

Prodotti utilizzati

Questa architettura di riferimento utilizza i seguenti prodotti e strumenti Google:

Spanner Graph: un database a grafo che offre le funzionalità di scalabilità, disponibilità e coerenza di Spanner.
Vertex AI: una piattaforma ML che ti consente di addestrare ed eseguire il deployment di modelli ML e applicazioni AI e personalizzare LLM da utilizzare in applicazioni basate sull'AI.
Funzioni Cloud Run: una piattaforma di serverless computing che ti consente di eseguire funzioni con un unico scopo direttamente in Google Cloud.
Cloud Storage: uno spazio di archiviazione di oggetti a basso costo e senza limiti per diversi tipi di dati. I dati sono accessibili dall'interno e dall'esterno di Google Cloude vengono replicati in più località per la ridondanza.
Pub/Sub: un servizio di messaggistica asincrono e scalabile che disaccoppia i servizi che producono messaggi dai servizi che li elaborano.
Cloud Logging: un sistema di gestione dei log in tempo reale con archiviazione, ricerca, analisi e avvisi.
Cloud Monitoring: un servizio che offre visibilità su prestazioni, disponibilità e integrità delle tue applicazioni e della tua infrastruttura.

Casi d'uso

GraphRAG facilita il recupero intelligente dei dati per i casi d'uso in vari settori. Questa sezione descrive alcuni casi d'uso nei settori sanitario, finanziario, dei servizi legali e della produzione.

Sanità e farmaci: assistenza per le decisioni cliniche

Nei sistemi di supporto alle decisioni cliniche, GraphRAG integra grandi quantità di dati provenienti da letteratura medica, cartelle cliniche elettroniche dei pazienti, database di interazioni farmacologiche e risultati di sperimentazioni cliniche in un knowledge graph unificato. Quando medici e ricercatori interrogano i sintomi e i farmaci attuali di un paziente, GraphRAG attraversa il Knowledge Graph per identificare le condizioni pertinenti e le potenziali interazioni farmacologiche. Può anche generare consigli personalizzati per il trattamento in base ad altri dati, come il profilo genetico del paziente. Questo tipo di recupero delle informazioni fornisce risposte più ricche di contesto e basate su prove rispetto alla corrispondenza delle parole chiave.

Servizi finanziari: unificazione dei dati finanziari

Le società di servizi finanziari utilizzano i grafici della conoscenza per fornire ai propri analisti una visione unificata e strutturata dei dati provenienti da fonti disparate, come report degli analisti, conference call sugli utili e valutazioni dei rischi. I Knowledge Graph identificano le entità di dati chiave, come aziende e dirigenti, e mappano le relazioni cruciali tra le entità. Questo approccio fornisce una rete di dati ricca e interconnessa, che consente un'analisi finanziaria più approfondita ed efficiente. Gli analisti possono scoprire informazioni precedentemente nascoste, come intricate dipendenze della catena di fornitura, partecipazioni al consiglio di amministrazione che si sovrappongono tra i concorrenti ed esposizione a complessi rischi geopolitici.

Servizi legali: ricerca di casi e analisi dei precedenti

Nel settore legale, GraphRAG può essere utilizzato per generare consigli legali personalizzati in base a precedenti, leggi, giurisprudenza, aggiornamenti normativi e documenti interni. Quando gli avvocati si preparano per le cause, possono porre domande sfumate su argomentazioni legali specifiche, sentenze precedenti su casi simili o sulle implicazioni di nuove leggi. GraphRAG sfrutta l'interconnessione delle conoscenze legali disponibili per identificare i precedenti pertinenti e spiegare la loro applicabilità. Può anche suggerire controargomentazioni tracciando le relazioni tra concetti giuridici, leggi e interpretazioni giudiziarie. Con questo approccio, i professionisti legali possono ottenere approfondimenti più completi e precisi rispetto ai metodi tradizionali di recupero delle informazioni.

Produzione e catena di fornitura: estrarre le conoscenze istituzionali

Le operazioni di produzione e della catena di fornitura richiedono un elevato grado di precisione. Le conoscenze necessarie per mantenere il livello di precisione richiesto sono spesso nascoste in migliaia di documenti di procedure operative standard (SOP) statici e densi. Quando una linea di produzione o una macchina in una fabbrica si guasta o si verifica un problema logistico, ingegneri e tecnici spesso perdono tempo prezioso a cercare tra documenti PDF scollegati per diagnosticare e risolvere il problema. I Knowledge Graph e l'AI conversazionale possono essere combinati per trasformare le conoscenze istituzionali nascoste in un partner diagnostico interattivo.

Alternative di progettazione

L'architettura descritta in questo documento è modulare. Puoi adattare alcuni componenti dell'architettura per utilizzare prodotti, strumenti e tecnologie alternativi a seconda dei tuoi requisiti.

Creazione del Knowledge Graph

Puoi utilizzare lo strumento LLMGraphTransformer di LangChain per creare un knowledge graph da zero. Se specifichi lo schema del grafico con parametri LLMGraphTransformer come allowed_nodes, allowed_relationships, node_properties e relationship_properties, puoi migliorare la qualità del knowledge graph risultante. Tuttavia, LLMGraphTransformer potrebbe estrarre entità da domini generici, quindi potrebbe non essere adatto a domini di nicchia come quelli sanitari o farmaceutici. Inoltre, se la tua organizzazione dispone già di un processo solido per creare grafici della conoscenza, il sottosistema diimportazione datii mostrato in questa architettura di riferimento è facoltativo.

Memorizzazione del Knowledge Graph e dei vector embedding

L'architettura descritta in questo documento utilizza Spanner come datastore per il knowledge graph e gli incorporamenti vettoriali. Se i grafici della conoscenza aziendale esistono già altrove (ad esempio su una piattaforma come Neo4j), potresti prendere in considerazione l'utilizzo di un database vettoriale per gli incorporamenti. Tuttavia, questo approccio richiede un maggiore sforzo di gestione e potrebbe costare di più. Spanner fornisce un datastore consolidato e coerente a livello globale sia per le strutture grafiche che per gli incorporamenti vettoriali. Un datastore di questo tipo consente una gestione unificata dei dati, che aiuta a ottimizzare costi, prestazioni, governance della sicurezza ed efficienza operativa.

Runtime dell'agente

In questa architettura di riferimento, l'agente viene implementato su Vertex AI Agent Engine, che fornisce un runtime gestito per gli agenti AI. Altre opzioni che puoi prendere in considerazione includono Cloud Run e Google Kubernetes Engine (GKE). La discussione di queste opzioni non rientra nell'ambito di questo documento.

Grounding con RAG

Come descritto nella sezione Casi d'uso, GraphRAG consente il recupero intelligente dei dati per la base in molti scenari. Tuttavia, se i dati di origine che utilizzi per aumentare i prompt non presentano interrelazioni complesse, RAG potrebbe essere una scelta appropriata per la tua applicazionAI IA generativa.

Le seguenti architetture di riferimento mostrano come creare l'infrastruttura necessaria per RAG in Google Cloud utilizzando database gestiti abilitati ai vettori o prodotti di ricerca vettoriale specializzati:

Considerazioni sulla progettazione

Questa sezione descrive i fattori di progettazione, le best practice e i suggerimenti da prendere in considerazione quando utilizzi questa architettura di riferimento per sviluppare una topologia che soddisfi i tuoi requisiti specifici di sicurezza, affidabilità, costi e rendimento.

Le indicazioni in questa sezione non sono esaustive. A seconda dei requisiti del tuo carico di lavoro e dei prodotti e delle funzionalità di terze parti che utilizzi, potrebbero esserci ulteriori fattori di progettazione e compromessi da considerare. Google Cloud

Sicurezza, privacy e conformità

Questa sezione descrive le considerazioni e i consigli di progettazione per progettare una topologia in Google Cloud che soddisfi i requisiti di sicurezza e conformità del tuo workload.

Prodotto	Considerazioni e consigli sulla progettazione
Vertex AI	Vertex AI supporta i controlli di sicurezza che puoi utilizzare per soddisfare i tuoi requisiti di residenza dei dati, crittografia dei dati, sicurezza di rete e trasparenza dell'accesso. Google Cloud Per ulteriori informazioni, leggi la seguenti documentazione: Controlli di sicurezza per Vertex AI Controlli di sicurezza per l'AI generativa AI generativa e governance dei dati I modelli di AI generativa potrebbero produrre risposte dannose, soprattutto quando vengono esplicitamente richiesti. Per migliorare la sicurezza e mitigare potenziali abusi, puoi configurare i filtri dei contenuti in modo che fungano da barriere alle risposte dannose. Per saperne di più, consulta Filtri di sicurezza e dei contenuti.
Spanner Graph	Per impostazione predefinita, i dati archiviati in Spanner Graph sono criptati utilizzando Google-owned and Google-managed encryption keys. Se devi utilizzare chiavi di crittografia che controlli e gestisci, puoi utilizzare le chiavi di crittografia gestite dal cliente (CMEK). Per maggiori informazioni, consulta la sezione Informazioni su CMEK.
Funzioni Cloud Run	Per impostazione predefinita, Cloud Run cripta i dati utilizzando Google-owned and Google-managed encryption keys. Per proteggere i tuoi container utilizzando chiavi che controlli, puoi utilizzare le chiavi CMEK. Per saperne di più, consulta Utilizzare le chiavi di crittografia gestite dal cliente. Per garantire che venga eseguito il deployment solo delle immagini container autorizzate su Cloud Run, puoi utilizzare Autorizzazione binaria. Cloud Run ti aiuta a soddisfare i requisiti di residenza dei dati. Le tue Cloud Run Functions vengono eseguite all'interno della regione selezionata.
Cloud Storage	Per impostazione predefinita, i dati archiviati in Cloud Storage vengono criptati utilizzando Google-owned and Google-managed encryption keys. Se necessario, puoi utilizzare le chiavi CMEK o le tue chiavi che gestisci utilizzando un metodo di gestione esterno come le chiavi di crittografia fornite dal cliente (CSEK). Per saperne di più, vedi Opzioni di crittografia dei dati. Cloud Storage supporta due metodi per concedere agli utenti l'accesso ai bucket e agli oggetti: Identity and Access Management (IAM) ed elenchi di controllo dell'accesso (ACL). Nella maggior parte dei casi, consigliamo di utilizzare IAM, che consente di concedere autorizzazioni a livello di bucket e di progetto. Per ulteriori informazioni, consulta Panoramica del controllo dell'accesso. I dati caricati nel sottosistema di importazione dati tramite Cloud Storage potrebbero includere dati sensibili. Puoi utilizzare Sensitive Data Protection per rilevare, classificare e anonimizzare i dati sensibili. Per maggiori informazioni, consulta Utilizzo di Sensitive Data Protection con Cloud Storage. Cloud Storage ti aiuta a soddisfare i requisiti di residenza dei dati. I dati vengono archiviati o replicati all'interno della regione che specifichi.
Pub/Sub	Per impostazione predefinita, Pub/Sub cripta tutti i messaggi, sia at-rest che in transito, utilizzando Google-owned and Google-managed encryption keys. Pub/Sub supporta l'utilizzo di chiavi CMEK per la crittografia dei messaggi a livello di applicazione. Per ulteriori informazioni, vedi Configurare la crittografia dei messaggi. Se hai requisiti di residenza dei dati, per assicurarti che i dati dei messaggi vengano archiviati in posizioni specifiche, puoi configurare criteri di archiviazione dei messaggi.
Cloud Logging	I log di controllo dell'attività di amministrazione sono attivati per impostazione predefinita per tutti i servizi Google Cloud utilizzati in questa architettura di riferimento. Questi log registrano le chiamate API o altre azioni che modificano la configurazione o i metadati delle risorseGoogle Cloud . Per i servizi Google Cloud utilizzati in questa architettura, puoi attivare gli audit log di accesso ai dati. Questi log consentono di monitorare le chiamate API che leggono la configurazione o i metadati delle risorse oppure le richieste degli utenti di creare, modificare o leggere i dati delle risorse forniti dagli utenti. Per rispettare i requisiti di residenza dei dati, puoi configurare Cloud Logging in modo che memorizzi i dati dei log nella regione che specifichi. Per ulteriori informazioni, vedi Regionalizzare i log.

Per principi e consigli di sicurezza specifici per i workload di AI e ML, consulta Prospettiva AI e ML: sicurezza nel Google Cloud Well-Architected Framework.

Affidabilità

Questa sezione descrive considerazioni e consigli di progettazione per creare e gestire un'infrastruttura affidabile per il tuo deployment in Google Cloud.

Prodotto	Considerazioni e consigli sulla progettazione
Vertex AI	Vertex AI supporta la quota condivisa dinamica (DSQ) per i modelli Gemini. DSQ consente di gestire in modo flessibile le richieste con pagamento a consumo ed elimina la necessità di gestire manualmente la quota o richiedere aumenti della quota. DSQ alloca dinamicamente le risorse disponibili per un determinato modello e una determinata regione tra i clienti attivi. Con DSQ, non esistono limiti di quota predefiniti per i singoli clienti. Se il numero di richieste supera la capacità allocata, viene restituito il codice di errore 429. Per i carichi di lavoro business-critical che richiedono costantemente un elevato throughput, puoi riservare il throughput utilizzando Provisioned Throughput. Se i dati possono essere condivisi in più regioni o paesi, puoi utilizzare un endpoint globale.
Spanner Graph	Spanner è progettato per l'alta disponibilità dei dati e la scalabilità globale. Per contribuire a garantire la disponibilità anche durante un'interruzione a livello di regione, Spanner offre configurazioni multiregionali, che replicano i dati in più zone di più regioni. Oltre a queste funzionalità di resilienza integrate, Spanner fornisce le seguenti funzionalità per supportare strategie di ripristino di emergenza complete: Protezione da eliminazione del database Funzionalità di backup e ripristino robuste, incluse copie pianificate e tra regioni Recupero point-in-time (PITR) per la protezione da danneggiamento logico dei dati, errori dell'operatore o scritture accidentali per un massimo di sette giorni Per ulteriori informazioni, vedi Panoramica del disaster recovery.
Funzioni Cloud Run	Cloud Run è un servizio regionale. I dati vengono archiviati in modo sincrono in più zone all'interno di una regione. Il traffico viene bilanciato automaticamente tra le zone. Se si verifica un'interruzione della zona, Cloud Run continua a essere eseguito e i dati non vengono persi. Se si verifica un'interruzione a livello di regione, il servizio smette di funzionare finché Google non risolve l'interruzione.
Cloud Storage	Puoi creare bucket Cloud Storage in uno dei tre tipi di località: regionale, a due regioni o multiregionale. I dati archiviati nei bucket regionali vengono replicati in modo sincrono in più zone all'interno di una regione. Per una maggiore disponibilità, puoi utilizzare bucket multiregionali o in due regioni, in cui i dati vengono replicati in modo asincrono tra le regioni.
Pub/Sub	Per evitare errori durante i periodi di picchi transitori nel traffico di messaggi, puoi limitare la frequenza delle richieste di pubblicazione configurando il controllo del flusso nelle impostazioni del publisher. Per gestire i tentativi di pubblicazione non riusciti, modifica le variabili di richiesta di ripetizione in base alle esigenze. Per maggiori informazioni, consulta la sezione Riprovare le richieste.
Tutti i prodotti nell'architettura	Dopo aver eseguito il deployment del workload in Google Cloud, utilizza Active Assist per ricevere suggerimenti per ottimizzare ulteriormente l'affidabilità delle risorse cloud. Esamina i consigli e applicali in base alle esigenze del tuo ambiente. Per ulteriori informazioni, vedi Trovare i consigli in Active Assist.

Per principi e consigli di affidabilità specifici per i workload di AI e ML, consulta Prospettiva AI e ML: affidabilità nel framework Well-Architected.

Ottimizzazione dei costi

Questa sezione fornisce indicazioni per ottimizzare il costo di configurazione e gestione di una topologia Google Cloud che crei utilizzando questa architettura di riferimento.

Prodotto	Considerazioni e consigli sulla progettazione
Vertex AI	Per analizzare e gestire i costi di Vertex AI, ti consigliamo di creare una baseline di query al secondo (QPS) e token al secondo (TPS) e monitorare queste metriche dopo il deployment. La baseline aiuta anche con la pianificazione della capacità. Ad esempio, la baseline ti aiuta a determinare quando è necessaria la velocità effettiva sottoposta a provisioning. La scelta del modello appropriato per la tua applicazione di AI generativa è una decisione fondamentale che influisce direttamente su costi e prestazioni. Per identificare il modello che offre un equilibrio ottimale tra prestazioni e costi per il tuo caso d'uso specifico, testa i modelli in modo iterativo. Ti consigliamo di iniziare con il modello più conveniente e passare gradualmente a opzioni più potenti. La lunghezza dei prompt (input) e delle risposte generate (output) influisce direttamente sul rendimento e sui costi. Scrivi prompt brevi, diretti e che forniscano un contesto sufficiente. Progetta i prompt per ottenere risposte concise dal modello. Ad esempio, includi frasi come "riassumi in 2 frasi" o "elenca 3 punti chiave". Per saperne di più, consulta le best practice per la progettazione dei prompt. Per ridurre il costo delle richieste che contengono contenuti ripetuti con un numero elevato di token di input, utilizza la memorizzazione nella cache del contesto. Se pertinente, valuta la previsione batch. Le richieste batch vengono fatturate a un prezzo inferiore rispetto alle richieste standard.
Spanner Graph	Utilizza il gestore della scalabilità automatica gestito per regolare dinamicamente la capacità di calcolo per i database Spanner Graph in base all'utilizzo della CPU e alle esigenze di spazio di archiviazione. Spesso è richiesta una capacità minima, anche per workload di piccole dimensioni. Per una capacità di calcolo prevedibile, stabile o di base, acquista sconti per impegno di utilizzo (CUD). I CUD offrono sconti significativi in cambio dell'impegno a una determinata spesa oraria per la capacità di calcolo. Quando copi i backup in regioni diverse per il ripristino di emergenza o la conformità, tieni conto dei costi del traffico in uscita dalla rete. Per ridurre i costi, copia solo i backup essenziali.
Funzioni Cloud Run	Quando crei funzioni Cloud Run, puoi specificare la quantità di memoria e CPU da allocare. Per controllare i costi, inizia con le allocazioni predefinite (minime) di CPU e memoria. Per migliorare le prestazioni, puoi aumentare l'allocazione configurando il limite di CPU e il limite di memoria. Per maggiori informazioni, consulta la seguente documentazione: Configurare i limiti di memoria per i servizi Configurare i limiti di CPU per i servizi Se riesci a prevedere i requisiti di CPU e memoria, puoi risparmiare con gli sconti per impegno di utilizzo (CUD).
Cloud Storage	Per il bucket Cloud Storage nel sottosistema di importazione dati, scegli una classe di archiviazione appropriata in base ai requisiti del carico di lavoro per la conservazione dei dati e la frequenza di accesso. Ad esempio, per controllare i costi di archiviazione, puoi scegliere la classe Standard e utilizzare Gestione del ciclo di vita degli oggetti. Questo approccio consente il downgrade automatico degli oggetti a una classe di archiviazione a costi inferiori o l'eliminazione automatica degli oggetti in base a condizioni specificate.
Cloud Logging	Per controllare il costo di archiviazione dei log, puoi: Riduci il volume dei log escludendo o filtrando le voci di log non necessarie. Per saperne di più, consulta la sezione Filtri di esclusione. Riduci il periodo di conservazione dei log. Per ulteriori informazioni, vedi Configurare la conservazione personalizzata.
Tutti i prodotti nell'architettura	Dopo aver eseguito il deployment del workload in Google Cloud, utilizza Active Assist per ricevere suggerimenti per ottimizzare ulteriormente il costo delle risorse cloud. Esamina i consigli e applicali in base alle esigenze del tuo ambiente. Per ulteriori informazioni, vedi Trovare i consigli in Active Assist.

Per stimare il costo delle tue risorse Google Cloud , utilizza il Google Cloud Calcolatore prezzi.

Per principi e suggerimenti di ottimizzazione dei costi specifici per i carichi di lavoro AI e ML, consulta Prospettiva AI e ML: ottimizzazione dei costi nel framework Well-Architected.

Ottimizzazione delle prestazioni

Questa sezione descrive le considerazioni e i consigli di progettazione per progettare una topologia in Google Cloud che soddisfi i requisiti di rendimento dei tuoi workload.

Prodotto	Considerazioni e consigli sulla progettazione
Vertex AI	La scelta del modello appropriato per la tua applicazione di AI generativa è una decisione fondamentale che influisce direttamente su costi e prestazioni. Per identificare il modello che offre un equilibrio ottimale tra prestazioni e costi per il tuo caso d'uso specifico, testa i modelli in modo iterativo. Ti consigliamo di iniziare con il modello più conveniente e passare gradualmente a opzioni più potenti. La lunghezza dei prompt (input) e delle risposte generate (output) influisce direttamente sul rendimento e sui costi. Scrivi prompt brevi, diretti e che forniscano un contesto sufficiente. Progetta i prompt per ottenere risposte concise dal modello. Ad esempio, includi frasi come "riassumi in 2 frasi" o "elenca 3 punti chiave". Per saperne di più, consulta le best practice per la progettazione dei prompt. L'ottimizzatore di prompt di Vertex AI ti consente di migliorare e ottimizzare rapidamente il rendimento dei prompt su larga scala ed elimina la necessità di riscriverli manualmente. L'ottimizzatore ti aiuta ad adattare in modo efficiente i prompt a modelli diversi.
Spanner Graph	Per suggerimenti su come ottimizzare le prestazioni di Spanner Graph, consulta la seguente documentazione: Best practice per la progettazione di uno schema Spanner Graph Best practice per l'ottimizzazione delle query Spanner Graph
Funzioni Cloud Run	Per impostazione predefinita, a ogni istanza della funzione Cloud Run vengono assegnati una CPU e 256 MiB di memoria. A seconda dei requisiti di rendimento, puoi configurare i limiti di CPU e memoria. Per ulteriori informazioni, leggi la seguenti documentazione: Configurare i limiti di memoria per i servizi Configurare i limiti di CPU per i servizi Per ulteriori indicazioni sull'ottimizzazione delle prestazioni, consulta Suggerimenti generali per lo sviluppo di Cloud Run.
Cloud Storage	Per caricare file di grandi dimensioni, puoi utilizzare i caricamenti compositi paralleli. Con questa strategia, il file di grandi dimensioni viene suddiviso in blocchi. I blocchi vengono caricati in parallelo su Cloud Storage e poi i dati vengono ricomposti nel cloud. Quando la larghezza di banda della rete e la velocità del disco non sono fattori limitanti, i caricamenti compositi paralleli possono essere più veloci delle normali operazioni di caricamento. Tuttavia, questa strategia presenta alcune limitazioni e implicazioni in termini di costi. Per saperne di più, consulta Caricamenti compositi paralleli.
Tutti i prodotti nell'architettura	Dopo aver eseguito il deployment del workload in Google Cloud, utilizza Active Assist per ricevere consigli per ottimizzare ulteriormente il rendimento delle risorse cloud. Esamina i consigli e applicali in base alle esigenze del tuo ambiente. Per ulteriori informazioni, vedi Trovare i consigli in Active Assist.

Per principi e consigli di ottimizzazione delle prestazioni specifici per i workload di AI e ML, consulta Prospettiva AI e ML: ottimizzazione delle prestazioni nel Well-Architected Framework.

Deployment

Per scoprire come funziona GraphRAG in Google Cloud, scarica ed esegui il seguente notebook Jupyter da GitHub: GraphRAG su Google Cloud con Spanner Graph e Vertex AI Agent Engine.

Passaggi successivi

Crea applicazioni GraphRAG utilizzando Spanner Graph e LangChain
Scegliere modelli e infrastruttura per le tue applicazioni di AI generativa
Infrastruttura RAG per l'AI generativa utilizzando Vertex AI e Vector Search
Infrastruttura RAG per l'AI generativa utilizzando Vertex AI e AlloyDB per PostgreSQL
Infrastruttura RAG per l'AI generativa utilizzando GKE e Cloud SQL
Infrastruttura RAG per l'AI generativa utilizzando Google Agentspace e Vertex AI
Per scoprire di più sui principi e sui suggerimenti architetturali per i workload di AI in Google Cloud, consulta il Well-Architected Framework: prospettiva AI e ML.
Per ulteriori architetture di riferimento, diagrammi e best practice, esplora il Cloud Architecture Center.

Collaboratori

Autori:

Tristan Li | Principal Architect, AI/ML
Kumar Dhanagopal | Sviluppatore di soluzioni cross-prodotto

Altri collaboratori:

Ahsif Sheikh | AI Customer Engineer
Ashish Chauhan | AI Customer Engineer
Greg Brosman | Product Manager
Lukas Bruderer | Product Manager, Cloud AI
Nanditha Embar | AI Customer Engineer
Piyush Mathur | Product Manager, Spanner
Smitha Venkat | AI Customer Engineer