Questa pagina evidenzia alcuni casi d'uso per l'utilizzo di Cloud Run come piattaforma di hosting per i seguenti casi d'uso dell'AI:
Ospitare applicazioni di AI su Cloud Run
Le applicazioni di AI utilizzano modelli di AI per funzionare o svolgere un'attività specifica. Ad esempio, un'applicazione AI può utilizzare un modello di AI per riassumere documenti o essere un'interfaccia di chat che utilizza un database vettoriale per recuperare più contesto.
Cloud Run è una delle infrastrutture di hosting di applicazioni che fornisce un ambiente completamente gestito per i tuoi workload delle applicazioni di AI.
Cloud Run si integra con modelli di AI come l'API Gemini, gli endpoint Vertex AI o i modelli ospitati su un servizio Cloud Run abilitato per GPU.
Cloud Run si integra anche con Cloud SQL per PostgreSQL e AlloyDB per PostgreSQL, due database che offrono l'estensione pgvector
per la generazione aumentata dal recupero (RAG).
Ospitare agenti AI su Cloud Run
Gli agenti AI combinano l'intelligenza dei modelli avanzati di AI con l'accesso agli strumenti per agire per conto dell'utente e sotto il suo controllo.
Puoi implementare gli agenti di AI come servizi Cloud Run per orchestrare un insieme di attività asincrone e fornire informazioni agli utenti, coinvolgendo più interazioni richiesta-risposta.
Architettura dell'agente AI su Cloud Run
Una tipica architettura di agenti AI di cui è stato eseguito il deployment su Cloud Run può coinvolgere diversi componenti di Google Cloud e al di fuori di Google Cloud:
Serving e orchestrazione:un servizio Cloud Run funge da endpoint API scalabile e può gestire più utenti simultanei tramite lo scaling automatico, on demand e rapido delle istanze. Questo servizio esegue la logica principale dell'agente, spesso utilizzando un framework di orchestrazione dell'AI come LangGraph o Agent Development Kit (ADK). Questo livello coordina le chiamate ad altri componenti. Cloud Run supporta lo streaming delle risposte HTTP all'utente utilizzando WebSockets. L'identità del servizio integrata di Cloud Run fornisce credenziali sicure e automatiche per chiamare le API Google Cloud senza gestire le chiavi API.
Modelli di AI: il livello di orchestrazione chiama i modelli per le funzionalità di ragionamento. Ad esempio:
- L'API Gemini
- Modelli personalizzati o altri foundation model di cui è stato eseguito il deployment sugli endpoint Vertex AI
- I tuoi modelli ottimizzati forniti da un servizio Cloud Run abilitato alla GPU separato
Memoria:gli agenti spesso hanno bisogno di memoria per conservare il contesto e imparare dalle interazioni passate.
- La memoria a breve termine può essere implementata collegando Cloud Run a Memorystore for Redis.
- La memoria a lungo termine per archiviare la cronologia delle conversazioni o ricordare le preferenze dell'utente può essere implementata connettendo Cloud Run a Firestore, un database NoSQL scalabile e serverless.
Database e recupero:per la Retrieval-Augmented Generation (RAG) o il recupero di dati strutturati:
- Esegui query su informazioni specifiche sulle entità o esegui ricerche di similarità sugli incorporamenti connettendo Cloud Run a database vettoriali come Cloud SQL per PostgreSQL o AlloyDB per PostgreSQL con l'estensione
pgvector
.
- Esegui query su informazioni specifiche sulle entità o esegui ricerche di similarità sugli incorporamenti connettendo Cloud Run a database vettoriali come Cloud SQL per PostgreSQL o AlloyDB per PostgreSQL con l'estensione
Strumenti:l'orchestratore utilizza strumenti per eseguire attività specifiche per cui i modelli non sono adatti o per interagire con servizi, API o siti web esterni. Questi possono includere:
- Utilità di base: calcoli matematici precisi, conversioni di tempo o altre utilità simili possono essere eseguiti nel servizio Cloud Run di orchestrazione.
- Chiamata API: effettua chiamate ad altre API interne o di terze parti (accesso in lettura o scrittura).
- Generazione di immagini o grafici: utilizza modelli di generazione di immagini o esegui librerie di grafici per creare contenuti visivi in modo rapido ed efficace.
- Automazione del browser e del sistema operativo: esegui un sistema operativo headless o grafico completo all'interno delle istanze container per consentire all'agente di navigare sul web, estrarre informazioni dai siti web o eseguire azioni utilizzando clic e input da tastiera. Il servizio Cloud Run restituisce i pixel degli schermi. Utilizza librerie come Puppeteer per controllare il browser.
- Esecuzione del codice: Cloud Run fornisce un ambiente sicuro con sandbox multilivello e può essere configurato per il servizio di esecuzione del codice con autorizzazioni IAM minime o nulle. Un job Cloud Run può essere utilizzato per eseguire il codice in modo asincrono e un servizio Cloud Run con una concorrenza di 1 può essere utilizzato per l'esecuzione sincrona.
Passaggi successivi
- Guarda Crea agenti AI su Cloud Run.
- Prova il codelab per scoprire come creare ed eseguire il deployment di un'app LangChain su Cloud Run.
- Scopri come eseguire il deployment di Agent Development Kit (ADK) su Cloud Run.
- Prova il codelab per utilizzare un server MCP su Cloud Run con un agente ADK.
- Prova il codelab per il deployment dell'agente ADK su Cloud Run con GPU.
- Trova esempi di agenti pronti all'uso in Esempi di Agent Development Kit (ADK).
- Ospita server Model Context Protocol (MCP) su Cloud Run.