KI-Anwendungen und ‑Agenten in Cloud Run hosten

Auf dieser Seite werden einige Anwendungsfälle für die Verwendung von Cloud Run als Hostingplattform für die folgenden KI-Anwendungsfälle beschrieben:

KI-Anwendungen in Cloud Run hosten

KI-Anwendungen verwenden KI-Modelle, um eine bestimmte Aufgabe auszuführen. Eine KI-Anwendung kann beispielsweise ein KI-Modell verwenden, um Dokumente zusammenzufassen, oder eine Chatoberfläche sein, die eine Vektordatenbank nutzt, um mehr Kontext abzurufen.

Cloud Run ist eine der Infrastrukturen für das Anwendungs-Hosting, die eine vollständig verwaltete Umgebung für Ihre KI-Anwendungsarbeitslasten bietet. Cloud Run lässt sich in KI-Modelle wie die Gemini API, Vertex AI-Endpunkte oder Modelle einbinden, die in einem GPU-fähigen Cloud Run-Dienst gehostet werden. Cloud Run lässt sich auch in Cloud SQL for PostgreSQL und AlloyDB for PostgreSQL einbinden. Diese beiden Datenbanken bieten die pgvector-Erweiterung für Retrieval-Augmented Generation (RAG).

KI‑Agents in Cloud Run hosten

KI-Agents kombinieren die Intelligenz fortschrittlicher KI-Modelle mit dem Zugriff auf Tools, um Aktionen im Namen des Nutzers und unter seiner Kontrolle auszuführen.

Sie können KI-Agents als Cloud Run-Dienste implementieren, um eine Reihe asynchroner Aufgaben zu orchestrieren und Nutzern Informationen bereitzustellen. Dazu sind mehrere Anfrage-Antwort-Interaktionen erforderlich.

Architektur für KI-Agenten in Cloud Run

Eine typische KI-Agent-Architektur, die in Cloud Run bereitgestellt wird, kann mehrere Komponenten aus Google Cloud und außerhalb von Google Cloudumfassen:

Architektur eines KI-Agents in Cloud Run

  1. Bereitstellung und Orchestrierung:Ein Cloud Run-Dienst fungiert als skalierbarer API-Endpunkt und kann mehrere gleichzeitige Nutzer durch automatische, bedarfsgesteuerte und schnelle Skalierung von Instanzen verarbeiten. In diesem Dienst wird die Kernlogik des Agents ausgeführt, häufig mit einem KI-Orchestrierungs-Framework wie LangGraph oder dem Agent Development Kit (ADK). Diese Ebene koordiniert Aufrufe an andere Komponenten. Cloud Run unterstützt das Streamen von HTTP-Antworten zurück an den Nutzer über WebSockets. Die integrierte Dienstidentität von Cloud Run bietet sichere und automatische Anmeldedaten für den Aufruf von Google Cloud APIs, ohne dass API-Schlüssel verwaltet werden müssen.

  2. KI-Modelle:Die Orchestrierungsebene ruft Modelle für die Reasoning-Funktionen auf. Beispiele:

  3. Speicher:Agents benötigen häufig Speicher, um den Kontext beizubehalten und aus vergangenen Interaktionen zu lernen.

    • Kurzzeitspeicher kann durch Verbinden von Cloud Run mit Memorystore for Redis implementiert werden.
    • Langzeitspeicher zum Speichern des Unterhaltungsverlaufs oder zum Speichern der Einstellungen des Nutzers kann implementiert werden, indem Cloud Run mit Firestore verbunden wird, einer skalierbaren, serverlosen NoSQL-Datenbank.
  4. Datenbanken und Abruf:Für Retrieval-Augmented Generation (RAG) oder zum Abrufen strukturierter Daten:

    • Mit der pgvector-Erweiterung können Sie Cloud Run mit Vektordatenbanken wie Cloud SQL for PostgreSQL oder AlloyDB for PostgreSQL verbinden, um bestimmte Informationen zu Entitäten abzufragen oder Ähnlichkeitssuchen für Einbettungen durchzuführen.
  5. Tools:Der Orchestrator verwendet Tools, um bestimmte Aufgaben auszuführen, für die Modelle nicht geeignet sind, oder um mit externen Diensten, APIs oder Websites zu interagieren. Beispiel:

    • Einfache Dienstprogramme: Genaue mathematische Berechnungen, Zeitumrechnungen oder ähnliche Dienstprogramme können im orchestrating Cloud Run-Dienst ausgeführt werden.
    • API-Aufrufe: Aufrufe anderer interner oder Drittanbieter-APIs (Lese- oder Schreibzugriff).
    • Bilder oder Diagramme erstellen: Mit Modellen zur Bilderstellung oder Diagrammbibliotheken lassen sich schnell und effektiv visuelle Inhalte erstellen.
    • Browser- und Betriebssystemautomatisierung: Führen Sie ein Headless- oder ein vollständiges grafisches Betriebssystem in Containerinstanzen aus, damit der Agent im Web surfen, Informationen von Websites extrahieren oder Aktionen durch Klicks und Tastatureingaben ausführen kann. Der Cloud Run-Dienst gibt Pixel von Bildschirmen zurück. Verwenden Sie Bibliotheken wie Puppeteer, um den Browser zu steuern.
    • Codeausführung: Cloud Run bietet eine sichere Umgebung mit mehrschichtiger Sandbox und kann mit minimalen oder keinen IAM-Berechtigungen für den Codeausführungsdienst konfiguriert werden. Mit einem Cloud Run-Job kann Code asynchron ausgeführt werden. Ein Cloud Run-Dienst mit einer Concurrency von 1 kann für die synchrone Ausführung verwendet werden.

Nächste Schritte