Dieses Dokument enthält eine Referenzarchitektur, mit der Sie die Infrastruktur für generative KI-Anwendungen mit GraphRAG in Google Cloudentwerfen können. Die Zielgruppe umfasst Architekten, Entwickler und Administratoren, die intelligente Systeme zum Abrufen von Informationen entwickeln und verwalten. In diesem Dokument werden grundlegende Kenntnisse der Konzepte von KI, Verwaltung von Graphendaten und Knowledge Graph vorausgesetzt. Dieses Dokument enthält keine spezifischen Anleitungen zum Entwerfen und Entwickeln von GraphRAG-Anwendungen.
GraphRAG ist ein graphbasierter Ansatz für Retrieval Augmented Generation (RAG). RAG trägt dazu bei, KI-generierte Antworten zu fundieren, indem Prompts mit kontextrelevanten Daten ergänzt werden, die über die Vektorsuche abgerufen werden. GraphRAG kombiniert die Vektorsuche mit einer Knowledge Graph-Abfrage, um Kontextdaten abzurufen, die die Vernetzung von Daten aus verschiedenen Quellen besser widerspiegeln. Prompts, die mit GraphRAG erweitert werden, können detailliertere und relevantere KI-Antworten generieren.
Architektur
Das folgende Diagramm zeigt eine Architektur für eine GraphRAG-fähige generative KI-Anwendung in Google Cloud:
Die Architektur im obigen Diagramm besteht aus zwei Subsystemen: Datenerfassung und Bereitstellung. In den folgenden Abschnitten werden der Zweck der Subsysteme und der Datenfluss innerhalb und zwischen den Subsystemen beschrieben.
Subsystem für die Datenaufnahme
Das Subsystem für die Datenaufnahme nimmt Daten aus externen Quellen auf und bereitet sie dann für GraphRAG vor. Der Workflow für die Datenerfassung und -vorbereitung umfasst die folgenden Schritte:
- Daten werden in einen Cloud Storage-Bucket aufgenommen. Diese Daten können von einem Datenanalysten hochgeladen, aus einer Datenbank aufgenommen oder aus einer beliebigen Quelle gestreamt werden.
- Wenn Daten aufgenommen werden, wird eine Nachricht an ein Pub/Sub-Thema gesendet.
- Pub/Sub löst eine Cloud Run-Funktion aus, um die hochgeladenen Daten zu verarbeiten.
- Die Cloud Run-Funktion erstellt mithilfe der Gemini API in Vertex AI und Tools wie
LLMGraphTransformer
von LangChain einen Wissensgraphen aus den Eingabedateien. - Die Funktion speichert den Knowledge Graph in einer Spanner Graph-Datenbank.
- Die Funktion segmentiert den Textinhalt der Datendateien in granulare Einheiten. Dazu werden Tools wie
RecursiveCharacterTextSplitter
von LangChain oder der Layout Parser von Document AI verwendet. - Die Funktion erstellt Vektoreinbettungen der Textsegmente mit den Vertex AI Embeddings APIs.
- Die Funktion speichert die Vektoreinbettungen und zugehörigen Knoten im Spanner Graph.
Die Vektoreinbettungen dienen als Grundlage für den semantischen Abruf. Die Knoten des Wissensgraphen ermöglichen die Analyse und das Durchlaufen komplexer Datenbeziehungen und ‑muster.
Subsystem für die Bereitstellung
Das Subsystem für die Bereitstellung verwaltet den Lebenszyklus von Anfragen und Antworten zwischen der generativen KI-Anwendung und ihren Nutzern. Der Bereitstellungsablauf umfasst die folgenden Schritte:
- Ein Nutzer sendet eine Anfrage in natürlicher Sprache an einen KI-Agenten, der in Vertex AI Agent Engine bereitgestellt wird.
- Der Agent verarbeitet die Anfrage so:
- Die Anfrage wird mithilfe der Vertex AI Embeddings APIs in Vektoreinbettungen umgewandelt.
- Ruft Graphknoten ab, die mit der Anfrage in Verbindung stehen, indem eine Vektorähnlichkeitssuche in der Einbettungsdatenbank durchgeführt wird.
- Ruft Daten ab, die sich auf die Anfrage beziehen, indem der Wissensgraph durchlaufen wird.
- Ergänzt den Prompt, indem die ursprüngliche Anfrage mit den abgerufenen Grafdaten kombiniert wird.
- Die Ergebnisse werden mithilfe der AI Applications Ranking API gerankt. Diese API verwendet Knoten und Kanten, die aus der Graphdatenbank abgerufen werden. Die Reihenfolge basiert auf der semantischen Relevanz für die Anfrage.
- Fasst die Ergebnisse zusammen, indem die Gemini API in Vertex AI aufgerufen wird.
- Der Agent sendet das zusammengefasste Ergebnis dann an den Nutzer.
Sie können Logs der Anfrage-Antwort-Aktivität in Cloud Logging speichern und ansehen und mit Cloud Monitoring ein logbasiertes Monitoring einrichten.
Verwendete Produkte
In dieser Referenzarchitektur werden die folgenden Google-Produkte und -Tools verwendet:
- Spanner Graph: Eine Graphdatenbank, die die Skalierbarkeit, Verfügbarkeit und Konsistenz von Spanner bietet.
- Vertex AI: Eine ML-Plattform, mit der Sie ML-Modelle und KI-Anwendungen trainieren und bereitstellen und LLMs für die Verwendung in KI-basierten Anwendungen anpassen können.
- Cloud Run Functions: Eine serverlose Computing-Plattform, mit der Sie Einzweckfunktionen direkt in Google Cloudausführen können.
- Cloud Storage: Ein kostengünstiger, unbegrenzter Objektspeicher für verschiedene Datentypen. Auf Daten kann von innerhalb und außerhalb von Google Cloudzugegriffen werden. Sie werden zu Redundanzzwecken über Standorte hinweg repliziert.
- Pub/Sub: Ein asynchroner, skalierbarer Messaging-Dienst, der Dienste entkoppelt, die Nachrichten von Diensten erzeugen, die diese Nachrichten verarbeiten.
- Cloud Logging: Ein Echtzeit-Log-Verwaltungssystem mit Speicher, Suche, Analyse und Benachrichtigungen.
- Cloud Monitoring: Ein Dienst, der Einblicke in die Leistung, Verfügbarkeit und Integrität Ihrer Anwendungen und Infrastruktur bietet.
Anwendungsfälle
GraphRAG ermöglicht den intelligenten Datenabruf für Anwendungsfälle in verschiedenen Branchen. In diesem Abschnitt werden einige Anwendungsfälle in den Bereichen Gesundheitswesen, Finanzwesen, Rechtsberatung und Fertigung beschrieben.
Gesundheit und Medizin: Klinische Entscheidungsunterstützung
In klinischen Entscheidungsunterstützungssystemen integriert GraphRAG große Mengen an Daten aus medizinischer Literatur, elektronischen Patientenakten, Datenbanken für Arzneimittelwechselwirkungen und Ergebnissen klinischer Studien in ein einheitliches Wissensdiagramm. Wenn Ärzte und Forscher die Symptome und aktuellen Medikamente eines Patienten abfragen, durchsucht GraphRAG den Knowledge Graph, um relevante Erkrankungen und potenzielle Wechselwirkungen zwischen Medikamenten zu ermitteln. Außerdem können auf Grundlage anderer Daten wie dem genetischen Profil des Patienten personalisierte Behandlungsempfehlungen generiert werden. Diese Art des Informationsabrufs liefert Antworten, die kontextbezogener und evidenzbasiert sind als der Abgleich von Stichwörtern.
Finanzdienstleistungen: Finanzdaten vereinheitlichen
Finanzdienstleister verwenden Wissensgraphen, um ihren Analysten eine einheitliche, strukturierte Ansicht von Daten aus unterschiedlichen Quellen wie Analystenberichten, Telefonkonferenzen zu Erträgen und Risikobewertungen zu bieten. Knowledge Graphs identifizieren wichtige Datenentitäten wie Unternehmen und Führungskräfte und bilden die entscheidenden Beziehungen zwischen den Entitäten ab. Dieser Ansatz bietet ein umfangreiches, vernetztes Datennetzwerk, das detailliertere und effizientere Finanzanalysen ermöglicht. Analysten können bisher verborgene Informationen aufdecken, z. B. komplexe Abhängigkeiten in der Lieferkette, Überschneidungen bei Vorstandsmitgliedern von Wettbewerbern und die Gefährdung durch komplexe geopolitische Risiken.
Rechtsdienstleistungen: Fallstudien und Präzedenzanalysen
Im Rechtsbereich kann GraphRAG verwendet werden, um personalisierte rechtliche Empfehlungen auf der Grundlage von Präzedenzfällen, Gesetzen, Rechtsprechung, behördlichen Aktualisierungen und internen Dokumenten zu generieren. Bei der Vorbereitung auf Fälle können Anwälte differenzierte Fragen zu bestimmten rechtlichen Argumenten, früheren Urteilen in ähnlichen Fällen oder den Auswirkungen neuer Gesetze stellen. GraphRAG nutzt die Vernetzung des verfügbaren rechtlichen Wissens, um relevante Präzedenzfälle zu identifizieren und ihre Anwendbarkeit zu erläutern. Es kann auch Gegenargumente vorschlagen, indem es die Beziehungen zwischen Rechtskonzepten, Gesetzen und gerichtlichen Auslegungen nachvollzieht. Mit diesem Ansatz können Rechtsexperten umfassendere und präzisere Informationen erhalten als mit herkömmlichen Methoden zum Abrufen von Wissen.
Fertigung und Lieferkette: Institutionelles Wissen freisetzen
Fertigungs- und Lieferkettenprozesse erfordern ein hohes Maß an Präzision. Das Wissen, das erforderlich ist, um das erforderliche Maß an Präzision aufrechtzuerhalten, ist oft in Tausenden von dichten, statischen Standardarbeitsverfahren (Standard Operating Procedure, SOP) enthalten. Wenn eine Produktionslinie oder eine Maschine in einer Fabrik ausfällt oder ein logistisches Problem auftritt, verschwenden Ingenieure und Techniker oft wertvolle Zeit mit der Suche in unzusammenhängenden PDF-Dokumenten, um das Problem zu diagnostizieren und zu beheben. Durch die Kombination von Knowledge Graphs und konversationeller KI kann verborgenes institutionelles Wissen in einen interaktiven Diagnosepartner verwandelt werden.
Designalternativen
Die in diesem Dokument beschriebene Architektur ist modular. Sie können bestimmte Komponenten der Architektur anpassen, um je nach Bedarf alternative Produkte, Tools und Technologien zu verwenden.
Knowledge Graph erstellen
Mit dem LLMGraphTransformer
-Tool von LangChain können Sie einen Knowledge Graph von Grund auf neu erstellen. Wenn Sie das Diagrammschema mit LLMGraphTransformer
-Parametern wie allowed_nodes
, allowed_relationships
, node_properties
und relationship_properties
angeben, können Sie die Qualität des resultierenden Wissensgraphen verbessern. LLMGraphTransformer
kann jedoch Entitäten aus generischen Domains extrahieren und ist daher möglicherweise nicht für Nischendomains wie Gesundheitswesen oder Pharmazeutika geeignet. Wenn Ihre Organisation bereits über einen robusten Prozess zum Erstellen von Wissensgraphen verfügt, ist das in dieser Referenzarchitektur gezeigte Subsystem für die Datenaufnahme optional.
Knowledge Graph und Vektoreinbettungen speichern
In der Architektur in diesem Dokument wird Spanner als Datenspeicher für den Wissensgraphen und die Vektoreinbettungen verwendet. Wenn Ihre Enterprise-Wissensgraphen bereits an anderer Stelle vorhanden sind, z. B. auf einer Plattform wie Neo4j, sollten Sie möglicherweise eine Vektordatenbank für die Einbettungen verwenden. Dieser Ansatz erfordert jedoch zusätzlichen Verwaltungsaufwand und kann teurer sein. Spanner bietet einen konsolidierten, global konsistenten Datenspeicher für sowohl Diagrammstrukturen als auch Vektoreinbettungen. Ein solcher Datenspeicher ermöglicht eine einheitliche Datenverwaltung, die zur Optimierung von Kosten, Leistung, Sicherheits-Governance und betrieblicher Effizienz beiträgt.
Laufzeit des KI-Agenten
In dieser Referenzarchitektur wird der Agent in der Vertex AI Agent Engine bereitgestellt, die eine verwaltete Laufzeit für KI-Agents bietet. Weitere Optionen sind Cloud Run und Google Kubernetes Engine (GKE). Eine Erläuterung dieser Optionen würde den Rahmen dieses Dokuments sprengen.
Fundierung mit RAG
Wie im Abschnitt Anwendungsfälle beschrieben, ermöglicht GraphRAG in vielen Szenarien den intelligenten Datenabruf zur Fundierung. Wenn die Quelldaten, die Sie zum Erweitern von Prompts verwenden, jedoch keine komplexen Beziehungen aufweisen, ist RAG möglicherweise eine geeignete Wahl für Ihre generative KI-Anwendung.
Die folgenden Referenzarchitekturen zeigen, wie Sie die für RAG in Google Cloud erforderliche Infrastruktur mithilfe von verwalteten Datenbanken mit Vektorfunktionen oder speziellen Vektorsuchprodukten erstellen können:
- Infrastruktur für eine RAG-fähige generative KI-Anwendung mit Vertex AI und Vector Search
- Infrastruktur für eine RAG-fähige generative KI-Anwendung mit Vertex AI und AlloyDB for PostgreSQL
- Infrastruktur für eine RAG-fähige generative KI-Anwendung mit GKE und Cloud SQL
Designaspekte
In diesem Abschnitt werden Designfaktoren, Best Practices und Empfehlungen beschrieben, die Sie berücksichtigen sollten, wenn Sie diese Referenzarchitektur verwenden, um eine Topologie zu entwickeln, die Ihren spezifischen Anforderungen an Sicherheit, Zuverlässigkeit, Kosten und Leistung entspricht.
Die Anleitung in diesem Abschnitt ist nicht vollständig. Je nach den Anforderungen Ihrer Arbeitslast und den von Ihnen verwendeten Google Cloud und Drittanbieterprodukten und ‑funktionen müssen möglicherweise zusätzliche Designfaktoren und Vor- und Nachteile berücksichtigt werden.
Sicherheit, Datenschutz und Compliance
In diesem Abschnitt werden Designüberlegungen und Empfehlungen beschrieben, mit denen Sie eine Topologie in Google Cloud entwerfen können, die die Sicherheits- und Compliance-Anforderungen Ihrer Arbeitslast erfüllt.
Produkt | Designüberlegungen und ‑empfehlungen |
---|---|
Vertex AI | Vertex AI unterstützt Google Cloud Sicherheitskontrollen, mit denen Sie Ihre Anforderungen an Datenstandort, Datenverschlüsselung, Netzwerksicherheit und Access Transparency erfüllen können. Weitere Informationen erhalten Sie in dieser Dokumentation:
Generative KI-Modelle können schädliche Antworten generieren, insbesondere wenn sie explizit dazu aufgefordert werden. Um die Sicherheit zu erhöhen und potenziellen Missbrauch zu verhindern, können Sie Inhaltsfilter konfigurieren, die als Barrieren für schädliche Antworten dienen. Weitere Informationen finden Sie unter Sicherheits- und Inhaltsfilter. |
Spanner Graph | Standardmäßig werden in Spanner Graph gespeicherte Daten mit Google-owned and Google-managed encryption keysverschlüsselt. Wenn Sie Verschlüsselungsschlüssel verwenden müssen, die Sie selbst steuern und verwalten, können Sie dazu vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEKs) verwenden. Weitere Informationen finden Sie unter Informationen zu CMEK. |
Cloud Run-Funktionen | Standardmäßig verschlüsselt Cloud Run Daten mit Google-owned and Google-managed encryption keys. Zum Schutz Ihrer Container mit von Ihnen kontrollierten Schlüsseln können Sie CMEKs verwenden. Weitere Informationen finden Sie unter Vom Kunden verwaltete Verschlüsselungsschlüssel verwenden. Damit nur autorisierte Container-Images in Cloud Run bereitgestellt werden, können Sie die Binärautorisierung verwenden. Cloud Run unterstützt Sie dabei, die Anforderungen an den Datenstandort zu erfüllen. Ihre Cloud Run-Funktionen werden in der ausgewählten Region ausgeführt. |
Cloud Storage |
Standardmäßig werden die in Cloud Storage gespeicherten Daten mit Google-owned and Google-managed encryption keysverschlüsselt. Bei Bedarf können Sie CMEKs oder Ihre eigenen Schlüssel verwenden, die Sie mithilfe einer externen Verwaltungsmethode wie vom Kunden bereitgestellte Verschlüsselungsschlüssel (Customer-Supplied Encryption Keys, CSEKs) verwalten. Weitere Informationen finden Sie unter Datenverschlüsselungsoptionen. Cloud Storage bietet Ihnen zwei Systeme, um Nutzern die Berechtigung zum Zugriff auf Ihre Buckets und Objekte zu erteilen: Identity and Access Management (IAM) und Access Control Lists (ACLs). In den meisten Fällen empfehlen wir die Verwendung von IAM, mit dem Sie Berechtigungen auf Bucket- und Projektebene erteilen können. Weitere Informationen finden Sie unter Zugriffssteuerung. Die Daten, die Sie über Cloud Storage in das Datenaufnahmesubsystem laden, können sensible Daten enthalten. Mit Sensitive Data Protection können Sie sensible Daten ermitteln, klassifizieren und de-identifizieren. Weitere Informationen finden Sie unter Sensitive Data Protection mit Cloud Storage verwenden. Cloud Storage unterstützt Sie dabei, die Anforderungen an den Datenstandort zu erfüllen. Die Daten werden in der von Ihnen angegebenen Region gespeichert oder repliziert. |
Pub/Sub | Standardmäßig verschlüsselt Pub/Sub alle Nachrichten, sowohl im inaktiven Zustand als auch bei der Übertragung, mit Google-owned and Google-managed encryption keys. Pub/Sub unterstützt die Verwendung von CMEKs für die Nachrichtenverschlüsselung auf Anwendungsebene. Weitere Informationen finden Sie unter Nachrichtenverschlüsselung konfigurieren. Wenn Sie Anforderungen an den Datenstandort haben, können Sie Richtlinien für den Nachrichtenspeicher konfigurieren, um sicherzustellen, dass Nachrichtendaten an bestimmten Standorten gespeichert werden. |
Cloud Logging | Audit-Logs zur Administratoraktivität sind standardmäßig für alle Google Cloud Dienste aktiviert, die in dieser Referenzarchitektur verwendet werden. In diesen Logs werden API-Aufrufe oder andere Aktionen aufgezeichnet, die die Konfiguration oder Metadaten vonGoogle Cloud -Ressourcen ändern. Für die Google Cloud -Dienste, die in dieser Architektur verwendet werden, können Sie Audit-Logs zum Datenzugriff aktivieren. Mit diesen Logs können Sie API-Aufrufe verfolgen, die die Konfiguration oder Metadaten von Ressourcen oder Nutzeranfragen zum Erstellen, Ändern oder Lesen der von Nutzern bereitgestellten Ressourcendaten lesen. Zur Erfüllung der Anforderungen an den Datenstandort können Sie Cloud Logging so konfigurieren, dass Logdaten in der von Ihnen angegebenen Region gespeichert werden. Weitere Informationen finden Sie unter Logs regionalisieren. |
Sicherheitsgrundsätze und ‑empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Google Cloud Well-Architected Framework unter KI- und ML-Perspektive: Sicherheit.
Zuverlässigkeit
In diesem Abschnitt werden Designüberlegungen und Empfehlungen zum Erstellen und Betreiben einer zuverlässigen Infrastruktur für Ihre Bereitstellung in Google Cloudbeschrieben.
Produkt | Designüberlegungen und ‑empfehlungen |
---|---|
Vertex AI | Vertex AI unterstützt dynamische gemeinsame Kontingente (Dynamic Shared Quota, DSQ) für Gemini-Modelle. Mit DSQ können Sie Pay-as-you-go-Anfragen flexibel verwalten. Sie müssen das Kontingent nicht mehr manuell verwalten oder Kontingenterhöhungen anfordern. DSQ weist die verfügbaren Ressourcen für ein bestimmtes Modell und eine bestimmte Region dynamisch auf aktive Kunden auf. Bei DSQ gibt es keine vordefinierten Kontingentlimits für einzelne Kunden. Wenn die Anzahl Ihrer Anfragen die zugewiesene Kapazität überschreitet, wird der Fehlercode 429 zurückgegeben. Für geschäftskritische Arbeitslasten, die durchgehend einen hohen Durchsatz erfordern, können Sie mit Provisioned Throughput Durchsatz reservieren. Wenn Daten in mehreren Regionen oder Ländern freigegeben werden können, können Sie einen globalen Endpunkt verwenden. |
Spanner Graph | Spanner ist auf hohe Datenverfügbarkeit und globale Skalierbarkeit ausgelegt. Um die Verfügbarkeit auch bei einem regionalen Ausfall zu gewährleisten, bietet Spanner multiregionale Konfigurationen, bei denen Daten in mehreren Zonen über mehrere Regionen hinweg repliziert werden. Zusätzlich zu diesen integrierten Funktionen für die Ausfallsicherheit bietet Spanner die folgenden Funktionen zur Unterstützung umfassender Strategien zur Notfallwiederherstellung:
Weitere Informationen finden Sie unter Notfallwiederherstellung – Übersicht. |
Cloud Run-Funktionen | Cloud Run ist ein regionaler Dienst. Die Daten werden synchron über mehrere Zonen innerhalb einer Region hinweg gespeichert. Der Traffic wird automatisch auf die Zonen verteilt. Wenn ein Zonenausfall auftritt, wird Cloud Run weiterhin ausgeführt und es gehen keine Daten verloren. Wenn ein regionaler Ausfall auftritt, wird der Dienst so lange ausgeführt, bis Google den Ausfall behoben hat. |
Cloud Storage | Sie können Cloud Storage-Buckets an einem von drei Standorttypen erstellen: regional, biregional oder multiregional. Daten, die in regionalen Buckets gespeichert sind, werden synchron über mehrere Zonen innerhalb einer Region hinweg repliziert. Für eine höhere Verfügbarkeit können Sie Buckets mit zwei oder mehr Regionen verwenden, bei denen Daten asynchron über Regionen hinweg repliziert werden. |
Pub/Sub | Um Fehler während vorübergehender Spitzen beim Nachrichtentraffic zu vermeiden, können Sie die Rate der Veröffentlichungsanfragen begrenzen, indem Sie die Ablaufsteuerung in den Publisher-Einstellungen konfigurieren. Passen Sie die Variablen für Wiederholungsanfragen nach Bedarf an, um fehlgeschlagene Veröffentlichungsversuche zu verarbeiten. Weitere Informationen finden Sie unter Anfragen wiederholen. |
Alle Produkte in der Architektur | Nachdem Sie Ihre Arbeitslast in Google Cloudbereitgestellt haben, können Sie Active Assist verwenden, um Empfehlungen zur weiteren Optimierung der Zuverlässigkeit Ihrer Cloud-Ressourcen zu erhalten. Prüfen Sie die Empfehlungen und wenden Sie sie entsprechend Ihrer Umgebung an. Weitere Informationen finden Sie unter Empfehlungen im Recommendation Hub finden. |
Zuverlässigkeitsprinzipien und ‑empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Zuverlässigkeit.
Kostenoptimierung
Dieser Abschnitt enthält Anleitungen zur Optimierung der Kosten für die Einrichtung und den Betrieb einer Google Cloud Topologie, die Sie mithilfe dieser Referenzarchitektur erstellen.
Produkt | Designüberlegungen und ‑empfehlungen |
---|---|
Vertex AI | Um die Kosten für Vertex AI zu analysieren und zu verwalten, empfehlen wir, eine Baseline für Anfragen pro Sekunde (QPS) und Tokens pro Sekunde (TPS) zu erstellen und diese Messwerte nach der Bereitstellung zu beobachten. Die Baseline hilft auch bei der Kapazitätsplanung. Anhand der Baseline können Sie beispielsweise ermitteln, wann bereitgestellter Durchsatz erforderlich ist. Die Auswahl des geeigneten Modells für Ihre generative KI-Anwendung ist eine wichtige Entscheidung, die sich direkt auf Kosten und Leistung auswirkt. Um das Modell zu ermitteln, das für Ihren spezifischen Anwendungsfall ein optimales Gleichgewicht zwischen Leistung und Kosten bietet, sollten Sie Modelle iterativ testen. Wir empfehlen, mit dem kostengünstigsten Modell zu beginnen und nach und nach zu leistungsstärkeren Optionen zu wechseln. Die Länge Ihrer Prompts (Eingabe) und der generierten Antworten (Ausgabe) wirkt sich direkt auf Leistung und Kosten aus. Formulieren Sie Prompts kurz und direkt und geben Sie ausreichend Kontext an. Formulieren Sie Ihre Prompts so, dass das Modell prägnante Antworten liefert. Sie können z. B. Formulierungen wie „Fasse in zwei Sätzen zusammen“ oder „Liste drei wichtige Punkte auf“ verwenden. Weitere Informationen finden Sie unter Best Practices für das Prompt-Design. Um die Kosten für Anfragen zu reduzieren, die wiederkehrende Inhalte mit vielen Eingabetokens enthalten, verwenden Sie das Kontext-Caching. Falls relevant, sollten Sie die Batchvorhersage in Betracht ziehen. Batchanfragen werden zu einem niedrigeren Preis als Standardanfragen abgerechnet. |
Spanner Graph | Mit dem verwalteten Autoscaler können Sie die Rechenkapazität für Spanner Graph-Datenbanken dynamisch an die CPU-Auslastung und den Speicherbedarf anpassen. Häufig ist eine Mindestkapazität erforderlich, auch für kleine Arbeitslasten. Für eine vorhersehbare, stabile oder grundlegende Rechenkapazität sollten Sie Rabatte für zugesicherte Nutzung erwerben. Rabatte für zugesicherte Nutzung bieten erhebliche Rabatte, wenn Sie sich zu bestimmten stündlichen Ausgaben für Rechenkapazität verpflichten. Wenn Sie Sicherungen zur Notfallwiederherstellung oder Compliance in andere Regionen kopieren, sollten Sie die Kosten für ausgehenden Netzwerktraffic berücksichtigen. Um Kosten zu senken, sollten Sie nur wichtige Sicherungen kopieren. |
Cloud Run-Funktionen | Beim Erstellen von Cloud Run Functions können Sie die Größe des Arbeitsspeichers und die CPU angeben, die zugewiesen werden sollen. Zur Kostenkontrolle beginnen Sie mit den standardmäßigen (Mindest-)CPU- und -Speicherzuweisungen. Zur Verbesserung der Leistung können Sie die Zuweisung erhöhen, indem Sie das CPU-Limit und das Speicherlimit konfigurieren. Weitere Informationen erhalten Sie in dieser Dokumentation: Wenn Sie die CPU- und Arbeitsspeicheranforderungen vorhersagen können, können Sie mit Rabatten für zugesicherte Nutzung Geld sparen. |
Cloud Storage | Wählen Sie für den Cloud Storage-Bucket im Datenaufnahme-Subsystem eine geeignete Speicherklasse basierend auf den Anforderungen Ihrer Arbeitslast an die Datenaufbewahrung und die Zugriffshäufigkeit aus. Um beispielsweise die Speicherkosten zu senken, können Sie die Klasse „Standard“ auswählen und die Verwaltung des Objektlebenszyklus verwenden. Mit diesem Ansatz können Objekte automatisch auf eine kostengünstigere Speicherklasse herabgestuft oder basierend auf angegebenen Bedingungen automatisch gelöscht werden. |
Cloud Logging | So können Sie die Kosten für die Speicherung von Logs kontrollieren:
|
Alle Produkte in der Architektur | Nachdem Sie Ihre Arbeitslast in Google Cloudbereitgestellt haben, können Sie Active Assist verwenden, um Empfehlungen zur weiteren Optimierung der Kosten Ihrer Cloud-Ressourcen zu erhalten. Prüfen Sie die Empfehlungen und wenden Sie sie entsprechend Ihrer Umgebung an. Weitere Informationen finden Sie unter Empfehlungen im Recommendation Hub finden. |
Mit dem Google Cloud Preisrechner können Sie die Kosten für Ihre Google Cloud -Ressourcen schätzen.
Kostenoptimierungsgrundsätze und ‑empfehlungen speziell für KI- und ML-Arbeitslasten finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Kostenoptimierung.
Leistungsoptimierung
In diesem Abschnitt werden Designüberlegungen und Empfehlungen zum Entwerfen einer Topologie in Google Cloud beschrieben, die die Leistungsanforderungen Ihrer Arbeitslasten erfüllt.
Produkt | Designüberlegungen und ‑empfehlungen |
---|---|
Vertex AI |
Die Auswahl des geeigneten Modells für Ihre generative KI-Anwendung ist eine wichtige Entscheidung, die sich direkt auf Kosten und Leistung auswirkt. Um das Modell zu ermitteln, das für Ihren spezifischen Anwendungsfall ein optimales Gleichgewicht zwischen Leistung und Kosten bietet, sollten Sie Modelle iterativ testen. Wir empfehlen, mit dem kostengünstigsten Modell zu beginnen und nach und nach zu leistungsstärkeren Optionen zu wechseln. Die Länge Ihrer Prompts (Eingabe) und der generierten Antworten (Ausgabe) wirkt sich direkt auf Leistung und Kosten aus. Formulieren Sie Prompts kurz und direkt und geben Sie ausreichend Kontext an. Formulieren Sie Ihre Prompts so, dass das Modell prägnante Antworten liefert. Sie können z. B. Formulierungen wie „Fasse in zwei Sätzen zusammen“ oder „Liste drei wichtige Punkte auf“ verwenden. Weitere Informationen finden Sie unter Best Practices für das Prompt-Design. Mit dem Vertex AI-Prompt-Optimierer können Sie die Prompt-Leistung schnell und in großem Umfang verbessern und optimieren. Manuelles Umschreiben ist nicht mehr erforderlich. Mit dem Optimierungstool können Sie Prompts effizient an verschiedene Modelle anpassen. |
Spanner Graph | Empfehlungen zur Optimierung der Leistung von Spanner Graph finden Sie in der folgenden Dokumentation: |
Cloud Run-Funktionen | Standardmäßig werden jeder Cloud Run Functions-Instanz eine CPU und 256 MiB Arbeitsspeicher zugewiesen. Abhängig von Ihren Leistungsanforderungen können Sie CPU- und Arbeitsspeicherlimits konfigurieren. Weitere Informationen erhalten Sie in dieser Dokumentation: Weitere Informationen zur Leistungsoptimierung finden Sie unter Allgemeine Entwicklungstipps für Cloud Run. |
Cloud Storage | Zum Hochladen großer Dateien können Sie parallele zusammengesetzte Uploads verwenden. Bei dieser Strategie wird die große Datei in Blöcke unterteilt. Die Blöcke werden parallel in Cloud Storage hochgeladen und dann die Daten in der Cloud neu zusammengesetzt. Wenn Netzwerkbandbreite und Laufwerksgeschwindigkeit keine einschränkenden Faktoren darstellen, können parallele zusammengesetzte Uploads schneller sein als reguläre Uploadvorgänge. Diese Strategie hat jedoch einige Einschränkungen und Auswirkungen auf die Kosten. Weitere Informationen finden Sie unter Parallele zusammengesetzte Uploads. |
Alle Produkte in der Architektur | Nachdem Sie Ihre Arbeitslast in Google Cloudbereitgestellt haben, können Sie mit Active Assist Empfehlungen erhalten, um die Leistung Ihrer Cloud-Ressourcen weiter zu optimieren. Prüfen Sie die Empfehlungen und wenden Sie sie entsprechend Ihrer Umgebung an. Weitere Informationen finden Sie unter Empfehlungen im Recommendation Hub finden. |
Grundsätze und Empfehlungen zur Leistungsoptimierung, die speziell für KI- und ML-Arbeitslasten gelten, finden Sie im Well-Architected Framework unter KI- und ML-Perspektive: Leistungsoptimierung.
Bereitstellung
Wenn Sie sehen möchten, wie GraphRAG in Google Cloudfunktioniert, laden Sie das folgende Jupyter-Notebook von GitHub herunter und führen Sie es aus:GraphRAG on Google Cloud With Spanner Graph and Vertex AI Agent Engine.
Nächste Schritte
- GraphRAG-Anwendungen mit Spanner Graph und LangChain erstellen.
- Modelle und Infrastruktur für Ihre generativen KI-Anwendungen auswählen
- Infrastruktur für RAG-fähige generative KI-Anwendungen entwerfen:
- Informationen zu Architekturprinzipien und Empfehlungen für KI-Arbeitslasten in Google Cloudfinden Sie im Well-Architected Framework: AI & ML Perspective.
- Weitere Referenzarchitekturen, Diagramme und Best Practices finden Sie im Cloud-Architekturcenter.
Beitragende
Autoren:
- Tristan Li | Principal Architect, AI/ML
- Kumar Dhanagopal | Cross-Product Solution Developer
Weitere Beitragende:
- Ahsif Sheikh | AI Customer Engineer
- Ashish Chauhan | AI Customer Engineer
- Greg Brosman | Product Manager
- Lukas Bruderer | Product Manager, Cloud AI
- Nanditha Embar | AI Customer Engineer
- Piyush Mathur | Product Manager, Spanner
- Smitha Venkat | AI Customer Engineer