KI und ML: Operative Exzellenz

Last reviewed 2025-04-28 UTC

Dieses Dokument im Well-Architected Framework: AI & ML Perspective bietet einen Überblick über die Prinzipien und Empfehlungen zum Erstellen und Betreiben robuster KI- und ML-Systeme auf Google Cloud. Mit diesen Empfehlungen können Sie grundlegende Elemente wie Beobachtbarkeit, Automatisierung und Skalierbarkeit einrichten. Die Empfehlungen in diesem Dokument entsprechen der Säule für operative Exzellenz des Google Cloud Well-Architected Framework.

Operational Excellence im Bereich KI und ML bedeutet, dass Sie die KI- und ML-Systeme und ‑Pipelines, die zur Erreichung der strategischen Ziele Ihres Unternehmens beitragen, nahtlos bereitstellen, verwalten und steuern können. Operative Exzellenz ermöglicht es Ihnen, effizient auf Änderungen zu reagieren, die betriebliche Komplexität zu reduzieren und dafür zu sorgen, dass Ihre Abläufe mit den Geschäftszielen übereinstimmen.

Die Empfehlungen in diesem Dokument sind den folgenden Grundsätzen zugeordnet:

Robuste Grundlage für die Modellentwicklung schaffen

Um skalierbare, zuverlässige KI-Systeme zu entwickeln und bereitzustellen, mit denen Sie Ihre Geschäftsziele erreichen können, ist eine robuste Grundlage für die Modellentwicklung unerlässlich. Eine solche Grundlage ermöglicht konsistente Workflows, automatisiert wichtige Schritte, um Fehler zu reduzieren, und sorgt dafür, dass die Modelle mit der Nachfrage skaliert werden können. Eine solide Grundlage für die Modellentwicklung sorgt dafür, dass Ihre ML-Systeme nahtlos aktualisiert, verbessert und neu trainiert werden können. Das Fundament hilft Ihnen auch, die Leistung Ihrer Modelle an die geschäftlichen Anforderungen anzupassen, wirkungsvolle KI-Lösungen schnell bereitzustellen und sich an sich ändernde Anforderungen anzupassen.

Beachten Sie die folgenden Empfehlungen, um eine solide Grundlage für die Entwicklung Ihrer KI-Modelle zu schaffen.

Probleme und erforderliche Ergebnisse definieren

Bevor Sie mit einem KI- oder ML-Projekt beginnen, müssen Sie sich über die zu lösenden Geschäftsprobleme und die erforderlichen Ergebnisse im Klaren sein. Beginnen Sie mit einer Übersicht der Geschäftsziele und unterteilen Sie die Ziele in messbare Leistungskennzahlen (KPIs). Um Ihre Problemdefinitionen und Hypothesen in einer Jupyter-Notebook-Umgebung zu organisieren und zu dokumentieren, verwenden Sie Tools wie Vertex AI Workbench. Verwenden Sie Tools wie Git, um die Versionsverwaltung für Code und Dokumente zu implementieren und Ihre Projekte, Ziele und Annahmen zu dokumentieren. Mit Vertex AI Studio können Sie Prompts für generative KI-Anwendungen entwickeln und verwalten.

Erforderliche Daten erfassen und vorverarbeiten

Für die Datenvorverarbeitung und ‑transformation können Sie Dataflow (für Apache Beam), Dataproc (für Apache Spark) oder BigQuery verwenden, wenn ein SQL-basierter Prozess geeignet ist. Verwenden Sie TensorFlow Data Validation (TFDV), um Schemas zu validieren und Anomalien zu erkennen, und nutzen Sie gegebenenfalls automatisierte Scans zur Datenqualität in BigQuery.

Bei generativer KI umfasst die Datenqualität Genauigkeit, Relevanz, Vielfalt und Übereinstimmung mit den erforderlichen Ausgabeeigenschaften. Wenn reale Daten nicht ausreichen oder unausgewogen sind, können Sie synthetische Daten generieren, um die Robustheit und Generalisierung des Modells zu verbessern. Wenn Sie synthetische Datasets auf Grundlage vorhandener Muster erstellen oder Trainingsdaten für eine bessere Modellleistung erweitern möchten, verwenden Sie BigQuery DataFrames und Gemini. Synthetische Daten sind besonders wertvoll für generative KI, da sie dazu beitragen können, die Vielfalt der Prompts und die allgemeine Robustheit des Modells zu verbessern. Wenn Sie Datasets zum Feinabstimmen generativer KI-Modelle erstellen, sollten Sie die Funktionen zum Generieren synthetischer Daten in Vertex AI verwenden.

Bei Aufgaben mit generativer KI wie Feinabstimmung oder bestärkendes Lernen durch menschliches Feedback (Reinforcement Learning from Human Feedback, RLHF) müssen die Labels die Qualität, Relevanz und Sicherheit der generierten Ausgaben genau widerspiegeln.

Geeigneten ML-Ansatz auswählen

Berücksichtigen Sie beim Entwerfen des Modells und der Parameter die Komplexität des Modells und den Rechenaufwand. Je nach Aufgabe (z. B. Klassifizierung, Regression oder Generierung) sollten Sie benutzerdefiniertes Training in Vertex AI für das Erstellen benutzerdefinierter Modelle oder AutoML für einfachere ML-Aufgaben verwenden. Für gängige Anwendungen können Sie auch über den Vertex AI Model Garden auf vortrainierte Modelle zugreifen. Sie können mit einer Vielzahl von modernen Foundation Models für verschiedene Anwendungsfälle experimentieren, z. B. zum Generieren von Text, Bildern und Code.

Möglicherweise möchten Sie ein vortrainiertes Foundation Model optimieren, um die optimale Leistung für Ihren spezifischen Anwendungsfall zu erzielen. Für hohe Leistungsanforderungen beim benutzerdefinierten Training können Sie Cloud Tensor Processing Units (TPUs) oder GPU-Ressourcen konfigurieren, um das Training und die Inferenz von Deep-Learning-Modellen wie Large Language Models (LLMs) und Diffusionsmodellen zu beschleunigen.

Versionsverwaltung für Code, Modelle und Daten einrichten

Verwenden Sie Tools wie GitHub oder GitLab, um Codeversionen effektiv zu verwalten und bereitzustellen. Diese Tools bieten robuste Funktionen für die Zusammenarbeit, Branching-Strategien und die Integration in CI/CD-Pipelines, um einen optimierten Entwicklungsprozess zu gewährleisten.

Verwenden Sie geeignete Lösungen, um die einzelnen Artefakte Ihres ML-Systems zu verwalten, z. B. die folgenden:

  • Für Code-Artefakte wie Container-Images und Pipelinekomponenten bietet Artifact Registry eine skalierbare Speicherlösung, die zur Verbesserung der Sicherheit beitragen kann. Artifact Registry bietet auch eine Versionsverwaltung und kann in Cloud Build und Cloud Deploy eingebunden werden.
  • Verwenden Sie zum Verwalten von Datenartefakten wie Datasets, die für das Training und die Evaluierung verwendet werden, Lösungen wie BigQuery oder Cloud Storage für die Speicherung und Versionsverwaltung.
  • Verwenden Sie Ihr Versionskontrollsystem oder einen separaten Datenkatalog, um Metadaten und Verweise auf Datenspeicherorte zu speichern.

Um die Konsistenz und Versionierung Ihrer Feature-Daten zu gewährleisten, verwenden Sie Vertex AI Feature Store. Mit Vertex AI Model Registry können Sie Modellartefakte wie Binärdateien und Metadaten verfolgen und verwalten. Damit lassen sich Modellversionen nahtlos speichern, organisieren und bereitstellen.

Um die Zuverlässigkeit von Modellen zu gewährleisten, sollten Sie Vertex AI Model Monitoring implementieren. Datendrift erkennen, Leistung verfolgen und Anomalien in der Produktion erkennen Bei generativen KI-Systemen sollten Sie Veränderungen bei der Ausgabequalität und der Einhaltung von Sicherheitsrichtlinien im Blick behalten.

Lebenszyklus der Modellentwicklung automatisieren

Mit Automatisierung können Sie jede Phase des KI- und ML-Lebenszyklus optimieren. Durch Automatisierung wird der manuelle Aufwand reduziert und Prozesse werden standardisiert, was zu einer höheren betrieblichen Effizienz und einem geringeren Fehlerrisiko führt. Automatisierte Workflows ermöglichen schnellere Iterationen, eine konsistente Bereitstellung in allen Umgebungen und zuverlässigere Ergebnisse, sodass Ihre Systeme nahtlos skaliert und angepasst werden können.

Wenn Sie den Entwicklungslebenszyklus Ihrer KI- und ML-Systeme automatisieren möchten, sollten Sie die folgenden Empfehlungen berücksichtigen.

Verwaltetes System zur Pipeline-Orchestrierung verwenden

Mit Vertex AI Pipelines können Sie jeden Schritt des ML-Lebenszyklus automatisieren – von der Datenvorbereitung über das Modelltraining und die ‑bewertung bis hin zur ‑bereitstellung. Um die Bereitstellung zu beschleunigen und die Konsistenz zwischen Projekten zu fördern, können Sie wiederkehrende Aufgaben mit geplanten Pipeline-Ausführungen automatisieren, Workflows mit Ausführungsstatistiken überwachen und wiederverwendbare Pipeline-Vorlagen für standardisierte Workflows entwickeln. Diese Funktionen erstrecken sich auch auf generative KI-Modelle, für die oft spezielle Schritte wie Prompt-Engineering, Antwortfilterung und human-in-the-loop-Bewertung erforderlich sind. Bei generativer KI können diese Schritte mit Vertex AI Pipelines automatisiert werden, einschließlich der Bewertung generierter Ausgaben anhand von Qualitätsmesswerten und Sicherheitsrichtlinien. Um die Vielfalt der Prompts und die Robustheit des Modells zu verbessern, können automatisierte Workflows auch Techniken zur Datenaugmentation umfassen.

CI/CD-Pipelines implementieren

Mit Cloud Build können Sie das Erstellen, Testen und Bereitstellen von ML-Modellen automatisieren. Dieser Dienst ist besonders effektiv, wenn Sie Testsuiten für Anwendungscode ausführen. So wird sichergestellt, dass die Infrastruktur, Abhängigkeiten und das Modell-Packaging Ihren Bereitstellungsanforderungen entsprechen.

Für ML-Systeme sind oft zusätzliche Schritte über das Testen von Code hinaus erforderlich. Sie müssen die Modelle beispielsweise unter verschiedenen Lasten belasten, Bulk-Bewertungen durchführen, um die Modellleistung für verschiedene Datasets zu bewerten, und die Datenintegrität vor dem erneuten Training validieren. Um realistische Arbeitslasten für Stresstests zu simulieren, können Sie Tools wie Locust, Grafana k6 oder Apache JMeter verwenden. Um Engpässe zu identifizieren, überwachen Sie wichtige Messwerte wie Latenz, Fehlerrate und Ressourcennutzung über Cloud Monitoring. Bei generativer KI müssen die Tests auch Bewertungen umfassen, die sich auf die Art der generierten Inhalte beziehen, z. B. Textqualität, Bildtreue oder Codefunktionalität. Diese Bewertungen können automatisierte Messwerte wie die Perplexität für Sprachmodelle oder Human-in-the-Loop-Bewertungen für differenziertere Aspekte wie Kreativität und Sicherheit umfassen.

Um Test- und Bewertungsaufgaben zu implementieren, können Sie Cloud Build in andere Google Cloud -Dienste einbinden. Sie können beispielsweise Vertex AI-Pipelines für die automatisierte Modellbewertung, BigQuery für die Datenanalyse im großen Maßstab und die Dataflow-Pipeline-Validierung für die Feature-Validierung verwenden.

Sie können Ihre CI/CD-Pipeline weiter optimieren, indem Sie Vertex AI für kontinuierliches Training verwenden, um das automatische erneute Trainieren von Modellen mit neuen Daten zu ermöglichen. Bei generativer KI kann das erneute Training dazu dienen, die generierten Ausgaben relevant und vielfältig zu halten. Dazu werden die Modelle möglicherweise automatisch mit neuen Trainingsdaten oder Prompts aktualisiert. Im Vertex AI Model Garden können Sie die neuesten Basismodelle auswählen, die für die Abstimmung verfügbar sind. So bleiben die Modelle aktuell und für die sich ändernden Anforderungen Ihres Unternehmens optimiert.

Sichere und kontrollierte Modellveröffentlichungen implementieren

Um Risiken zu minimieren und zuverlässige Deployments zu gewährleisten, sollten Sie ein Modellrelease-Konzept implementieren, mit dem Sie Probleme frühzeitig erkennen, die Leistung validieren und bei Bedarf schnell ein Rollback durchführen können.

Mit Cloud Deploy können Sie Ihre ML-Modelle und -Anwendungen in Container-Images verpacken und bereitstellen. Sie können Ihre Modelle auf Vertex AI-Endpunkten bereitstellen.

Implementieren Sie kontrollierte Releases für Ihre KI-Anwendungen und ‑Systeme, indem Sie Strategien wie Canary-Releases verwenden. Bei Anwendungen, die verwaltete Modelle wie Gemini verwenden, empfehlen wir, neue Anwendungsversionen vor der vollständigen Bereitstellung schrittweise für eine Teilmenge von Nutzern freizugeben. So lassen sich potenzielle Probleme frühzeitig erkennen, insbesondere wenn Sie generative KI-Modelle verwenden, bei denen die Ausgaben variieren können.

Um feinabgestimmte Modelle zu veröffentlichen, können Sie mit Cloud Deploy die Bereitstellung der Modellversionen verwalten und mit der Canary-Release-Strategie das Risiko minimieren. Bei verwalteten Modellen und feinabgestimmten Modellen besteht das Ziel kontrollierter Releases darin, Änderungen mit einer begrenzten Zielgruppe zu testen, bevor Sie die Anwendungen und Modelle für alle Nutzer freigeben.

Verwenden Sie für eine robuste Validierung Vertex AI Experiments, um neue Modelle mit vorhandenen zu vergleichen, und Vertex AI-Modellbewertung, um die Modellleistung zu bewerten. Definieren Sie speziell für generative KI Bewertungsmetriken, die auf den beabsichtigten Anwendungsfall und die potenziellen Risiken abgestimmt sind. Mit dem Gen AI Evaluation Service in Vertex AI können Sie Messwerte wie Toxizität, Kohärenz, sachliche Richtigkeit und Einhaltung von Sicherheitsrichtlinien bewerten.

Um die Zuverlässigkeit der Bereitstellung zu gewährleisten, benötigen Sie einen robusten Rollback-Plan. Verwenden Sie für herkömmliche ML-Systeme Vertex AI Model Monitoring, um Datenabweichungen und Leistungsverschlechterungen zu erkennen. Bei generativen KI-Modellen können Sie relevante Messwerte erfassen und mithilfe von Vertex AI Model Evaluation in Kombination mit Cloud Logging und Cloud Monitoring Benachrichtigungen für Änderungen der Ausgabequalität oder das Auftreten schädlicher Inhalte einrichten. Konfigurieren Sie Benachrichtigungen basierend auf generativen KI-spezifischen Messwerten, um bei Bedarf Rollback-Prozeduren auszulösen. Wenn Sie den Modell-Lineage nachvollziehen und zur letzten stabilen Version zurückkehren möchten, verwenden Sie die Informationen aus Vertex AI Model Registry.

Beobachtbarkeit implementieren

Das Verhalten von KI- und ML-Systemen kann sich im Laufe der Zeit aufgrund von Änderungen an den Daten oder der Umgebung sowie durch Aktualisierungen der Modelle ändern. Aufgrund dieser Dynamik ist die Beobachtbarkeit entscheidend, um Leistungsprobleme, Bias oder unerwartetes Verhalten zu erkennen. Das gilt insbesondere für generative KI-Modelle, da die Ausgaben sehr variabel und subjektiv sein können. Mit der Beobachtbarkeit können Sie proaktiv auf unerwartetes Verhalten reagieren und dafür sorgen, dass Ihre KI- und ML-Systeme zuverlässig, genau und fair bleiben.

Beachten Sie die folgenden Empfehlungen, um die Beobachtbarkeit für Ihre KI- und ML-Systeme zu implementieren.

Leistung kontinuierlich im Blick behalten

Verwenden Sie Messwerte und Erfolgskriterien für die laufende Bewertung von Modellen nach der Bereitstellung.

Mit Vertex AI Model Monitoring können Sie die Modellleistung proaktiv verfolgen, Abweichungen zwischen Training und Bereitstellung sowie Vorhersageabweichungen erkennen und Benachrichtigungen erhalten, um erforderliche Modelltrainings oder andere Maßnahmen auszulösen. Um Abweichungen zwischen Training und Bereitstellung effektiv zu überwachen, erstellen Sie ein Golden Dataset, das die ideale Datenverteilung darstellt, und verwenden Sie TFDV, um Ihre Trainingsdaten zu analysieren und ein Baseline-Schema zu erstellen.

Konfigurieren Sie Model Monitoring so, dass die Verteilung der Eingabedaten mit dem Golden Dataset verglichen wird, um Verzerrungen automatisch zu erkennen. Konzentrieren Sie sich bei herkömmlichen ML-Modellen auf Messwerte wie Accuracy, Precision, Recall, F1-Wert, AUC-ROC und Log-Loss. Benutzerdefinierte Schwellenwerte für Benachrichtigungen im Modellmonitoring definieren. Verwenden Sie für generative KI den Gen AI Evaluation Service, um die Modellausgabe in der Produktion kontinuierlich zu überwachen. Sie können auch automatische Bewertungsstatistiken für Antwortqualität, Sicherheit, Befolgung von Anweisungen, Fundierung, Schreibstil und Ausführlichkeit aktivieren. Um die generierten Ausgaben auf Qualität, Relevanz, Sicherheit und Einhaltung der Richtlinien zu prüfen, können Sie eine human-in-the-loop einbinden.

Feedbackschleifen erstellen, um Modelle mit Vertex AI Pipelines automatisch neu zu trainieren, wenn Model Monitoring eine Benachrichtigung auslöst. Anhand dieser Informationen können Sie Ihre Modelle kontinuierlich verbessern.

Modelle während der Entwicklung bewerten

Bevor Sie Ihre LLMs und andere generative KI-Modelle bereitstellen, sollten Sie sie in der Entwicklungsphase gründlich bewerten. Mit der Vertex AI-Modellbewertung können Sie eine optimale Leistung erzielen und Risiken minimieren. Mit Vertex AI Rapid Evaluation können Sie Google Cloud automatisch Bewertungen auf Grundlage des von Ihnen bereitgestellten Datasets und der Prompts durchführen lassen.

Sie können auch benutzerdefinierte Messwerte definieren und einbinden, die speziell auf Ihren Anwendungsfall zugeschnitten sind. Um Feedback zu generierten Inhalten zu erhalten, können Sie Human-in-the-Loop-Workflows mit Vertex AI Model Evaluation einbinden.

Verwenden Sie Adversarial Testing, um Sicherheitslücken und potenzielle Fehlerarten zu identifizieren. Um potenzielle Bias zu erkennen und zu minimieren, können Sie Techniken wie die Untergruppenanalyse und die kontrafaktische Generierung verwenden. Verwenden Sie die Erkenntnisse aus den Bewertungen, die während der Entwicklungsphase abgeschlossen wurden, um Ihre Strategie für die Modellüberwachung in der Produktion zu definieren. Bereiten Sie Ihre Lösung für die kontinuierliche Überwachung vor, wie im Abschnitt Leistung kontinuierlich überwachen dieses Dokuments beschrieben.

Verfügbarkeit im Blick behalten

Mit Cloud Monitoring erhalten Sie Einblick in den Zustand und die Leistung Ihrer bereitgestellten Endpunkte und Infrastruktur. Verfolgen Sie für Ihre Vertex AI-Endpunkte wichtige Messwerte wie Anfragerate, Fehlerrate, Latenz und Ressourcennutzung und richten Sie Benachrichtigungen für Anomalien ein. Weitere Informationen finden Sie unter Cloud Monitoring-Messwerte für Vertex AI.

Überwachen Sie den Zustand der zugrunde liegenden Infrastruktur, zu der Compute Engine-Instanzen, Google Kubernetes Engine-Cluster (GKE) sowie TPUs und GPUs gehören können. Automatisierte Optimierungsempfehlungen von Active Assist erhalten Wenn Sie Autoscaling verwenden, sollten Sie das Skalierungsverhalten im Blick behalten, damit das Autoscaling angemessen auf Änderungen des Traffics reagiert.

Sie können den Status von Modellbereitstellungen, einschließlich Canary-Releases und Rollbacks, verfolgen, indem Sie Cloud Deploy in Cloud Monitoring einbinden. Außerdem sollten Sie mit Security Command Center potenzielle Sicherheitsbedrohungen und ‑lücken im Blick behalten.

Benutzerdefinierte Benachrichtigungen für unternehmensspezifische Grenzwerte einrichten

Damit Anomalien und Probleme rechtzeitig erkannt und behoben werden können, sollten Sie benutzerdefinierte Benachrichtigungen auf Grundlage von Grenzwerten einrichten, die für Ihre Geschäftsziele spezifisch sind. Beispiele für Google Cloud -Produkte, mit denen Sie ein benutzerdefiniertes Benachrichtigungssystem implementieren können:

  • Cloud Logging: Logs aus allen Komponenten Ihres KI- und ML-Systems erfassen, speichern und analysieren.
  • Cloud Monitoring: Erstellen Sie benutzerdefinierte Dashboards, um wichtige Messwerte und Trends zu visualisieren, und definieren Sie benutzerdefinierte Messwerte entsprechend Ihren Anforderungen. Konfigurieren Sie Benachrichtigungen, um über kritische Probleme informiert zu werden, und binden Sie die Benachrichtigungen in Ihre Vorfallmanagementtools wie PagerDuty oder Slack ein.
  • Error Reporting: Fehler und Ausnahmen automatisch erfassen und analysieren.
  • Cloud Trace: Analysieren Sie die Leistung verteilter Systeme und identifizieren Sie Engpässe. Tracing ist besonders nützlich, um die Latenz zwischen verschiedenen Komponenten Ihrer KI- und ML-Pipeline zu verstehen.
  • Cloud Profiler: Analysieren Sie kontinuierlich die Leistung Ihres Codes in der Produktion und ermitteln Sie Leistungsengpässe bei der CPU- oder Speichernutzung.

Eine Kultur der operativen Exzellenz schaffen

Der Fokus sollte sich von der reinen Entwicklung von Modellen hin zur Entwicklung nachhaltiger, zuverlässiger und wirkungsvoller KI-Lösungen verschieben. Teams werden in die Lage versetzt, kontinuierlich zu lernen, Innovationen zu entwickeln und sich zu verbessern. Dies führt zu schnelleren Entwicklungszyklen, weniger Fehlern und einer höheren Effizienz. Wenn Sie Automatisierung, Standardisierung und ethische Aspekte in den Vordergrund stellen, können Sie sicherstellen, dass Ihre KI- und ML-Initiativen kontinuierlich Mehrwert schaffen, Risiken minimieren und eine verantwortungsbewusste KI-Entwicklung fördern.

Wenn Sie eine Kultur der operativen Exzellenz für Ihre KI- und ML-Systeme schaffen möchten, sollten Sie die folgenden Empfehlungen berücksichtigen.

Automatisierung und Standardisierung fördern

Um Effizienz und Konsistenz zu betonen, sollten Sie Automatisierung und standardisierte Verfahren in jede Phase des KI- und ML-Lebenszyklus einbetten. Durch Automatisierung werden manuelle Fehler reduziert und Teams können sich auf Innovationen konzentrieren. Durch die Standardisierung wird sichergestellt, dass Prozesse team- und projektübergreifend wiederholbar und skalierbar sind.

Kontinuierliches Lernen und Verbessern priorisieren

Schaffen Sie ein Umfeld, in dem Weiterbildung und Experimentieren zu den Grundprinzipien gehören. Teams sollten sich über Fortschritte bei KI und ML auf dem Laufenden halten und die Möglichkeit haben, aus vergangenen Projekten zu lernen. Eine Kultur der Neugier und Anpassung fördert Innovationen und sorgt dafür, dass Teams für neue Herausforderungen gerüstet sind.

Verantwortlichkeit und Eigenverantwortung fördern

Bauen Sie Vertrauen und Abstimmung auf, indem Sie Rollen, Verantwortlichkeiten und Messwerte für den Erfolg klar definieren. Ermöglichen Sie es Teams, innerhalb dieser Grenzen fundierte Entscheidungen zu treffen, und schaffen Sie transparente Möglichkeiten, den Fortschritt zu messen. Ein Gefühl der Eigenverantwortung motiviert Teams und sorgt für kollektive Verantwortung für Ergebnisse.

Ethische und sicherheitsbezogene Aspekte von KI berücksichtigen

Berücksichtigen Sie ethische Aspekte in jeder Phase der Entwicklung. Ermutigen Sie Teams, kritisch über die Auswirkungen ihrer KI-Lösungen nachzudenken, und fördern Sie Diskussionen über Fairness, Bias und gesellschaftliche Auswirkungen. Klare Grundsätze und Verantwortlichkeitsmechanismen sorgen dafür, dass Ihre KI-Systeme mit den Werten der Organisation übereinstimmen und das Vertrauen fördern.

Skalierbarkeit im Blick

Um dem wachsenden Datenvolumen und den Nutzeranforderungen gerecht zu werden und den Wert von KI-Investitionen zu maximieren, müssen Ihre KI- und ML-Systeme skalierbar sein. Die Systeme müssen sich anpassen und optimal funktionieren, um Leistungsengpässe zu vermeiden, die die Effektivität beeinträchtigen. Wenn Sie auf Skalierbarkeit achten, stellen Sie sicher, dass die KI-Infrastruktur Wachstum bewältigen und die Reaktionsfähigkeit aufrechterhalten kann. Verwenden Sie eine skalierbare Infrastruktur, planen Sie die Kapazität und setzen Sie Strategien wie horizontale Skalierung und verwaltete Dienste ein.

Beachten Sie die folgenden Empfehlungen, wenn Sie Ihre KI- und ML-Systeme für die Skalierbarkeit entwerfen.

Kapazität und Kontingente planen

Bewerten Sie das zukünftige Wachstum und planen Sie die Infrastrukturkapazität und Ressourcenkontingente entsprechend. Arbeiten Sie mit den Stakeholdern zusammen, um das prognostizierte Wachstum zu verstehen und die Infrastrukturanforderungen entsprechend zu definieren.

Mit Cloud Monitoring können Sie die bisherige Ressourcennutzung analysieren, Trends erkennen und den zukünftigen Bedarf prognostizieren. Führen Sie regelmäßig Lasttests durch, um Arbeitslasten zu simulieren und Engpässe zu identifizieren.

Machen Sie sich mit den Google Cloud Kontingenten für die von Ihnen verwendeten Dienste wie Compute Engine, Vertex AI und Cloud Storage vertraut. Fordern Sie proaktiv Kontingenterhöhungen über die Google Cloud Console an und begründen Sie die Erhöhungen mit Daten aus Prognosen und Lasttests. Kontingentnutzung überwachen und Benachrichtigungen einrichten, um informiert zu werden, wenn sich die Nutzung den Kontingentlimits nähert.

Um die Ressourcennutzung basierend auf der Nachfrage zu optimieren, passen Sie die Größe Ihrer Ressourcen an, verwenden Sie Spot-VMs für fehlertolerante Batch-Arbeitslasten und implementieren Sie Autoscaling.

Auf Spitzenereignisse vorbereiten

Achten Sie darauf, dass Ihr System plötzliche Spitzen bei Traffic oder Arbeitslast während Spitzenzeiten bewältigen kann. Dokumentieren Sie Ihre Strategie für Spitzenereignisse und führen Sie regelmäßig Übungen durch, um die Fähigkeit Ihres Systems zu testen, erhöhte Last zu bewältigen.

Wenn Sie Ressourcen bei Nachfragespitzen aggressiv hochskalieren möchten, konfigurieren Sie Autoscaling-Richtlinien in Compute Engine und GKE. Bei vorhersehbaren Spitzenmustern sollten Sie vorausschauendes Autoscaling verwenden. Wenn Sie das Autoscaling anhand anwendungsspezifischer Signale auslösen möchten, verwenden Sie benutzerdefinierte Messwerte in Cloud Monitoring.

Verteilen Sie den Traffic mit Cloud Load Balancing auf mehrere Anwendungsinstanzen. Wählen Sie je nach den Anforderungen Ihrer Anwendung einen geeigneten Load-Balancer-Typ aus. Bei geografisch verteilten Nutzern können Sie das globale Load-Balancing verwenden, um Traffic an die nächste verfügbare Instanz weiterzuleiten. Für komplexe auf Mikrodiensten basierende Architekturen sollten Sie Cloud Service Mesh verwenden.

Statische Inhalte am Edge des Google-Netzwerks mit Cloud CDN im Cache speichern Zum Zwischenspeichern häufig aufgerufener Daten können Sie Memorystore verwenden. Dieser Dienst bietet einen vollständig verwalteten In-Memory-Dienst für Redis, Valkey oder Memcached.

Entkoppeln Sie die Komponenten Ihres Systems mit Pub/Sub für Echtzeit-Messaging und Cloud Tasks für die asynchrone Aufgabenausführung.

Anwendungen für die Produktion skalieren

Um eine skalierbare Bereitstellung in der Produktion zu gewährleisten, können Sie verwaltete Dienste wie Vertex AI Distributed Training und Vertex AI Inference verwenden. Mit Vertex AI Inference können Sie die Maschinentypen für Ihre Vorhersageknoten konfigurieren, wenn Sie ein Modell auf einem Endpunkt bereitstellen oder Batchvorhersagen anfordern. Bei einigen Konfigurationen können Sie GPUs hinzufügen. Wählen Sie den geeigneten Maschinentyp und die geeigneten Beschleuniger aus, um Latenz, Durchsatz und Kosten zu optimieren.

Mit Ray on Vertex AI können Sie komplexe KI- und Python-Anwendungen sowie benutzerdefinierte Arbeitslasten auf verteilte Computing-Ressourcen skalieren. Diese Funktion kann die Leistung optimieren und ermöglicht eine nahtlose Integration mitGoogle Cloud -Diensten. Ray on Vertex AI vereinfacht das verteilte Computing, da Clusterverwaltung, Aufgabenplanung und Datenübertragung automatisch erfolgen. Der Dienst lässt sich in andere Vertex AI-Dienste wie Training, Vorhersage und Pipelines einbinden. Ray bietet Fehlertoleranz und Autoscaling und hilft Ihnen, die Infrastruktur an sich ändernde Arbeitslasten anzupassen. Sie bietet ein einheitliches Framework für verteiltes Training, Hyperparameter-Abstimmung, Reinforcement Learning und Modellbereitstellung. Verwenden Sie Ray für die verteilte Datenvorverarbeitung mit Dataflow oder Dataproc, beschleunigtes Modelltraining, skalierbare Hyperparameteroptimierung, Reinforcement Learning und parallelisierte Batchvorhersage.

Beitragende

Autoren:

Weitere Beitragende: