Glossar zu generativer KI

Agent

Im Kontext generativer KI ist ein Agent Software, die autonom eine Reihe von Aktionen zur Erreichung eines Ziels plant und ausführt, möglicherweise auch in neuartigen Situationen. Agents können in verschiedenen Anwendungen eingesetzt werden, z. B. in Natural Language Processing, maschinellem Lernen und Robotik. Ein LLM-Agent verwendet beispielsweise ein Sprachmodell, um die Umgebung zu bewerten und eine Aktion auszuwählen, mit der er sein Ziel erreichen kann. LLM-Agents können verwendet werden, um Text zu generieren, Sprachen zu übersetzen und Fragen zu beantworten.

API-Endpunkt

API-Endpunkte sind ein Dienstkonfigurationsaspekt, mit dem die Netzwerkadressen, auch Dienstendpunkte, angegeben werden (z. B. aiplatform.googleapis.com).

Standardanmeldedaten für Anwendungen (Application Default Credentials, ADC)

Die Standardanmeldedaten für Anwendungen (Application Default Credentials, ADC) bieten eine einfache Möglichkeit, Autorisierungsanmeldedaten für den Aufruf von Google APIs abzurufen. Sie eignen sich am besten für Fälle, in denen der Aufruf unabhängig vom Nutzer dieselbe Identität und Autorisierungsstufe für die Anwendung haben muss. Dies ist die empfohlene Methode zum Autorisieren von Aufrufen an Google Cloud APIs, insbesondere wenn Sie eine Anwendung entwickeln, die in Google App Engine (GAE) oder auf Compute Engine-VMs bereitgestellt wird. Weitere Informationen finden Sie unter Funktionsweise von Standardanmeldedaten für Anwendungen.

Annäherung an den nächsten Nachbarn (ANN)

Der ANN-Dienst (Approximate Nearest Neighbor) ist eine hochskalierbare Lösung mit niedriger Latenz, mit der ähnliche Vektoren (oder genauer gesagt „Einbettungen“) für einen großen Korpus gefunden werden können. Weitere Informationen finden Sie unter Vektorsuche für semantischen Abgleich verwenden.

artifact

Ein Artefakt ist eine einzelne Entität oder ein Datenelement, das von einem ML-Workflow erzeugt und genutzt wird. Beispiele für Artefakte sind Datasets, Modelle, Eingabedateien und Trainingslogs.

Artifact Registry

Artifact Registry ist ein universeller Artefaktverwaltungsdienst. Dies ist der empfohlene Dienst zum Verwalten von Containern und anderen Artefakten in Google Cloud. Weitere Informationen finden Sie unter Artifact Registry.

Künstliche Intelligenz (KI)

Künstliche Intelligenz (KI) ist die Entwicklung und das Design von Maschinen, die scheinbar „intelligent“ sind, d. h. die menschliche oder intellektuelle Funktionen wie mechanische Bewegung, logisches Denken oder Problemlösung nachahmen. Eines der beliebtesten Teilgebiete der KI ist das maschinelle Lernen, bei dem ein statistischer und datengestützter Ansatz zur Erstellung von KI verwendet wird. Einige Nutzer verwenden diese beiden Begriffe jedoch synonym.

Augmented Reality (AR)

Die Kombination von gerenderten digitalen Inhalten mit Inhalten aus der realen Welt, entweder über ein Display wie bei einem Smartphone oder als Overlay für die Welt, die durch eine Optik wie eine Brille gesehen wird. Die digitalen Inhalte sollten an die Bewegung der Kamera oder Brille angepasst werden (je nachdem, wie die Szene gerendert wird), damit es so aussieht, als wären sie Teil der realen Welt.

authentication

Der Prozess der Überprüfung der Identität eines Clients (z. B. eines Nutzers oder eines anderen Prozesses), um auf ein gesichertes System zuzugreifen. Ein Client, der seine Identität nachgewiesen hat, gilt als authentifiziert. Weitere Informationen finden Sie unter Authentifizierungsmethoden bei Google.

Automatic Side-by-Side (AutoSxS)

Automatic Side-by-Side (AutoSxS) ist ein modellgestütztes Bewertungstool, das zwei große Sprachmodelle (LLMs) nebeneinander vergleicht. Damit kann die Leistung von generativen KI-Modellen in der Vertex AI Model Registry oder von vorab generierten Inferenzen bewertet werden. Bei AutoSxS wird ein Autorater verwendet, um zu entscheiden, welches Modell die bessere Antwort auf einen Prompt liefert. AutoSxS ist bei Bedarf verfügbar und bewertet Sprachmodelle mit einer Leistung, die mit der von menschlichen Prüfern vergleichbar ist.

Automatische Spracherkennung (ASR,Speech-to-Text)

Automatische Transkription von gesprochener Sprache (Sprache) in Text.

AutoML

Machine-Learning-Algorithmen, die durch Blackbox-Optimierung „lernen zu lernen“. Weitere Informationen finden Sie im Glossar zu maschinellem Lernen.

autorater

Ein Autorater ist ein Sprachmodell, das die Qualität der Modellantworten anhand eines ursprünglichen Inferenz-Prompts bewertet. Sie wird in der AutoSxS-Pipeline verwendet, um die Inferenz von zwei Modellen zu vergleichen und zu ermitteln, welches Modell die beste Leistung erbracht hat. Weitere Informationen finden Sie unter Automatische Bewertung.

baseline

Ein Modell, das als Referenzpunkt für den Vergleich der Leistung eines anderen Modells (in der Regel eines komplexeren) verwendet wird. Ein logistisches Regressionsmodell kann beispielsweise eine gute Baseline für ein Deep-Learning-Modell sein. Für ein bestimmtes Problem hilft die Baseline den Modellentwicklern, die minimale erwartete Leistung zu quantifizieren, die ein neues Modell erreichen muss, damit es nützlich ist. Weitere Informationen finden Sie unter Baseline- und Ziel-Datasets.

Batch

Die Menge der Beispiele, die in einer Trainingsiteration verwendet werden. Die Batchgröße bestimmt die Anzahl der Beispiele in einem Batch.

Batchgröße

Die Anzahl der Beispiele in einem Batch. Die Batchgröße von SGD ist beispielsweise 1, während die Batchgröße eines Minibatches in der Regel zwischen 10 und 1.000 liegt. Die Batchgröße ist während des Trainings und der Inferenz in der Regel festgelegt. TensorFlow erlaubt jedoch dynamische Batchgrößen.

Batchinferenz

Die Batchinferenz gibt für eine Gruppe von Inferenzanfragen und -ausgaben die Ergebnisse in einer einzelnen Datei aus. Weitere Informationen finden Sie unter Überblick: Inferenz in Vertex AI abrufen.

Bias

1. Stereotypisierung, Vorurteile oder Bevorzugung bestimmter Dinge, Personen oder Gruppen gegenüber anderen. Diese Verzerrungen können sich auf die Erhebung und Interpretation von Daten, das Design eines Systems und die Interaktion von Nutzern mit einem System auswirken. 2. Systematischer Fehler, der durch ein Sampling- oder Reportingverfahren eingeführt wird.

bidrectional

Ein Begriff, der ein System beschreibt, das den Text bewertet, der sowohl vor als auch nach einem Zielabschnitt des Texts steht. Bei einem unidirektionalen System wird dagegen nur der Text ausgewertet, der einem Zielabschnitt des Texts vorangeht.

Bidirectional Encoder Representations from Transformers (BERT)

BERT ist eine Methode zur Sprachdarstellung vor dem Training. Das bedeutet, dass wir ein Allzweckmodell für das „Sprachverständnis“ mit einem großen Textkorpus (z. B. Wikipedia) trainieren und dieses Modell dann für nachgelagerte NLP-Aufgaben verwenden, die uns wichtig sind (z. B. Question Answering). BERT übertrifft frühere Methoden, da es das erste unbeaufsichtigte, zutiefst bidirektionale System für das Vortraining von NLP ist.

Bilingual Evaluation Understudy (BLEU)

Ein beliebter Messwert zur Bewertung der Qualität eines Algorithmus für die maschinelle Übersetzung, indem seine Ausgabe mit der einer oder mehrerer menschlicher Übersetzungen verglichen wird.

Booster

Beim Modelltraining: Boosting kann sich auf Techniken zur Datenaugmentation beziehen, die verwendet werden, um die Größe und Vielfalt von Trainingsdatasets zu erhöhen. Dazu werden vorhandene Beispiele transformiert, um zusätzliche, vielfältige Beispiele zu erstellen. Dadurch kann die Modellleistung verbessert werden, insbesondere wenn das ursprüngliche Dataset begrenzt ist.

Begrenzungsrahmen

Ein Begrenzungsrahmen für ein Objekt im Videoframe kann auf zwei Arten angegeben werden (i) Mithilfe von zwei Eckpunkten, die aus einer Reihe von x- und y-Koordinaten bestehen, wenn sie diagonale gegenüberliegende Punkte des Rechtecks sind. Beispiel: x_relative_min, y_relative_min,,,x_relative_max,y_relative_max,, (ii) Mithilfe aller vier Eckpunkte. Weitere Informationen finden Sie unter Videodaten vorbereiten.

Bucket

Ordner der obersten Ebene für Cloud Storage. Bucket-Namen müssen für alle Cloud Storage-Nutzer eindeutig sein. Buckets enthalten Dateien. Weitere Informationen finden Sie in der Produktübersicht zu Cloud Storage.

Chain-of-Thought

In der generativen KI ist „Chain-of-Thought“ (CoT) eine Prompting-Technik, die das Large Language Model (LLM) dazu anregt, seinen Denkprozess explizit zu beschreiben, bevor es zu einer Schlussfolgerung gelangt. Dabei wird das Modell aufgefordert, die Zwischenschritte zu zeigen, die es zur Lösung eines Problems unternimmt, anstatt nur die endgültige Antwort zu liefern. Mit dieser Methode lässt sich die Leistung des LLM bei komplexen Aufgaben, die logisches Denken erfordern, erheblich verbessern.

Chat

Die Inhalte eines Dialogs mit einem ML-System, in der Regel einem Large Language Model. Die vorherige Interaktion in einem Chat (was Sie eingegeben haben und wie das Large Language Model reagiert hat) wird zum Kontext für die nachfolgenden Teile des Chats. Ein Chatbot ist eine Anwendung eines Large Language Model.

Checkpoint

Daten, die den Status der Parameter eines Modells entweder während des Trainings oder nach Abschluss des Trainings erfassen. Während des Trainings können Sie beispielsweise: 1. Das Training wird beendet, möglicherweise absichtlich oder aufgrund bestimmter Fehler. 2. Erfassen Sie den Prüfpunkt. 3. Laden Sie den Prüfpunkt später neu, möglicherweise auf anderer Hardware. 4. Starte das Training neu. In Gemini bezieht sich ein Prüfpunkt auf eine bestimmte Version eines Gemini-Modells, das mit einem bestimmten Dataset trainiert wurde.

Klassifizierungsmodell

Ein Modell, dessen Inferenz eine Klasse ist. Beispiele für Klassifizierungsmodelle: Ein Modell, das die Sprache eines Eingabesatzes vorhersagt (Französisch? Spanisch? Italienisch?). Ein Modell, das Baumarten vorhersagt (Ahorn? Eiche? Baobab?). Ein Modell, das die positive oder negative Klasse für einen bestimmten medizinischen Zustand vorhersagt.

Klassifizierungsmesswerte

Unterstützte Klassifizierungsmesswerte im Vertex AI SDK für Python sind Wahrheitsmatrix und ROC-Kurve.

Cloud TPU

Ein spezieller Hardwarebeschleuniger, der entwickelt wurde, um Arbeitslasten für maschinelles Lernen in Google Cloud zu beschleunigen.

Clustering

Im Kontext generativer KI ist Clustering eine Technik für unüberwachtes maschinelles Lernen, mit der ähnliche Datenpunkte anhand ihrer Merkmale gruppiert werden. Dazu wird ein Ähnlichkeitsmaß (oder eine Metrik) definiert, um Datenpunkte zu vergleichen und diejenigen mit hoher Ähnlichkeit in derselben Gruppe zusammenzufassen. Bei generativen KI-Anwendungen kann dies das Clustern von Einbettungen (numerische Darstellungen von Text, Bildern oder anderen Daten) umfassen, um Aufgaben wie Suche, Klassifizierung oder Ausreißererkennung auszuführen. Die Kundensegmentierung kann beispielsweise durch Clustering von Kundendaten erreicht werden, um Gruppen mit ähnlichen Verhaltensweisen oder Merkmalen zu identifizieren. Weitere Informationen finden Sie unter Was ist Clustering?.

Container-Image

Ein Container-Image ist ein Paket, das den ausführbaren Code der Komponente und eine Definition der Umgebung enthält, in der der Code ausgeführt wird. Weitere Informationen zum benutzerdefinierten Training

context

Mit einem Kontext werden Artefakte und Ausführungen in einer einzigen, abfragbaren und typisierten Kategorie zusammengefasst. Kontexte können zur Darstellung von Metadaten verwendet werden. Ein Beispiel für einen Kontext wäre die Ausführung einer Pipeline für maschinelles Lernen.

Kontextcache

Ein Kontext-Cache in Vertex AI enthält eine große Datenmenge, die Sie in verschiedenen Anfragen an ein Gemini-Modell verwenden können. Der im Cache gespeicherte Inhalt wird in der Region gespeichert, in der die Anfrage zum Erstellen des Caches gestellt wird. Es kann sich um einen beliebigen MIME-Typ handeln, der von multimodalen Gemini-Modellen unterstützt wird, z. B. Text, Audio oder Video. Weitere Informationen finden Sie unter Kontext-Caching – Übersicht.

Kontextfenster

Die Anzahl der Tokens, die ein Modell in einem bestimmten Prompt verarbeiten kann. Je größer das Kontextfenster ist, desto mehr Informationen kann das Modell verwenden, um kohärente und konsistente Antworten auf den Prompt zu geben.

Vom Kunden verwaltete Verschlüsselungsschlüssel (Customer Managed Encryption Keys, CMEK)

Vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEK) sind Integrationen, mit denen Kunden Daten in vorhandenen Google-Diensten mit einem Schlüssel verschlüsseln können, den sie in Cloud KMS (alias Storky) verwalten. Der Schlüssel in Cloud KMS ist der Schlüsselverschlüsselungsschlüssel, der seine Daten schützt. Weitere Informationen finden Sie unter Vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEK).

Datenanalyse

Daten anhand von Stichproben, Messungen und Visualisierungen verstehen Die Datenanalyse kann besonders nützlich sein, wenn ein Datensatz zum ersten Mal empfangen wird, bevor das erste Modell erstellt wird. Außerdem ist es wichtig, um Tests zu verstehen und Probleme mit dem System zu beheben.

Datenaugmentation

Die Bandbreite und Anzahl der Trainingsbeispiele wird künstlich erhöht, indem vorhandene Beispiele transformiert werden, um zusätzliche Beispiele zu erstellen. Angenommen, Bilder sind eines Ihrer Features, aber Ihr Dataset enthält nicht genügend Bildbeispiele, damit das Modell nützliche Assoziationen lernen kann. Im Idealfall fügen Sie Ihrem Dataset genügend Bilder mit Labels hinzu, damit Ihr Modell richtig trainiert werden kann. Wenn das nicht möglich ist, kann durch Data Augmentation jedes Bild gedreht, gestreckt und gespiegelt werden, um viele Varianten des Originalbilds zu erzeugen. So erhalten Sie möglicherweise genügend gelabelte Daten für ein hervorragendes Training.

DataFrame

Ein beliebter Pandas-Datentyp zur Darstellung von Datasets im Arbeitsspeicher. Ein DataFrame ist analog zu einer Tabelle oder einer Tabellenkalkulation. Jede Spalte eines DataFrames hat einen Namen (eine Überschrift) und jede Zeile wird durch eine eindeutige Nummer identifiziert. Jede Spalte in einem DataFrame ist wie ein zweidimensionales Array strukturiert, wobei jeder Spalte ein eigener Datentyp zugewiesen werden kann.

Datenindexierung

Im Kontext der generativen KI ist die Datenindexierung der Prozess der Strukturierung und Organisation einer Wissensdatenbank zur Optimierung von Suche und Abruf. Dazu wird ein Index erstellt, der oft als Korpus bezeichnet wird und eine effiziente Suche in den Daten ermöglicht. Der Prozess ist unabhängig von der Erstellung von Korpora. Die indexierten Daten können verwendet werden, um den Kontext von Large Language Models (LLMs) zu erweitern, Halluzinationen zu reduzieren und die Genauigkeit von Antworten zu verbessern. Bei einer Website kann die Datenindexierung beispielsweise das Hinzufügen von Metadaten wie „datePublished“ und „dateModified“ umfassen, um die Suchfunktion zu verbessern. Es gibt verschiedene Methoden zum Indexieren von Daten, z. B. die Vektorsuche für die Ähnlichkeitssuche in Anwendungen wie dem Abrufen relevanter Informationen für LLMs zur Abfragezeit. Weitere Informationen finden Sie in der Übersicht über die RAG Engine .

Datenaufnahme

Bei der Datenerfassung werden Daten aus verschiedenen Quellen extrahiert und an einem zentralen Ort für die weitere Verarbeitung und Analyse zusammengeführt. Im Kontext der generativen KI umfasst die Datenaufnahme das Extrahieren von Informationen aus verschiedenen Datenquellen wie klinischen Formularen, Patientenakten oder unstrukturiertem Text, um generative KI-Modelle zu trainieren und abzustimmen. Die aufgenommenen Daten werden in der Regel verarbeitet und transformiert, um ihre Qualität und Konsistenz zu gewährleisten, bevor sie zum Trainieren der generativen KI-Modelle verwendet werden. Dieser Prozess kann Datenbereinigung, Feature Engineering und Techniken zur Datenaugmentation umfassen, um die Leistung und Generalisierungsfähigkeit des Modells zu verbessern. Weitere Informationen finden Sie unter Generative KI für die Nutzungsverwaltung verwenden.

Datenparallelität

Eine Methode zum Skalieren von Training oder Inferenz, bei der ein gesamtes Modell auf mehreren Geräten repliziert und dann eine Teilmenge der Eingabedaten an jedes Gerät übergeben wird. Mit Datenparallelität können Training und Inferenz mit sehr großen Batchgrößen durchgeführt werden. Dazu muss das Modell jedoch klein genug sein, um auf alle Geräte zu passen. Datenparallelität beschleunigt in der Regel das Training und die Inferenz.

Dataset

Ein Dataset ist allgemein als eine Sammlung strukturierter oder unstrukturierter Datensätze definiert. Eine Sammlung von Rohdaten, die in der Regel (aber nicht ausschließlich) in einem der folgenden Formate organisiert sind: eine Tabelle, eine Datei im CSV-Format (Comma Separated Values, kommagetrennte Werte). Weitere Informationen finden Sie unter Dataset erstellen.

Datentransformation

Im Kontext von Retrieval Augmented Generation (RAG) bezieht sich die Datentransformation auf die Konvertierung von Daten in ein Format, das für die Indexierung und Verarbeitung durch ein LLM geeignet ist. Dazu werden Daten oft in kleinere Teile aufgeteilt, um sie für das Einbetten und Indexieren handhabbar zu machen. Andere Transformationen können Bereinigungs- und Validierungsschritte umfassen, um die Datenqualität zu gewährleisten. Weitere Informationen finden Sie in der Übersicht über die RAG Engine.

Decoder

Im Allgemeinen jedes ML-System, das eine konvertierte, dichte oder interne Darstellung in eine rohere, spärliche oder externe Darstellung umwandelt. Decoder sind oft Bestandteil eines größeren Modells, in dem sie häufig mit einem Encoder kombiniert werden. Bei Sequence-to-Sequence-Aufgaben beginnt ein Decoder mit dem vom Encoder generierten internen Status, um die nächste Sequenz vorherzusagen.

Neuronales Deep-Learning-Netzwerk (DNN)

Ein neuronales Netzwerk mit mehreren verborgenen Schichten, das in der Regel durch Deep-Learning-Techniken programmiert wird.

Tiefe

Die Summe der folgenden Elemente in einem neuronalen Netzwerk: 1. Anzahl der verborgenen Schichten, 2. Anzahl der Ausgabeschichten (in der Regel eine) und 3. Anzahl der Einbettungsschichten. Ein neuronales Netzwerk mit fünf verborgenen Schichten und einer Ausgabeschicht hat beispielsweise eine Tiefe von 6. Die Eingabeschicht hat keinen Einfluss auf die Tiefe.

DevOps

DevOps ist eine Suite von Google Cloud-Produkten, z. B. Artifact Registry und Cloud Deploy.

Vorzeitiges Beenden

Eine Methode zur Regularisierung, bei der das Training beendet wird, bevor der Trainingsverlust nicht mehr abnimmt. Beim vorzeitigen Beenden wird das Training des Modells absichtlich beendet, wenn der Verlust in einem Validierungs-Dataset zu steigen beginnt, d. h. wenn sich die Generalisierungsleistung verschlechtert.

Einbettung

Numerische Darstellungen von Wörtern oder Textabschnitten. Diese Zahlen erfassen die semantische Bedeutung und den Kontext des Texts. Ähnliche oder verwandte Wörter oder Text haben in der Regel ähnliche Einbettungen. Das bedeutet, dass sie im hochdimensionalen Vektorbereich näher beieinander liegen.

Einbettungsbereich (latenter Raum)

In der generativen KI bezieht sich der Einbettungsbereich auf eine numerische Darstellung von Text, Bildern oder Videos, die Beziehungen zwischen Eingaben erfasst. Modelle für maschinelles Lernen, insbesondere generative KI-Modelle, sind in der Lage, diese Einbettungen zu erstellen, indem sie Muster in großen Datasets erkennen. Anwendungen können Einbettungen verwenden, um Sprache zu verarbeiten und zu generieren und dabei komplexe Bedeutungen und semantische Beziehungen zu erkennen, die für die Inhalte spezifisch sind.

Einbettungsvektor

Eine dichte, oft niedrigdimensionale Vektordarstellung eines Elements. Wenn zwei Elemente semantisch ähnlich sind, befinden sich ihre jeweiligen Einbettungen im Einbettungsvektorbereich nahe beieinander.

Encoder

Im Allgemeinen jedes ML-System, das eine rohe, spärliche oder externe Darstellung in eine verarbeitete, dichtere oder internere Darstellung umwandelt. Encoder sind oft eine Komponente eines größeren Modells, in dem sie häufig mit einem Decoder kombiniert werden. Bei einigen Transformer-Modellen werden Encoder mit Decodern kombiniert, bei anderen wird nur der Encoder oder nur der Decoder verwendet. Bei einigen Systemen wird die Ausgabe des Encoders als Eingabe für ein Klassifizierungs- oder Regressionsnetzwerk verwendet. Bei Sequence-to-Sequence-Aufgaben nimmt ein Encoder eine Eingabesequenz entgegen und gibt einen internen Status (einen Vektor) zurück. Der Decoder verwendet diesen internen Status dann, um die nächste Sequenz vorherzusagen.

Ensemble

Eine Sammlung von Modellen, die unabhängig voneinander trainiert wurden und deren Inferenzwerte gemittelt oder aggregiert werden. In vielen Fällen liefert ein Ensemble bessere Vorhersagen als ein einzelnes Modell. Ein Random Forest ist beispielsweise ein Ensemble, das aus mehreren Entscheidungsbäumen besteht. Nicht alle Entscheidungsbäume sind Ensembles.

Umgebung

In der Reinforcement-Learning-Umgebung, in der sich der Agent befindet und in der er den Status der Umgebung beobachten kann. Die dargestellte Welt kann beispielsweise ein Spiel wie Schach oder eine physische Welt wie ein Labyrinth sein. Wenn der Agent eine Aktion auf die Umgebung anwendet, wechselt die Umgebung zwischen den Zuständen.

evaluation (eval)

Ein Eval (kurz für „Evaluation“) ist ein Test, bei dem protokollierte oder synthetische Anfragen durch zwei Suchstacks gesendet werden: einen Teststack, der Ihre Änderung enthält, und einen Basisstack ohne Ihre Änderung. Mit Evals werden Unterschiede und Messwerte generiert, mit denen Sie die Auswirkungen, die Qualität und andere Effekte Ihrer Änderung auf Suchergebnisse und andere Bereiche der Google-Nutzererfahrung bewerten können. Evals werden während des Tunings oder der Iterationen Ihrer Änderung verwendet. Sie werden auch verwendet, um eine Änderung am Live-Nutzer-Traffic einzuführen.

Ausführung

Eine Ausführung ist ein Datensatz eines einzelnen Workflows für maschinelles Lernen, der normalerweise mit seinen Laufzeitparametern annotiert ist. Beispiele für Ausführungen sind Datenaufnahme, Datenvalidierung, Modelltraining, Modellbewertung und Modellbereitstellung.

F1-Wert

Der F1-Wert ist ein Messwert, mit dem die Genauigkeit der Ausgabe eines Modells bewertet wird. Das ist besonders nützlich, um die Leistung von Modellen bei Aufgaben zu bewerten, bei denen sowohl Precision als auch Recall wichtig sind, z. B. bei der Informationsextraktion. Bei generativen KI-Modellen kann der F1-Wert verwendet werden, um die Inferenz des Modells mit Ground-Truth-Daten zu vergleichen und die Genauigkeit des Modells zu bestimmen. Für generative Aufgaben wie Zusammenfassung und Textgenerierung sind jedoch möglicherweise andere Messwerte wie der Rough-L-Score besser geeignet.

Feature

Beim maschinellen Lernen (ML) ist ein Feature ein Merkmal oder Attribut einer Instanz oder Entität, das als Eingabe zum Trainieren eines ML-Modells oder für Inferenzen verwendet wird.

Extraktion von Merkmalen

Im Kontext der generativen KI bezieht sich die Feature-Extraktion auf den Prozess der Identifizierung und Auswahl relevanter Features aus Eingabedaten, die für das Modelltraining verwendet werden sollen. Anschließend werden diese Merkmale verwendet, um neue Daten zu generieren, die der ursprünglichen Eingabe ähneln. Bei der Bildgenerierung kann die Merkmalsextraktion beispielsweise das Identifizieren von Kanten, Texturen und Farben umfassen. Im Natural Language Processing kann es darum gehen, Schlüsselwörter, Wortgruppen und grammatische Strukturen zu extrahieren. Die extrahierten Funktionen werden dann vom generativen Modell verwendet, um neue Inhalte zu erstellen.

Bereitstellung von Features

Das Bereitstellen von Features ist der Export oder das Abrufen von Featurewerten für Training oder Inferenz. In Vertex AI gibt es zwei Arten der Bereitstellung von Features: Onlinebereitstellung und Offlinebereitstellung. Bei der Onlinebereitstellung werden die neuesten Featurewerte einer Teilmenge der Featuredatenquelle für Onlineinferenzen abgerufen. Bei der Offline- oder Batchbereitstellung werden große Mengen von Featuredaten, einschließlich Verlaufsdaten, für die Offlineverarbeitung exportiert, z. B. für das ML-Modelltraining.

Featureansicht

Eine Featureansicht ist eine logische Sammlung von Features, die aus einer BigQuery-Datenquelle in eine Onlinespeicher-Instanz materialisiert werden. In einer Featureansicht werden die Featuredaten des Kunden gespeichert und regelmäßig aktualisiert. Die Daten werden regelmäßig aus der BigQuery-Quelle aktualisiert. Eine Featureansicht ist dem Featuredatenspeicher entweder direkt oder über Verknüpfungen zu Feature Registry-Ressourcen zugeordnet.

Few-Shot-Prompt (Few-Shot)

In der generativen KI bezieht sich „Few-Shot“ auf einen Prompt-Typ, der eine kleine Anzahl von Beispielen enthält, um die Antwort des Modells zu steuern. Anhand dieser Beispiele kann das Modell das gewünschte Ausgabeformat, die Formulierung, den Umfang oder das allgemeine Muster der Antwort verstehen. Few-Shot-Prompts werden häufig verwendet, um die Ausgabe von Sprachmodellen zu regulieren und sicherzustellen, dass sie Antworten generieren, die genau, hochwertig und mit den Erwartungen des Nutzers übereinstimmen. Indem der Nutzer dem Modell einige relevante Beispiele zur Verfügung stellt, kann er das Verhalten des Modells beeinflussen und zufriedenstellendere Ergebnisse erzielen. Weitere Informationen finden Sie unter Few-Shot-Beispielen einfügen.

Foundation Model (FM)

Modelle, die mit umfangreichen Daten trainiert werden, sodass sie an eine Vielzahl von Downstream-Aufgaben angepasst (z. B. feinabgestimmt) werden können.

Foundation Model Operations (FMOPs)

FMOps erweitert die Funktionen von MLOps und konzentriert sich auf die effiziente Produktion von vortrainierten (von Grund auf trainierten) oder benutzerdefinierten (abgestimmten) FMs.

Gemini

Gemini ist eine Reihe von sequenzbasierten multimodalen Modellen von Google. Das bedeutet, dass sie Eingaben in mehr als einem Medium gleichzeitig akzeptieren und Ausgaben in mehr als einem Medium gleichzeitig erzeugen können, z. B. Text, Audio und visuelle Medien. Sie sind für die Integration in Agents konzipiert, die verschiedene Aufgaben ausführen können. Weitere Informationen finden Sie unter Google-Modelle.

Generalisierung

Die Fähigkeit eines Modells, korrekte Rückschlüsse auf neue, bisher unbekannte Daten zu ziehen. Ein Modell, das generalisieren kann, ist das Gegenteil eines Modells, das überangepasst ist.

Generation

Im Kontext der generativen KI bezieht sich „Generierung“ auf den Prozess der Erstellung neuer Daten oder Inhalte aus vorhandenen Daten oder Informationen. Generative KI-Modelle werden mit großen Datensätzen trainiert und können Muster und Beziehungen in den Daten erkennen. Anschließend können sie dieses Wissen nutzen, um neue und einzigartige Inhalte zu generieren, die den Trainingsdaten ähneln, aber keine exakte Kopie sind. Weitere Informationen finden Sie unter Wann werden generative oder herkömmliche KI verwendet?.

Generatives Modell

Ein Typ von Machine-Learning-Modell, das auf Grundlage seiner Trainingsdaten neue Ausgaben erstellen kann. Im einfachsten Fall generiert das Modell neue Daten, die wie eine bestimmte Gruppe von Kategorien aussehen, mit denen es trainiert wurde. Wird in der Regel mit Large Language Models in Verbindung gebracht, aber auch andere Arten von Modellen können generativ sein.

Google Embedded Modem System (GEMS)

GEMS ist ein Framework für eingebettete Software, das auf Modems ausgerichtet ist, sowie eine zugehörige Reihe von Entwicklungsworkflows und Infrastruktur. Die Kernvision von GEMS ist es, hochwertigen Modem-Systemcode mit hoher Wiederverwendbarkeit für viele Google-Geräte mit Modems bereitzustellen. Um diese umfassende Vision zu verwirklichen, bietet GEMS eine umfassende Umgebung für Entwickler, die aus den unten dargestellten wichtigen Bausteinen besteht.

Verlauf

Der Vektor der partiellen Ableitungen in Bezug auf alle unabhängigen Variablen. Beim maschinellen Lernen ist der Gradient der Vektor der partiellen Ableitungen der Modellfunktion. Der Gradient zeigt in die Richtung des steilsten Anstiegs.

Diagramm

Im Kontext der generativen KI bezieht sich ein Graph auf eine strukturierte Darstellung von Informationen, bei der Daten als Netzwerk von Knoten und Kanten organisiert und verbunden werden. Diese Diagramme werden häufig verwendet, um Wissen und Beziehungen zwischen Einheiten darzustellen. Das macht sie besonders nützlich für generative KI-Systeme, die ein tiefes Verständnis des Kontexts und der Beziehungen in Daten erfordern. GenAI-Systeme, die Wissensgraphen nutzen, können diese verwenden, um die Leistung von Abrufmodellen zu verbessern. Durch die Einbindung von Knowledge Graphs in das System kann generative KI auf kontextreiche Daten zugreifen und den Graphen durchlaufen, um relevante Untergraphen basierend auf Nutzeranfragen abzurufen. So kann das System genauere und informativere Antworten liefern, indem es kontextbezogene Inhalte generiert.

Ground Truth (GT)

„Ground Truth“ ist ein Begriff, der in verschiedenen Bereichen verwendet wird, um sich auf die absolute Wahrheit eines Entscheidungs- oder Messproblems zu beziehen, im Gegensatz zur Schätzung eines Systems. Beim maschinellen Lernen bezieht sich der Begriff „Ground Truth“ auf den Trainingssatz für Techniken des überwachten Lernens.

Halluzination

Eine Halluzination bei generativer KI ist eine selbstbewusste Antwort einer KI, die nicht auf ihren Trainingsdaten basiert. Sie sind möglicherweise sachlich falsch. Im Kontext der Textgenerierung sind das plausibel klingende zufällige Falschinformationen im generierten Textinhalt.

Heuristik

Eine einfache und schnell umzusetzende Lösung für ein Problem. Beispiel: „Mit einer Heuristik haben wir eine Genauigkeit von 86% erreicht. Als wir auf ein neuronales Deep-Learning-Netzwerk umgestellt haben, stieg die Genauigkeit auf 98 %.“

Verborgene Schicht

Eine Schicht in einem neuronalen Netzwerk zwischen der Eingabeschicht (den Features) und der Ausgabeschicht (der Inferenz). Jede verborgene Schicht besteht aus einem oder mehreren Neuronen. Ein tiefes neuronales Netzwerk enthält mehr als eine verborgene Schicht.

histogram

Eine grafische Darstellung der Variation in einem Satz von Daten mithilfe von Balken. Ein Histogramm visualisiert Muster, die in einer einfachen Zahlentabelle schwer zu erkennen sind.

Hyperparameter

Ein Hyperparameter ist eine Variable, die den Trainingsprozess eines Machine-Learning-Modells steuert. Dazu können Lernraten, Momentum-Werte im Optimierer und die Anzahl der Einheiten in der letzten verborgenen Schicht eines Modells gehören. Weitere Informationen finden Sie unter Übersicht zur Hyperparameter-Abstimmung.

Hyperparameter-Abstimmung

Bei der Hyperparameter-Abstimmung in Vertex AI werden mehrere Tests einer Trainingsanwendung mit unterschiedlichen Werten für die ausgewählten Hyperparameter innerhalb von angegebenen Limits ausgeführt. Ziel ist es, die Hyperparameter-Einstellungen zu optimieren, um die Vorhersagegenauigkeit des Modells zu maximieren. Weitere Informationen finden Sie unter Übersicht zur Hyperparameter-Abstimmung.

Berechtigungen zur Identitäts- und Zugriffsverwaltung (Identity and Access Management, IAM)

IAM-Berechtigungen (Identity and Access Management) sind spezifische, detaillierte Funktionen, die definieren, wer was mit welchen Google Cloud-Ressourcen tun darf. Sie werden Hauptkonten (z. B. Nutzern, Gruppen oder Dienstkonten) über Rollen zugewiesen und ermöglichen so eine präzise Steuerung des Zugriffs auf Dienste und Daten in einem Google Cloud-Projekt oder einer Organisation. Weitere Informationen finden Sie unter Zugriffssteuerung mit IAM.

Imagen

Imagen ist ein Dienst mit generativer KI, der Text in Bilder umwandelt und über die Vertex AI-Plattform verfügbar ist. Damit können Nutzer neue Bilder generieren, Bilder bearbeiten, Stil- oder Themenmodelle optimieren, Bilder mit Untertiteln versehen oder Antworten auf Fragen zum Bildinhalt erhalten. Weitere Informationen finden Sie in der Übersicht zu Imagen in Vertex AI.

Bilderkennung

Bei der Bilderkennung werden Objekte, Muster oder Konzepte in einem Bild klassifiziert. Sie wird auch als Bildklassifizierung bezeichnet. Die Bilderkennung ist ein Teilbereich des maschinellen Lernens und der Computer Vision.

index

Eine Sammlung von Vektoren, die gemeinsam für die Ähnlichkeitssuche bereitgestellt werden. Vektoren können einem Index hinzugefügt oder aus einem Index entfernt werden. Ähnlichkeitssuchanfragen werden für einen bestimmten Index ausgegeben und suchen über die Vektoren in diesem Index.

Inferenz

Im Kontext der Vertex AI-Plattform bezieht sich die Inferenz auf den Prozess, bei dem Datenpunkte durch ein Modell für maschinelles Lernen geleitet werden, um eine Ausgabe zu berechnen, z. B. einen einzelnen numerischen Wert. Dieser Vorgang wird auch als „Operationalisieren eines ML-Modells“ oder „Überführen eines ML-Modells in die Produktion“ bezeichnet. Die Inferenz ist ein wichtiger Schritt im Workflow für maschinelles Lernen, da sie es ermöglicht, Modelle zu verwenden, um Rückschlüsse auf neue Daten zu ziehen. In Vertex AI kann die Inferenz auf verschiedene Arten durchgeführt werden, z. B. als Batchinferenz und als Onlineinferenz. Bei der Batchinferenz wird eine Gruppe von Inferenzanfragen ausgeführt und die Ergebnisse in einer Datei ausgegeben. Bei der Onlineinferenz sind Echtzeitinferenzen für einzelne Datenpunkte möglich.

Information Retrieval (IR)

Das Abrufen von Informationen (Information Retrieval, IR) ist eine wichtige Komponente von Vertex AI Search. Dabei werden relevante Informationen aus einer großen Menge von Daten gesucht und abgerufen. Im Kontext von Vertex AI wird IR verwendet, um Dokumente aus einem Korpus basierend auf der Anfrage eines Nutzers abzurufen. Vertex AI bietet eine Reihe von APIs, mit denen Sie eigene RAG-Anwendungen (Retrieval Augmented Generation) oder eine eigene Suchmaschine erstellen können. Weitere Informationen finden Sie unter Vertex AI Search als Abruf-Backend mit RAG Engine verwenden.

Infrastructure as Code (IaC)

Infrastruktur als Code Ein Ansatz zur Verwaltung der IT-Infrastruktur, bei dem Teams Dienste über Code verwalten und bereitstellen können. Mit IaC werden Konfigurationsdateien erstellt, die die Infrastrukturspezifikationen enthalten. So lässt sich die Infrastruktur einfacher skalieren.

Lernrate (Schrittgröße)

Die Lernrate ist ein Hyperparameter, der zum Optimieren des Optimierungsprozesses eines Modells für maschinelles Lernen verwendet wird. Sie bestimmt die Schrittgröße, mit der das Modell seine Gewichte während des Trainings aktualisiert. Eine höhere Lernrate kann zu einer schnelleren Konvergenz führen, aber auch Instabilität oder Overfitting zur Folge haben. Umgekehrt kann eine niedrigere Lernrate zu einer langsameren Konvergenz führen, aber Overfitting verhindern. Weitere Informationen finden Sie unter Übersicht zur Hyperparameter-Abstimmung.

Verlust (Kosten)

Ein Maß dafür, wie weit die Inferenz eines überwachten Modells während des Trainings von seinem Label entfernt ist. Mit einer Verlustfunktion wird der Verlust berechnet.

Verwaltetes Dataset

Ein Dataset-Objekt, das von Vertex AI erstellt und gehostet wird.

model

Alle Modelle, vortrainiert oder nicht. Im Allgemeinen ein mathematisches Konstrukt, das Eingabedaten verarbeitet und eine Ausgabe zurückgibt. Anders ausgedrückt: Ein Modell ist die Menge der Parameter und die Struktur, die ein System benötigt, um Rückschlüsse zu ziehen.

Modelldestillation (Wissensdestillation, Lehrer-Schüler-Modelle)

Bei der Modelldestillation kann ein kleineres Schülermodell von einem größeren Lehrermodell lernen. Das Schüler-Modell wird so trainiert, dass es die Ausgabe des Lehrer-Modells imitiert. Anschließend kann es verwendet werden, um neue Daten zu generieren oder Rückschlüsse zu ziehen. Die Modelldestillation wird häufig verwendet, um große Modelle effizienter zu machen oder sie für Geräte mit begrenzten Ressourcen zugänglicher zu machen. Sie kann auch verwendet werden, um die Generalisierung von Modellen zu verbessern, indem Overfitting reduziert wird.

Modellmonitoring

Vertex AI Model Monitoring ist ein Dienst, der die Leistung bereitgestellter Modelle kontinuierlich bewertet, indem er Featureabweichungen und ‑drift in Vorhersageanfragen erkennt. So kann die Modellqualität im Laufe der Zeit aufrechterhalten werden. Weitere Informationen finden Sie unter Einführung in Vertex AI Model Monitoring.

Modellressourcenname

Der Ressourcenname für ein model lautet: projects/<PROJECT_ID>/locations/<LOCATION_ID>/models/<MODEL_ID>. Sie finden die Modell-ID in der Cloud Console auf der Seite „Model Registry“.

Network File System (NFS)

Ein Client-/Serversystem, mit dem Nutzer über ein Netzwerk auf Dateien zugreifen und sie so behandeln können, als befänden sie sich in einem lokalen Dateiverzeichnis. Weitere Informationen finden Sie unter NFS-Freigabe für benutzerdefiniertes Training bereitstellen.

One-Hot-Codierung

Bei der One-Hot-Codierung wird jede Kategorie als Vektor mit N Elementen dargestellt (wobei N die Anzahl der Kategorien ist). Genau ein Element hat den Wert 1,0 und alle verbleibenden Elemente haben den Wert 0,0. Weitere Informationen finden Sie unter One-Hot-Codierung.

One-Shot-Prompt

Ein Prompt, der ein Beispiel dafür enthält, wie das Large Language Model reagieren soll. Weitere Informationen finden Sie unter One-Shot-Prompt.

parameter

Parameter sind Schlüsseleingabewerte, die eine Ausführung konfigurieren, das Verhalten der Ausführung steuern und die Ergebnisse der Ausführung beeinflussen. Beispiele sind die Lernrate, die Abbruchrate und die Anzahl der Trainingsschritte.

Perplexity

Perplexity ist ein Messwert, mit dem die Leistung von Sprachmodellen bewertet wird. Sie gibt an, wie wahrscheinlich es ist, dass das Modell eine bestimmte Textsequenz basierend auf der Verteilung des Textes generiert, mit dem es trainiert wurde. Perplexity ist ein häufig verwendeter Messwert zur Bewertung von Sprachmodellen. Er wird oft verwendet, um die Leistung verschiedener Modelle zu vergleichen oder den Fortschritt eines Modells während des Trainings zu verfolgen.

Pipeline

ML-Pipelines sind portable und skalierbare ML-Workflows, die auf Containern basieren. Weitere Informationen finden Sie unter Einführung in Vertex AI Pipelines.

Pipelinejob

Ein Pipelinejob oder eine Pipelineausführung entspricht der PipelineJob-Ressource in der Vertex AI API. Sie ist eine Ausführungsinstanz Ihrer ML-Pipelinedefinition, die als eine Reihe von ML-Aufgaben definiert ist, die durch Ein-/Ausgabeabhängigkeiten miteinander verbunden sind.

Pipelineausführung

Ein oder mehrere Vertex PipelineJobs können mit einem Test verknüpft werden, wobei jeder PipelineJob als einzelne Ausführung dargestellt wird. In diesem Kontext werden die Parameter der Ausführung von den Parametern des PipelineJobs abgeleitet. Die Messwerte werden aus den von diesem PipelineJob generierten system.Metric-Artefakten abgeleitet. Die Artefakte der Ausführung werden aus Artefakten abgeleitet, die von diesem PipelineJob erstellt werden.

Zugriff auf private Dienste

Der Zugriff auf private Dienste ist eine private Verbindung zwischen Ihrem Virtual Private Cloud-Netzwerk (VPC) und Netzwerken von Google oder Drittanbietern. Dadurch können VM-Instanzen in Ihrem VPC-Netzwerk über interne IP-Adressen mit diesen Diensten kommunizieren, ohne dem öffentlichen Internet ausgesetzt zu sein. Weitere Informationen finden Sie unter Zugriff auf private Dienste.

Prompt

Ein Prompt ist eine Anfrage in natürlicher Sprache, die an ein Sprachmodell gesendet wird, um eine Antwort zu erhalten. Prompts können Fragen, Anleitungen, Kontextinformationen, Beispiele und Teileingaben für das Modell enthalten, die abgeschlossen oder fortgesetzt werden sollen. Nachdem das Modell einen Prompt erhalten hat, kann es je nach verwendetem Modelltext Einbettungen, Code, Bilder, Videos, Musik und mehr erzeugen. Weitere Informationen finden Sie unter Übersicht über Prompt-Strategien.

Prompt-Engineering (Prompt-Design)

Prompt-Engineering in generativer KI ist der Prozess, effektive Prompts zu erstellen, um die gewünschten Ausgaben von Large Language Models (LLMs) zu erhalten. Es handelt sich um einen iterativen, testorientierten Prozess, bei dem die Eingaben verfeinert werden, um bestimmte Ergebnisse zu erzielen. Dabei werden sowohl der Inhalt als auch die Struktur des Prompts berücksichtigt, um genaue und hochwertige Antworten zu erhalten. Effektives Prompt Engineering ist für komplexe Aufgaben unerlässlich, auch wenn es für einfachere Aufgaben nicht erforderlich ist. Ziel ist es, schnell Prototypen für LLM-basierte Anwendungen zu erstellen. Weitere Informationen finden Sie unter Einführung in das Prompt-Engineering.

Prompt-Optimierung

Die Prompt-Abstimmung ist eine parameter-effiziente Methode zur Feinabstimmung, mit der die Leistung eines generativen KI-Modells bei einer bestimmten Aufgabe verbessert werden kann. Dabei wird ein „Präfix“ gelernt, das dem eigentlichen Prompt vorangestellt wird, manchmal auf jeder Ebene. Dieser Ansatz gilt als kostengünstiger und schneller als andere Abstimmungsmethoden und liefert oft gute Ergebnisse. Die Prompt-Optimierung ist besonders effektiv, wenn Sie eine bestimmte Aufgabe haben und das Modell sie auf eine bestimmte Weise ausführen soll. Es wird auch als Prompt-Lernen oder parametereffiziente (Fein-)Abstimmung bezeichnet. Weitere Informationen finden Sie unter Einführung in das Prompt-Engineering.

Bereitgestellter Durchsatz (Provisioned Throughput, PT)

Bereitgestellter Durchsatz ist ein Premium-Dienst für generative KI-Modelle von Vertex AI, der durch Kapazitätsgarantie und vorhersehbare Preise eine garantierte Leistung bietet. Im Gegensatz zur Pay-as-you-go-Option (On-Demand) können Kunden mit PT ein dediziertes Kontingent erwerben, sodass ihre Anfragen nicht mit anderen um die Modellkapazität konkurrieren. PT ist ein monatliches oder wöchentliches Abo mit fester Gebühr, das Durchsatz für bestimmte Modelle und Standorte reserviert. Weitere Informationen finden Sie unter Bereitgestellter Durchsatz – Übersicht.

Quantisierung

Die Quantisierung ist eine Technik zur Modelloptimierung, mit der die Genauigkeit der Zahlen reduziert wird, die zur Darstellung der Parameter eines Modells verwendet werden. Das kann zu kleineren Modellen, einem geringeren Stromverbrauch und einer geringeren Inferenzlatenz führen.

Random Forest

Random Forest ist ein Machine-Learning-Algorithmus, der sowohl für die Klassifizierung als auch für die Regression verwendet wird. Es ist nicht direkt ein generatives KI-Modell, sondern eine Komponente, die in einem größeren generativen KI-System verwendet werden kann. Ein Random Forest besteht aus mehreren Entscheidungsbäumen. Die Inferenz ist eine Aggregation der Inferenzen aus diesen einzelnen Bäumen. Bei einer Klassifizierungsaufgabe „stimmt“ beispielsweise jeder Baum für eine Klasse ab. Die endgültige Inferenz ist die Klasse mit den meisten Stimmen. Weitere Informationen finden Sie unter Decision forest.

Ray-Cluster in Vertex AI

Ein Ray-Cluster in Vertex AI ist ein verwalteter Cluster von Rechenknoten, der zum Ausführen von verteilten Anwendungen für maschinelles Lernen (ML) und Python verwendet werden kann. Es bietet die Infrastruktur für verteiltes Computing und parallele Verarbeitung für Ihren ML-Workflow. Ray-Cluster sind in Vertex AI integriert, um die Kapazitätsverfügbarkeit für kritische ML-Arbeitslasten oder während Spitzenzeiten zu gewährleisten. Im Gegensatz zu benutzerdefinierten Jobs, bei denen der Trainingsdienst die Ressource nach Abschluss des Jobs freigibt, bleiben Ray-Cluster bis zum Löschen verfügbar. Weitere Informationen finden Sie in der Übersicht zu Ray on Vertex AI.

Ray on Vertex AI (RoV)

Ray on Vertex AI wurde so entwickelt, dass Sie denselben Open-Source-Ray-Code zum Schreiben von Programmen und Entwickeln von Anwendungen in Vertex AI mit minimalen Änderungen verwenden können. Weitere Informationen finden Sie in der Übersicht zu Ray on Vertex AI.

Ray on Vertex AI SDK für Python

Das Ray on Vertex AI SDK für Python ist eine Version des Vertex AI SDK für Python, die die Funktionen von Ray Client, Ray BigQuery Connector, der Ray-Clusterverwaltung in Vertex AI und Inferenzen in Vertex AI umfasst. Weitere Informationen finden Sie unter Einführung in das Vertex AI SDK für Python.

Recall

Der Prozentsatz der echten nächsten Nachbarn, die vom Index zurückgegeben werden. Wenn z. B. eine Abfrage nach 20 nächsten Nachbarn 19 der „grundlegend echten“ nächsten Nachbarn zurückgibt, beträgt der Recall 19/20x100 = 95 %.

Empfehlungssystem

Ein Empfehlungssystem ist ein auf maschinellem Lernen basierendes System, das Nutzern dabei hilft, überzeugende Inhalte in einem großen Korpus zu finden. Es wird eine kleinere Teilmenge von Kandidaten aus einem potenziell riesigen Korpus generiert, die Kandidaten werden bewertet und eingestuft und das endgültige Ranking wird neu eingestuft, um zusätzliche Einschränkungen zu berücksichtigen. Weitere Informationen finden Sie in der Übersicht über Empfehlungssysteme.

Regularisierung

Die Regularisierung ist eine Technik, die verwendet wird, um eine Überanpassung in Modellen für maschinelles Lernen zu verhindern. Eine Überanpassung tritt auf, wenn ein Modell die Trainingsdaten zu gut lernt, was zu einer schlechten Leistung bei unbekannten Daten führt. Eine spezielle Art der Regularisierung ist das vorzeitige Beenden. Dabei wird das Training beendet, bevor der Verlust in einem Validierungs-Dataset zu steigen beginnt, was auf einen Rückgang der Generalisierungsleistung hindeutet. Weitere Informationen finden Sie unter Overfitting: L2-Regularisierung.

Dienstkonto

Dienstkonten sind spezielle Google Cloud-Konten, die von Anwendungen oder virtuellen Maschinen verwendet werden, um autorisierte API-Aufrufe an Google Cloud-Dienste auszuführen. Im Gegensatz zu Nutzerkonten sind sie nicht an eine einzelne Person gebunden, sondern fungieren als Identität für Ihren Code. So ermöglichen sie einen sicheren und programmatischen Zugriff auf Ressourcen, ohne dass menschliche Anmeldedaten erforderlich sind. Weitere Informationen finden Sie unter Dienstkontenübersicht.

Dienst-Agent

Ein Dienst-Agent bezieht sich auf ein von Google verwaltetes Dienstkonto. Sie wird verwendet, wenn ein Dienst Zugriff auf Ressourcen benötigt, die von einem anderen Dienst erstellt wurden. Das ist beispielsweise der Fall, wenn Dataflow- oder Dataproc-Dienste während der Laufzeit Instanzen erstellen müssen oder wenn eine Cloud Function den Key Management Service (KMS) zum Schutz der Cloud Function verwenden möchte. Dienst-Agents werden automatisch von Google Cloud erstellt, wenn ein Dienst sie benötigt. Sie werden in der Regel verwendet, um den Zugriff auf Ressourcen zu verwalten und verschiedene Aufgaben im Namen des Dienstes auszuführen. Weitere Informationen finden Sie unter Dienst-Agents.

Zusammenfassende Messwerte

Zusammenfassende Messwerte sind ein einzelner Wert für jeden Messwertschlüssel in einer Testausführung. Beispiel: Die Testgenauigkeit eines Tests ist die Genauigkeit, die anhand eines Test-Datasets am Ende des Trainings berechnet wird und als einzelner zusammenfassender Messwert erfasst werden kann.

TensorBoard

TensorBoard ist eine Suite von Webanwendungen zum Visualisieren und Analysieren von TensorFlow-Läufen und -Modellen. Weitere Informationen finden Sie unter TensorBoard.

TensorBoard-Instanz

Eine TensorBoard-Instanz ist eine regionalisierte Ressource, in der Vertex AI TensorBoard-Tests gespeichert werden, die mit einem Projekt verknüpft sind. Sie können in einem Projekt mehrere TensorBoard-Instanzen erstellen, wenn Sie beispielsweise mehrere CMEK-fähige Instanzen benötigen. Dies entspricht der TensorBoard-Ressource in der API.

TensorBoard-Ressourcenname

Ein TensorBoard-Ressourcenname wird verwendet, um eine Vertex AI TensorBoard-Instanz vollständig zu identifizieren. Das Format lautet: projects/PROJEKT-ID_ODER_-NUMBER/locations/REGION/tensorboards/TENSORBOARD-INSTANZ-ID.

zeitlicher Versatz, Zeitstempel

Der zeitliche Versatz bezieht sich auf den Beginn eines Videos.

Zeitachsenmesswerte

Zeitachsenmesswerte sind Längengradmesswerte, wobei jeder Wert einen Schritt im Teil der Trainingsroutine einer Ausführung darstellt. Zeitachsenmesswerte werden in Vertex AI TensorBoard gespeichert. Vertex AI Experiments speichert einen Verweis auf die Vertex TensorBoard-Ressource.

Token

Ein Token in einem Sprachmodell ist die atomare Einheit, die das Modell trainiert und auf der es Rückschlüsse zieht, nämlich Wörter, Morpheme und Zeichen. In anderen Bereichen als Sprachmodellen können Tokens andere Arten von atomaren Einheiten darstellen. Bei Computer Vision kann ein Token beispielsweise ein Teil eines Bildes sein. Weitere Informationen finden Sie unter Tokens auflisten und zählen.

Trajektorie

Eine „Trajektorie“ bezieht sich auf eine Abfolge von Schritten oder Aktionen, die von einem Agent oder Modell ausgeführt werden. Sie wird häufig bei der Bewertung generativer Modelle verwendet, bei denen die Fähigkeit des Modells, Text, Code oder andere Inhalte zu generieren, bewertet wird. Es gibt verschiedene Arten von Messwerten für Trajektorien, mit denen generative Modelle bewertet werden können, darunter „Trajektorie – genaue Übereinstimmung“, „Trajektorie – Übereinstimmung in der richtigen Reihenfolge“, „Trajektorie – Übereinstimmung in beliebiger Reihenfolge“ und „Trajektorie – Genauigkeit“. Mit diesen Messwerten wird die Ähnlichkeit zwischen der Modellausgabe und einer Reihe von von Menschen erstellten Referenzausgaben gemessen.

Transformer

Ein „Transformer“ ist eine Architektur für neuronale Netzwerke, die den meisten modernen generativen Modellen zugrunde liegt. Sie wird in verschiedenen Anwendungen für Sprachmodelle verwendet, z. B. für die Übersetzung. Transformer bestehen aus einem Encoder und einem Decoder. Der Encoder wandelt Eingabetext in eine Zwischenrepräsentation um und der Decoder wandelt diese in eine nützliche Ausgabe um. Sie nutzen einen Self-Attention-Mechanismus, um Kontext aus Wörtern zu erfassen, die das zu verarbeitende Wort umgeben. Das Trainieren eines Transformers erfordert zwar erhebliche Ressourcen, das Feinabstimmen eines vortrainierten Transformers für bestimmte Anwendungen ist jedoch effizienter.

Bestärkendes Lernen für Transformer

Transformer Reinforcement Learning (TRL) bezieht sich auf die Anwendung von Reinforcement-Learning-Techniken (RL) zum Trainieren von Transformer-basierten Modellen für generative Aufgaben. Dieser Ansatz behebt Einschränkungen herkömmlicher generativer Modelle, die oft für die Inferenz des nächsten Tokens trainiert werden, ohne dass explizit auf wünschenswerte Eigenschaften wie Kohärenz, Sicherheit und Sensibilität optimiert wird. TRL optimiert das Sprachmodell direkt anhand komplexer Ziele mithilfe von RL. Dabei wird häufig menschliches Feedback (RLHF) einbezogen, um den Lernprozess zu steuern. Beispiele hierfür sind die Feinabstimmung von Modellen, um mit Belohnungsmodellen weniger schädliche Inhalte zu generieren, und die Verwendung von TRL zur Feinabstimmung von Gemma, einem generativen Modell. Weitere Informationen finden Sie unter Hugging Face DLCs: Fine-tuning Gemma with Transformer Reinforcement Learning (TRL) on Vertex AI.

richtig positiv

Ein „richtig positives Ergebnis“ bezieht sich auf eine Inferenz, bei der das Modell eine positive Klasse richtig identifiziert. Wenn ein Modell beispielsweise trainiert wird, um Kunden zu identifizieren, die eine Jacke kaufen werden, wäre eine richtig-positive Vorhersage, dass ein Kunde einen solchen Kauf tätigen wird.

Validierung

Bei der Validierung wird die Qualität der Inferenzen eines Modells anhand des Validierungssatzes geprüft. Dazu gehört das Definieren von Messwerten, um die Qualität, Geschwindigkeit, Einhaltung von Anweisungen und Sicherheit der generierten Inhalte zu messen. Bei der Validierung werden häufig gelabelte Daten (Eingabe-Prompts und erwartete Ausgaben) verwendet, um die Inferenz des Modells mit der Ground Truth zu vergleichen. Es können Messwerte wie der F1-Wert (für die Klassifizierung) und der ROUGE-L-Wert (für die Zusammenfassung) verwendet werden. Der Prozess umfasst auch das Testen von Grenz- und ungewöhnlichen Szenarien, um die Robustheit zu gewährleisten. Bei bereitgestellten Modellen helfen kontinuierliches Monitoring und die Erfassung von gängigen Datenpunkten und Grenzfall-Szenarien, zukünftige Validierungsbemühungen zu verbessern.

vector

Ein Vektor ist eine numerische Darstellung von Text, Bildern oder Videos, die Beziehungen zwischen Eingaben erfasst. Machine-Learning-Modelle eignen sich zum Erstellen von Einbettungen, da sie Muster in großen Datasets erkennen können. Anwendungen können Einbettungen verwenden, um Sprache zu verarbeiten und zu erzeugen und komplexe Bedeutungen und semantische Beziehungen zu erkennen, die für die Inhalte spezifisch sind. Weitere Informationen finden Sie in der Übersicht über Einbettungen-APIs.

Vertex AI Experiments

Mit Vertex AI Experiments können Nutzer Folgendes erfassen: 1. Schritte einer Testausführung, z. B. Vorverarbeitung und Training. 2. Eingaben (z. B. Algorithmus, Parameter und Datasets). 3. Ausgaben dieser Schritte, z. B. Modelle, Prüfpunkte und Messwerte.

Vertex AI Model Registry

Vertex AI Model Registry ist ein zentrales Repository, in dem Sie den Lebenszyklus Ihrer ML-Modelle verwalten können. Vertex AI Model Registry bietet eine Übersicht über Ihre Modelle, sodass Sie neue Versionen besser organisieren, verfolgen und trainieren können. Wenn Sie eine Modellversion haben, die Sie bereitstellen möchten, können Sie sie einem Endpunkt direkt aus der Registry zuweisen oder Modelle mithilfe von Aliassen auf einem Endpunkt bereitstellen. Weitere Informationen finden Sie unter Einführung in Vertex AI Model Registry.

Videosegment

Ein Videosegment wird durch den zeitlichen Versatz am Beginn und Ende eines Videos identifiziert.

Virtual Private Cloud (VPC)

Eine Virtual Private Cloud ist ein konfigurierbarer Pool mit gemeinsam genutzten Computing-Ressourcen, der in einer öffentlichen Cloud-Umgebung zugewiesen wird und eine gewisse Isolation zwischen verschiedenen Organisationen bietet, die diese Ressourcen nutzen.

Worteinbettung

Worteinbettungen sind eine Möglichkeit, Wörter als dichte Vektoren von Gleitkommawerten darzustellen. So können ähnliche Wörter ähnlich codiert werden. Wort-Embeddings werden häufig in generativer KI verwendet, um die Beziehungen zwischen Wörtern zu erfassen und neuen Text oder Code zu generieren. In der generativen KI können Worteinbettungen verwendet werden, um Modelle zu trainieren, die neuen Text oder Code generieren können. Durch das Erkennen der Beziehungen zwischen Wörtern können generative KI-Modelle neue Inhalte erstellen, die sowohl kohärent als auch relevant sind.

Zero-Shot-Prompt (direktes Prompting)

In der generativen KI ist ein Zero-Shot-Prompt ein Prompt, der es einem Large Language Model (LLM) ermöglicht, eine Aufgabe ohne zusätzliches Training oder Beispiele auszuführen. Das steht im Gegensatz zu Methoden wie Few-Shot-Prompts, bei denen dem Modell Beispiele für Eingaben und Ausgaben zur Verfügung gestellt werden. Bei einem Zero-Shot-Prompt wird die Antwort ausschließlich auf Grundlage des vorhandenen Wissens des Modells generiert. Weitere Informationen finden Sie unter Zero-Shot-Prompt.

Glossar zu generativer KI Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Agent

API-Endpunkt

Standardanmeldedaten für Anwendungen (Application Default Credentials, ADC)

Annäherung an den nächsten Nachbarn (ANN)

artifact

Artifact Registry

Künstliche Intelligenz (KI)

Augmented Reality (AR)

authentication

Automatic Side-by-Side (AutoSxS)

Automatische Spracherkennung (ASR,Speech-to-Text)

AutoML

autorater

baseline

Batch

Batchgröße

Batchinferenz

Bias

bidrectional

Bidirectional Encoder Representations from Transformers (BERT)

Bilingual Evaluation Understudy (BLEU)

Booster

Begrenzungsrahmen

Bucket

Chain-of-Thought

Chat

Checkpoint

Klassifizierungsmodell

Klassifizierungsmesswerte

Cloud TPU

Clustering

Container-Image

context

Kontextcache

Kontextfenster

Vom Kunden verwaltete Verschlüsselungsschlüssel (Customer Managed Encryption Keys, CMEK)

Datenanalyse

Datenaugmentation

DataFrame

Datenindexierung

Datenaufnahme

Datenparallelität

Dataset

Datentransformation

Decoder

Neuronales Deep-Learning-Netzwerk (DNN)

Tiefe

DevOps

Vorzeitiges Beenden

Einbettung

Einbettungsbereich (latenter Raum)

Einbettungsvektor

Encoder

Ensemble

Umgebung

evaluation (eval)

Ausführung

F1-Wert

Feature

Extraktion von Merkmalen

Bereitstellung von Features

Featureansicht

Few-Shot-Prompt (Few-Shot)

Foundation Model (FM)

Foundation Model Operations (FMOPs)

Gemini

Generalisierung

Generation

Generatives Modell

Google Embedded Modem System (GEMS)

Verlauf

Diagramm

Ground Truth (GT)

Halluzination

Heuristik

Verborgene Schicht

histogram

Hyperparameter

Hyperparameter-Abstimmung