Einige generative KI-Modelle wie Gemini haben verwaltete APIs und können ohne Bereitstellung Prompts akzeptieren. Eine Liste der Modelle mit verwalteten APIs finden Sie unter Grundlegende Modell-APIs.
Andere generative KI-Modelle müssen auf einem Endpunkt bereitgestellt werden, bevor sie Prompts akzeptieren können. Es gibt zwei Arten von generativen Modellen, die bereitgestellt werden müssen:
Abgestimmte Modelle, die Sie durch Feinabstimmung eines unterstützten Foundation Models mit Ihren eigenen Daten erstellen.
Generative Modelle, die keine verwalteten APIs haben Im Model Garden sind dies Modelle, die nicht als API verfügbar oder Vertex AI Studio gekennzeichnet sind, z. B. Llama 2.
Wenn Sie ein Modell für einen Endpunkt bereitstellen, verknüpft Vertex AI mit dem Modell Rechenressourcen und einen URI, damit es Prompt-Anfragen bedienen kann.
Abgestimmtes Modell bereitstellen
Optimierte Modelle werden automatisch in die Vertex AI Model Registry hochgeladen und in einem Vertex AI-endpoint
bereitgestellt. Optimierte Modelle werden nicht im Model Garden angezeigt, da sie anhand Ihrer Daten optimiert wurden.
Weitere Informationen finden Sie unter Übersicht über die Modellabstimmung.
Sobald der Endpunkt aktiv ist, kann er Prompt-Anfragen an seinen URI akzeptieren. Das Format des API-Aufrufs für ein optimiertes Modell entspricht dem des Basismodells, aus dem es optimiert wurde. Wenn Ihr Modell beispielsweise auf Gemini abgestimmt ist, sollte Ihre Prompt-Anfrage der Gemini API folgen.
Senden Sie Prompt-Anfragen an den Endpunkt Ihres optimierten Modells und nicht an die verwaltete API. Der Endpunkt des abgestimmten Modells hat folgendes Format:
https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID
Informationen zum Abrufen der Endpunkt-ID finden Sie unter Endpunkt aufrufen oder verwalten.
Weitere Informationen zum Formatieren von Promptanfragen finden Sie in der API-Referenz für Modelle.
Generatives Modell ohne verwaltete API bereitstellen
Wenn Sie ein Modell aus der Model Garden verwenden möchten, das keine verwaltete API hat, müssen Sie es in die Model Registry hochladen und auf einem Endpunkt bereitstellen, bevor Sie Prompt-Anfragen senden können. Das ist vergleichbar mit dem Hochladen und Bereitstellen eines benutzerdefinierten trainierten Modells für Onlinevorhersagen in Vertex AI.
Rufen Sie zum Bereitstellen eines dieser Modelle den Model Garden auf und wählen Sie das Modell aus, das Sie bereitstellen möchten.
Auf jeder Modellkarte werden eine oder mehrere der folgenden Bereitstellungsoptionen angezeigt:
Schaltfläche Bereitstellen: Die meisten generativen Modelle im Model Garden haben die Schaltfläche Bereitstellen, über die Sie die Bereitstellung in Vertex AI durchgehen können. Wenn die Schaltfläche Bereitstellen nicht angezeigt wird, fahren Sie mit dem nächsten Punkt fort.
Sie können die vorgeschlagenen Einstellungen für die Bereitstellung in Vertex AI verwenden oder ändern. Sie können auch die Bereitstellungseinstellungen Erweitert festlegen, um beispielsweise eine Compute Engine-Reservierung auszuwählen.
Schaltfläche Notebook öffnen: Mit dieser Option wird ein Jupyter-Notebook geöffnet. Diese Option wird auf jeder Modellkarte angezeigt. Das Jupyter-Notebook enthält eine Anleitung und Beispielcode zum Hochladen des Modells in die Modell-Registry, zum Bereitstellen des Modells auf einem Endpunkt und zum Senden einer Prompt-Anfrage.
Wenn die Bereitstellung abgeschlossen ist und der Endpunkt aktiv ist, kann er Prompt-Anfragen an den URI akzeptieren. Das Format der API ist predict
. Das Format jedes instance
im Anfragetext hängt vom Modell ab. Weitere Informationen finden Sie in den folgenden Ressourcen:
Achten Sie darauf, dass Sie genügend Maschinenkontingent für die Bereitstellung Ihres Modells haben. Wechseln Sie in der Google Cloud Console zur Seite Kontingente, um Ihr aktuelles Kontingent anzusehen oder ein höheres Kontingent anzufordern.
Filtern Sie dann nach dem Kontingentnamen Custom Model Serving
, um die Kontingente für die Onlineprognose aufzurufen. Weitere Informationen finden Sie unter Kontingente aufrufen und verwalten.
Kapazität für bereitgestellte Modelle mit Compute Engine-Reservierungen sicherstellen
Sie können Model Garden-Modelle auf VM-Ressourcen bereitstellen, die über Compute Engine-Reservierungen zugewiesen wurden. Mit Reservierungen sorgen Sie dafür, dass die Kapazität verfügbar ist, wenn Sie Anfragen für Modellvorhersagen stellen. Weitere Informationen finden Sie unter Reservierungen mit Prognose verwenden.
Modell ansehen oder verwalten
Bei optimierten Modellen können Sie das Modell und seinen Abstimmungsjob in der Google Cloud Console auf der Seite Abstimmen und destillieren aufrufen.
Zu „Abstimmen und destillieren“
In Model Registry können Sie auch alle Ihre hochgeladenen Modelle aufrufen und verwalten.
In Model Registry wird ein abgestimmtes Modell als großes Modell kategorisiert und verfügt über Labels, die das Foundation Model und die Pipeline oder den Abstimmungsjob angeben, der für die Abstimmung verwendet wurde.
Bei Modellen, die mit der Schaltfläche Bereitstellen bereitgestellt werden, wird Model Garden als Source
angezeigt.
Beachten Sie, dass Ihr hochgeladenes Modell in Model Registry nicht aktualisiert wird, wenn das Modell im Model Garden aktualisiert wird.
Weitere Informationen finden Sie unter Einführung in Vertex AI Model Registry.
Endpunkt aufrufen oder verwalten
Rufen Sie die Seite Onlinevorhersage in Vertex AI auf, um Ihren Endpunkt aufzurufen und zu verwalten. Standardmäßig entspricht der Name des Endpunkts dem Namen des Modells.
Weitere Informationen finden Sie unter Modell auf einem Endpunkt bereitstellen.
Preise
Für abgestimmte Modelle wird pro Token zum gleichen Preis abgerechnet wie für das Foundation Model, von dem Ihr Modell optimiert wurde. Für den Endpunkt fallen keine Kosten an, da die Optimierung als kleiner Adapter auf dem Basismodell implementiert ist. Weitere Informationen finden Sie unter Preise für generative KI in Vertex AI.
Bei Modellen ohne verwaltete APIs werden Ihnen die von Ihrem Endpunkt genutzten Maschinenstunden zum selben Preis wie Vertex AI-Onlinevorhersagen in Rechnung gestellt. Die Abrechnung erfolgt nicht pro Token. Weitere Informationen finden Sie unter Preise für Vorhersagen in Vertex AI.
Nächste Schritte
- Übersicht über die Modellabstimmung
- API-Referenz für Modelle
- Modell auf einem Endpunkt bereitstellen