Multimodale Prompts
Informationen zu Best Practices für multimodale Prompts finden Sie auf den folgenden Seiten, je nachdem, mit welcher Modalität Sie arbeiten:
Latenz reduzieren
Bei der Entwicklung interaktiver Anwendungen spielt die Reaktionszeit, auch als Latenz bezeichnet, eine entscheidende Rolle für die Nutzerfreundlichkeit. In diesem Abschnitt wird das Konzept der Latenz im Kontext von Vertex AI LLM APIs erläutert. Außerdem werden umsetzbare Strategien zur Minimierung der Latenz und zur Verbesserung der Antwortzeit Ihrer KI-gestützten Anwendungen bereitgestellt.
Latenzmesswerte für LLMs verstehen
Die Latenz bezieht sich auf die Zeit, die ein Modell benötigt, um Ihren Eingabe-Prompt zu verarbeiten und eine entsprechende Ausgabeantwort zu generieren.
Beachten Sie beim Untersuchen der Latenz eines Modells Folgendes:
Die Zeit bis zum ersten Token (Time to First Token, TTFT) ist die Zeit, die das Modell benötigt, um nach Erhalt des Prompts das erste Token der Antwort zu generieren. TTFT ist besonders relevant für Anwendungen, die Streaming nutzen, da hier sofortiges Feedback entscheidend ist.
Time to last token (TTLT) (Zeit bis zum letzten Token) misst die Gesamtzeit, die das Modell benötigt, um den Prompt zu verarbeiten und die Antwort zu generieren.
Strategien zur Verringerung der Latenz
Mit Vertex AI können Sie verschiedene Strategien nutzen, um die Latenz zu minimieren und die Reaktionsfähigkeit Ihrer Anwendungen zu verbessern:
Das richtige Modell für Ihren Anwendungsfall auswählen
Vertex AI bietet eine Vielzahl von Modellen mit unterschiedlichen Funktionen und Leistungsmerkmalen. Bewerten Sie sorgfältig Ihre Anforderungen an Geschwindigkeit und Ausgabequalität, um das Modell auszuwählen, das am besten zu Ihrem Anwendungsfall passt. Eine Liste der verfügbaren Modelle finden Sie unter Alle Modelle ansehen.
Prompt- und Ausgabelänge optimieren
Die Anzahl der Tokens in Ihrem Eingabe-Prompt und der erwarteten Ausgabe wirkt sich direkt auf die Verarbeitungszeit aus. Reduzieren Sie die Anzahl der Tokens, um die Latenz zu verringern.
Formulieren Sie klare und prägnante Prompts, die Ihre Absicht effektiv vermitteln, ohne unnötige Details oder Redundanz. Kürzere Prompts verkürzen die Zeit bis zum ersten Token.
Verwenden Sie Systemanweisungen, um die Länge der Antwort zu steuern. Weisen Sie das Modell an, prägnante Antworten zu geben oder die Ausgabe auf eine bestimmte Anzahl von Sätzen oder Absätzen zu beschränken. Diese Strategie kann die Zeit bis zum letzten Token verkürzen.
Passen Sie die
temperature
an. Mit dem Parametertemperature
können Sie die Zufälligkeit der Ausgabe steuern. Niedrigeretemperature
-Werte können zu kürzeren, fokussierteren Antworten führen, während höhere Werte zu vielfältigeren, aber möglicherweise längeren Ausgaben führen können. Weitere Informationen finden Sie untertemperature
in der Referenz zu Modellparametern.Ausgabe durch Festlegen eines Limits einschränken Mit dem Parameter
max_output_tokens
können Sie eine maximale Länge für die generierte Antwort festlegen, um zu lange Ausgaben zu vermeiden. Seien Sie jedoch vorsichtig, da Antworten dadurch mitten im Satz abgeschnitten werden können.
Streamantworten
Beim Streaming beginnt das Modell mit dem Senden der Antwort, bevor die vollständige Ausgabe generiert wurde. Dadurch kann die Ausgabe in Echtzeit verarbeitet werden. Sie können Ihre Benutzeroberfläche sofort aktualisieren und andere gleichzeitige Aufgaben ausführen.
Durch Streaming wird die wahrgenommene Reaktionsfähigkeit verbessert und eine interaktivere User Experience geschaffen.
Nächste Schritte
- Allgemeine Designstrategien für die sofortige Eingabe
- Siehe Beispielaufforderungen.
- Weitere Informationen zum Senden von Chat-Prompts
- Verantwortungsbewusste Best Practices für KI und Sicherheitsfilter von Vertex AI
- Modell abstimmen
- Informationen zum bereitgestellten Durchsatz für Produktionsarbeitslasten