Best Practices mit Large Language Models (LLMs)

Multimodale Prompts

Informationen zu Best Practices für multimodale Prompts finden Sie auf den folgenden Seiten, je nachdem, mit welcher Modalität Sie arbeiten:

Latenz reduzieren

Bei der Entwicklung interaktiver Anwendungen spielt die Reaktionszeit, auch als Latenz bezeichnet, eine entscheidende Rolle für die Nutzerfreundlichkeit. In diesem Abschnitt wird das Konzept der Latenz im Kontext von Vertex AI LLM APIs erläutert. Außerdem werden umsetzbare Strategien zur Minimierung der Latenz und zur Verbesserung der Antwortzeit Ihrer KI-gestützten Anwendungen bereitgestellt.

Latenzmesswerte für LLMs verstehen

Die Latenz bezieht sich auf die Zeit, die ein Modell benötigt, um Ihren Eingabe-Prompt zu verarbeiten und eine entsprechende Ausgabeantwort zu generieren.

Beachten Sie beim Untersuchen der Latenz eines Modells Folgendes:

Die Zeit bis zum ersten Token (Time to First Token, TTFT) ist die Zeit, die das Modell benötigt, um nach Erhalt des Prompts das erste Token der Antwort zu generieren. TTFT ist besonders relevant für Anwendungen, die Streaming nutzen, da hier sofortiges Feedback entscheidend ist.

Time to last token (TTLT) (Zeit bis zum letzten Token) misst die Gesamtzeit, die das Modell benötigt, um den Prompt zu verarbeiten und die Antwort zu generieren.

Strategien zur Verringerung der Latenz

Mit Vertex AI können Sie verschiedene Strategien nutzen, um die Latenz zu minimieren und die Reaktionsfähigkeit Ihrer Anwendungen zu verbessern:

Das richtige Modell für Ihren Anwendungsfall auswählen

Vertex AI bietet eine Vielzahl von Modellen mit unterschiedlichen Funktionen und Leistungsmerkmalen. Bewerten Sie sorgfältig Ihre Anforderungen an Geschwindigkeit und Ausgabequalität, um das Modell auszuwählen, das am besten zu Ihrem Anwendungsfall passt. Eine Liste der verfügbaren Modelle finden Sie unter Alle Modelle ansehen.

Prompt- und Ausgabelänge optimieren

Die Anzahl der Tokens in Ihrem Eingabe-Prompt und der erwarteten Ausgabe wirkt sich direkt auf die Verarbeitungszeit aus. Reduzieren Sie die Anzahl der Tokens, um die Latenz zu verringern.

  • Formulieren Sie klare und prägnante Prompts, die Ihre Absicht effektiv vermitteln, ohne unnötige Details oder Redundanz. Kürzere Prompts verkürzen die Zeit bis zum ersten Token.

  • Verwenden Sie Systemanweisungen, um die Länge der Antwort zu steuern. Weisen Sie das Modell an, prägnante Antworten zu geben oder die Ausgabe auf eine bestimmte Anzahl von Sätzen oder Absätzen zu beschränken. Diese Strategie kann die Zeit bis zum letzten Token verkürzen.

  • Passen Sie die temperature an. Mit dem Parameter temperature können Sie die Zufälligkeit der Ausgabe steuern. Niedrigere temperature-Werte können zu kürzeren, fokussierteren Antworten führen, während höhere Werte zu vielfältigeren, aber möglicherweise längeren Ausgaben führen können. Weitere Informationen finden Sie unter temperature in der Referenz zu Modellparametern.

  • Ausgabe durch Festlegen eines Limits einschränken Mit dem Parameter max_output_tokens können Sie eine maximale Länge für die generierte Antwort festlegen, um zu lange Ausgaben zu vermeiden. Seien Sie jedoch vorsichtig, da Antworten dadurch mitten im Satz abgeschnitten werden können.

Streamantworten

Beim Streaming beginnt das Modell mit dem Senden der Antwort, bevor die vollständige Ausgabe generiert wurde. Dadurch kann die Ausgabe in Echtzeit verarbeitet werden. Sie können Ihre Benutzeroberfläche sofort aktualisieren und andere gleichzeitige Aufgaben ausführen.

Durch Streaming wird die wahrgenommene Reaktionsfähigkeit verbessert und eine interaktivere User Experience geschaffen.

Nächste Schritte