Einige Produkte und Funktionen werden derzeit umbenannt. Auch die Funktionen für generative Playbooks und Abläufe werden zu einer einzigen konsolidierten Console migriert. Weitere Informationen

Diese Seite wurde von der Cloud Translation API übersetzt.

Best Practices für das Design von Voice-Agents

Dieser Leitfaden enthält Best Practices speziell für das Entwerfen von Sprach-Agenten. Wenn Sie einen Sprach-Agent entwerfen, besteht das Ziel darin, Nutzer (Endnutzer) bei der Erledigung einer Aufgabe zu unterstützen, ohne an einen menschlichen Mitarbeiter zu eskalieren. Die Nutzer sollten das Gefühl haben, dass sie eine natürliche, interaktive und kooperative Unterhaltung mit dem Sprach-Agent haben.

Sehen Sie sich auch den allgemeinen Leitfaden zum allgemeinen Agent-Design für alle Agenttypen und den Leitfaden zu den Best Practices für die Verwendung des Dialogflow-Dienstes an.

Qualität des Agents messen

Erfassen Sie die folgenden Messwerte, um die Qualität der Nutzerfreundlichkeit Ihres Agents zu messen:

Misroute: wie viele Anrufer an der falschen Stelle landen
Lösung für den ersten Anruf: Anzahl der Aufrufe, die beim ersten Anruf oder Kontakt gelöst werden.
Durchschnittliche Bearbeitungszeit: Gibt an, wie lange es dauert, das Problem des Nutzers zu lösen.
Kundenzufriedenheit: Wie hoch Ihr Sprach-Agent bei einer Nutzerbefragung bewertet.
Anzahl der Runden: Die Anzahl der Austausche, die erforderlich sind, um die Aufgabe des Nutzers zu erreichen.
Nutzerabwanderung: Gibt an, wie oft Nutzer die Unterhaltung beenden.

Spracherkennung

Die folgenden Tipps können Ihrem Agent helfen, Endnutzersprache zu erkennen:

Der Agent sollte den Endnutzer dazu auffordern, lange Wortgruppen oder vollständige Sätze zu verwenden. Dies verbessert die Erkennungsqualität.
Erwägen Sie die Verwendung eines Webhooks, um Endnutzereingaben zu überprüfen, die möglicherweise nicht erkannt werden oder validiert werden müssen.
Verwenden Sie No-Match-Ereignisse, um den Endnutzer aufzufordern, langsamer und klarer zu sprechen.

Unterhaltungsstruktur

Eine Unterhaltung mit einem Sprach-Agent ist im Allgemeinen in folgender Reihenfolge organisiert:

Aktivität	Beispiel	Hinweise
Eröffnungsaktivität	Der Nutzer meldet sich an oder ruft Ihr Callcenter an. Sprach-Agent: Hallo, hier ist Reise Inc. Wie kann ich Ihnen helfen?	Der Voice-Agent startet die Unterhaltung mit einer Begrüßungsnachricht.
Hauptsequenz	Nutzer: Ich möchte ein Flugticket buchen. Sprach-Agent: OK, wo ist es? Nutzer: Guatemala am 19. Mai, 21:00 Uhr. Sprach-Agent: OK, wir haben Ihnen ein Ticket für Guatemala am 19. Mai, 21:00 Uhr, gebucht.	Die Aufgabe wird vom Nutzer definiert und vom Sprach-Agent abgeschlossen. Es kann mehrere Runden dauern, bis der Sprach-Agent alle erforderlichen Informationen erfasst hat.
Aktivität schließen	Sprach-Agent: Gibt es noch etwas, bei dem ich Ihnen helfen kann? Nutzer: Nein Sprach-Agent: OK, danke für Ihr Gespräch.	Der Nutzer ist bereit, die Unterhaltung zu beenden, wenn seine Anfrage ausgeführt wurde.

Aktivität

Beispiel

Hinweise

Eröffnungsaktivität

Der Nutzer meldet sich an oder ruft Ihr Callcenter an.

Sprach-Agent: Hallo, hier ist Reise Inc. Wie kann ich Ihnen helfen?

Der Voice-Agent startet die Unterhaltung mit einer Begrüßungsnachricht.

Hauptsequenz

Nutzer: Ich möchte ein Flugticket buchen.

Sprach-Agent: OK, wo ist es?

Nutzer: Guatemala am 19. Mai, 21:00 Uhr.

Sprach-Agent: OK, wir haben Ihnen ein Ticket für Guatemala am 19. Mai, 21:00 Uhr, gebucht.

Die Aufgabe wird vom Nutzer definiert und vom Sprach-Agent abgeschlossen. Es kann mehrere Runden dauern, bis der Sprach-Agent alle erforderlichen Informationen erfasst hat.

Aktivität schließen

Sprach-Agent: Gibt es noch etwas, bei dem ich Ihnen helfen kann?

Nutzer: Nein

Sprach-Agent: OK, danke für Ihr Gespräch.

Der Nutzer ist bereit, die Unterhaltung zu beenden, wenn seine Anfrage ausgeführt wurde.

Willkommensnachricht

Überlegen Sie sich, wie Sie die erste Nachricht für den Nutzer erstellen und überlegen, wie Sie so schnell wie möglich zum ersten Thema gelangen. Die Begrüßung sollte kurz und eindeutig sein. Einige Vorschläge:

Beantworten Sie den Anruf mit Formulierungen wie "Hallo".
Ermitteln Sie den Sprach-Agent mit Formulierungen wie "Das ist der Sprach-Agent/Assistent von Unternehmen XYZ".
Formulierungen wie "Wie kann ich Ihnen helfen?" anzeigen

Zusätzliche Informationen können Nutzer frustrieren und dazu führen, dass sie an einen menschlichen Mitarbeiter eskalieren. Möglicherweise müssen Sie die Begrüßungsnachricht jedoch aus rechtlichen Gründen erweitern, um den Nutzer beispielsweise darüber zu informieren, dass die Unterhaltung aufgezeichnet werden kann.

Vermeiden Sie Informationen, die die Unterhaltung unnatürlich oder unausgeglichen machen. Beispiel:

Was Sie tun sollten:	Was Sie nicht tun sollten:
Modellieren Sie die Sprache, die Ihre Nutzer verwenden sollen. Beispiel: Wenn der Nutzer etwas in einem oder zwei Sätzen erklären soll, beschränken Sie Ihren Sprach-Agent auf einen oder zwei Sätze pro Runde.	Sagen Sie Nutzern nicht, wie sie mit Formulierungen wie "in einem oder zwei Sätzen sprechen, sagen Sie…" oder "Sie können etwas sagen wie…" sagen.
Konzentrieren Sie sich auf die Aufgabe, die der Nutzer ausführen möchte, und entwickeln Sie Strategien zur Fehlerbehandlung für den Fall, dass die Unterhaltung fehlschlägt.	Sagen Sie den Nutzern mit Formulierungen wie "Ich kann Ihnen bei der Lösung komplexer Probleme helfen“ nicht, was der Sprach-Agent kann.

Unterhaltungsrundenpaare

Eine typische Unterhaltung besteht aus Rotationspaaren wie den folgenden Austauschtypen:

Frage-Antwort, die am häufigsten für einen Sprach-Agent verwendet wird
Einladung annehmen/ablehnen
Hallo-Hallo

Manchmal kann ein Rundenpaar zusätzliche Informationen enthalten, z. B. warum wir eine Frage stellen müssen, Hintergrundinformationen zu der Frage, die wir stellen möchten, oder eine Reaktion auf die Antwort des Nutzers. Sehen Sie sich zum Beispiel das folgende Frage-Antwort-Paar an:

Sprach-Agent: Dies kostet 10 $/Tag. (Hintergrundinformationen/Erklärung) Möchten Sie diesen Vorteil weiterhin hinzufügen? (Frage)

Nutzer: Ja. (Antwort)

Sprach-Agent: Sehr gut! (Reaktion)

Im Abschnitt Auftragsausführung des Leitfadens zu Best Practices für das allgemeine Agent-Design finden Sie Richtlinien zur Platzierung der Auftragsausführung.

Dialogkorrektur

Bei der Reparierung von Konversationen werden Fehlverständnisse, Missverständnisse und Fehlartefakte zur Fortsetzung einer Unterhaltung behoben. Wenn Sie eine Unterhaltung reparieren, können Sie das Vertrauen eines Nutzers herstellen. Dies zeigt, dass der Sprach-Agent seine Anfrage überwacht.

Hier einige Best Practices:

Seien Sie spezifisch und verwenden Sie den Kontext, den der Nutzer bereits in vorherigen Runden angeboten hat. Stellen Sie keine offensichtlichen und redundanten Fragen wie "Ich habe das nicht verstanden", "Ich verstehe nicht" oder "Ich habe Probleme".
Geben Sie dem Nutzer die Möglichkeit zur Selbstreparatur. Dies bedeutet, dass der Nutzer seine Unterhaltungsrunde so reparieren kann, wie er es am besten braucht, um sicherzustellen, dass er Selbstbeteiligung hat. Vermeiden Sie Formulierungen wie "Wiederholungsformulierung" oder "Sie können x, y oder z sagen."
Verwenden Sie die Nachricht "Ihnen X?" Struktur, die auf das Verständnis überprüft werden soll.

In der folgenden Tabelle werden mehrere Beispiele für Best Practices und Empfehlungen beschrieben:

Was Sie tun sollten:	Was Sie nicht tun sollten:
Nutzer: Ich reise nach Italien. Sprach-Agent: Welches Land?	Nutzer: Ich reise nach Italien. Sprach-Agent: Ich habe Probleme. Können Sie umformulieren? Wohin möchten Sie?
Nutzer: Ich möchte 80 $ bezahlen. Sprach-Agent: Sie meinen 80 $? (Wiederholung nur die Informationen, die bestätigt werden müssen)	Nutzer: Ich möchte 80 $ bezahlen. Sprach-Agent: Möchten Sie 80 $ bezahlen? Gibt die redundanten Informationen aus, die bezahlt werden sollen.

Was Sie tun sollten:

Was Sie nicht tun sollten:

Nutzer: Ich reise nach Italien.

Sprach-Agent: Welches Land?

Nutzer: Ich reise nach Italien.

Sprach-Agent: Ich habe Probleme. Können Sie umformulieren? Wohin möchten Sie?

Nutzer: Ich möchte 80 $ bezahlen.

Sprach-Agent: Sie meinen 80 $? (Wiederholung nur die Informationen, die bestätigt werden müssen)

Nutzer: Ich möchte 80 $ bezahlen.

Sprach-Agent: Möchten Sie 80 $ bezahlen? Gibt die redundanten Informationen aus, die bezahlt werden sollen.

Fehlerbehandlung

Im folgenden Abschnitt wird beschrieben, wie Situationen behandelt werden, in denen eine Unterhaltung fehlschlägt.

Keine Übereinstimmung

Ein No-Match-Ereignis wird aufgerufen, wenn der Sprach-Agent keinen Intent finden kann, der dem entspricht, was der Nutzer sagte.

Versuchen Sie bei der ersten Instanz des No-Match-Ereignisses Folgendes:

Wiederholen Sie die Frage an den Nutzer, formulieren Sie ihn jedoch kurz um, um die fehlenden Informationen anzugeben. Da sich der Sprach-Agent nur auf fehlende Informationen konzentriert, wird er implizit ausgedrückt, dass er den Rest der Nutzeraussage gehört hat.
Sie können vor der neu gestellten Frage "traurig" einfügen, um anzugeben, dass auf Ihrer Seite ein Fehler aufgetreten ist.

Zeigen Sie bei der zweiten Instanz des No-Match-Ereignisses, dass der Sprach-Agent versucht, zu überwachen. Betrachten Sie beispielsweise den folgenden Austausch:

Nutzer: Ich reise nach Italien

Sprach-Agent: Welches Land?

Nutzer: Italien

Sprach-Agent: Ihr Ziel ist es, in welches Land zu springen?

Keine Eingabe

Wenn Ihr Sprach-Agent keine mündliche Antwort vom Nutzer erhalten hat, wiederholen Sie die Frage wie beim ersten Mal. Bei der zweiten Instanz des No-Input-Ereignisses können Sie die ursprüngliche Frage umformulieren. Achten Sie jedoch darauf, dass alle ursprünglichen Komponenten der Frage vorhanden sind.

Nicht-Übereinstimmungen und Nicht-Eingabewiederholungen begrenzen

Implementieren Sie ein Maximum von 3 für jede No-Match-/No-Input-Datei, um zu verhindern, dass Nutzer in einer Schleife von Fehlerbehandlungsereignissen ausgeschlossen werden. Eskalieren Sie Nutzer nach dem dritten No-Match- oder No-Input-Ereignis an einen menschlichen Kundenservicemitarbeiter.

Kein Zeitlimit für Sprache

In Fällen, in denen Nutzer Informationen prüfen oder Entscheidungen treffen müssen, bevor sie fortfahren, erhöhen Sie die Einstellung no-speech-timeout, um Nutzern genügend Zeit zum Antworten zu geben.

Im folgenden Beispiel ist die Einstellung für kein Zeitlimit von 2 Sekunden zu kurz, damit der Nutzer eine SMS lesen und eine Entscheidung treffen kann:

Sprach-Agent: Ich habe eine SMS an Ihr Gerät gesendet. Klicken Sie auf den Link, um mehr über den Reisepass zu erfahren. Ich höre Musik, damit ich Ihnen den Text lesen und mich zurücksenden kann. <2 Sekunden Pause> Möchten Sie fortfahren?

Nutzer: Ich lesen noch.

Sprach-Agent: Möchten Sie den Reisepass zu Ihrem Plan hinzufügen?

Konversationstechniken

In diesem Abschnitt werden Techniken beschrieben, mit denen der Sprach-Agent Vertrauen aufbauen kann und Unterhaltungen reibungsloser verläuft.

Umsetzbare Fragen entwerfen

Erstellen Sie explizite und umsetzbare Fragen für Ihren Sprach-Agent, um Nutzer zu fragen. Berücksichtigen Sie beispielsweise Folgendes:

Was Sie tun sollten:	Was Sie nicht tun sollten:
Stellen Sie offene Fragen wie "Wann reisen Sie?" Dadurch wird der Nutzer aufgefordert, Datumsangaben anzugeben, sofern er sie kennt. Andernfalls sagt er "Ich weiß nicht".	Fragen Sie nicht: "Kennen Sie Ihre Reisedaten?" Dadurch wird nur eine "Ja"- oder "Nein"-Antwort angefordert und sie sind weniger umsetzbar.
Fragen Sie "Möchten Sie den Bestellstatus eines anderen Pakets prüfen?".	Fragen Sie nicht: "Möchten Sie mit dem Bestellstatus eines anderen Pakets fortfahren?"

Sie sollten Ihren Sprach-Agent auch auf Situationen vorbereiten, in denen der Nutzer eine Frage implizit beantworten kann, wie es bei normalen Unterhaltungen oft der Fall ist. Betrachten Sie beispielsweise die folgende Interaktion:

Sprach-Agent: Wechseln Sie zu Konto, klicken Sie auf Nutzung und dann auf Nutzung nach Zeile. Bitte geben Sie mir Bescheid, wann Sie dort ankommen.

Nutzer: Es wird angezeigt, dass keine Daten von vor drei Monaten oder älter angezeigt werden können.

Die Antwort des Nutzers impliziert, dass er erfolgreich den Zielbildschirm erreicht hat, aber noch mehr Hilfe benötigt hat. Ihr Sprach-Agent sollte solche Auswirkungen voraussehen, anstatt zu erwarten, dass der Nutzer nur "Ich habe" oder "Ich habe nichts getan" sagt.

Das Vertrauen von Nutzern gewinnen

Sprach-Agenten können Nutzern mithilfe von Bestätigungen und spezifischen Details zeigen, dass sie ihre Aktivitäten überwachen. Wenn der Sprach-Agent generische Antworten bereitstellt, haben Nutzer möglicherweise das Gefühl, dass der Sprach-Agent unnatürlich klingt.

Verwenden Sie Bestätigungen. Betrachten Sie beispielsweise den folgenden Austausch, in dem "Kein Problem" als Bestätigung verwendet wird:

Nutzer: Ich möchte eine Zahlungsvereinbarung für Montag festlegen.

Sprach-Agent: Kein Problem. Wie möchten Sie am Montag bezahlen?
Fügen Sie spezifische Details hinzu, um zu zeigen, dass der Sprach-Agent den Nutzer aktiv überwacht. Im obigen Austausch ist die Formulierung "am Montag" beispielsweise ein bestimmtes Detail, das angibt, dass der Sprach-Agent gehört hat, was der Nutzer gesagt hat.
Beantworten Sie die Anfrage des Nutzers so schnell wie möglich und schließen Sie unnötige Schritte aus. Im folgenden Beispiel kann die überflüssigen Informationen zu Frustration beim Nutzer führen:

Nutzer: Gibt es in meiner Region einen Ausfall?

Sprach-Agent: Wir wissen, wie wichtig es für Sie ist, in Verbindung zu bleiben. Lassen Sie uns herausfinden, was das Problem verursacht. Nennen Sie uns die letzten vier Ziffern der Leitung, bei der Probleme auftreten. Wenn das Problem mehrere Zeilen umfasst, geben Sie einfach eine an.

Nutzer: 1234

Sprach-Agent: Danke. Sehen wir uns die nächsten Schritte für diese Zeile an. Fangen wir also an! Das vorübergehende Deaktivieren und anschließende Aktivieren von HD Voice ist möglich... Funktioniert es?"
Sorgen Sie dafür, dass die Unterhaltung zwischen dem Nutzer und dem Sprach-Agent ausgeglichen ist. Nutzer haben möglicherweise das Gefühl, dass sich die Unterhaltung in einer Unterhaltung nicht lohnt, wenn der Sprach-Agent die Unterhaltung dominiert. Priorisieren Sie, wer/Wo/Was/Wann/Wie Fragen gegenüber Ja/Nein-Fragen hat.
Sorgen Sie dafür, dass die Unterhaltung des Nutzers reibungslos verläuft, wenn er an Kundenservicemitarbeiter eskalieren möchte.

Weitere Informationen

Weitere Informationen finden Sie im Leitfaden zur Dialoggestaltung des Actions on Google-Teams.
Weitere Informationen finden Sie im Voice Playbook für die nächste Milliarden Nutzer.
SSML-Anleitung zu Cloud Text-to-Speech
Weitere Informationen zur Erstellung von umsetzbaren Fragen finden Sie unter Sprachaktionen.