Diese Seite wurde von der Cloud Translation API übersetzt.

Speech-to-Text mithilfe der Google Cloud Console transkribieren

In dieser Kurzanleitung wird die Cloud Speech-to-Text-Konsole vorgestellt. In dieser Kurzanleitung erstellen und optimieren Sie eine Transkription und erfahren, wie Sie diese Konfiguration mit der Speech-to-Text API für Ihre eigenen Anwendungen verwenden.

Wie Sie Anfragen senden und Antworten mithilfe der REST API statt der Console senden, erfahren Sie unter Hinweise.

Hinweis

Bevor Sie die Speech-to-Text-Konsole verwenden können, müssen Sie die API in der Google Cloud Platform Console aktivieren. Die unten stehenden Schritte führen Sie durch die folgenden Aktionen:

Speech-to-Text in einem Projekt aktivieren.
Die Abrechnung für Speech-to-Text muss aktiviert sein.

Ihr Google Cloud -Projekt einrichten

In der Google Cloud Console anmelden
Zur Projektauswahl

Sie können entweder ein vorhandenes Projekt auswählen oder ein neues erstellen. Weitere Informationen zum Erstellen eines Projekts finden Sie in der Google Cloud Platform-Dokumentation.
Wenn Sie ein neues Projekt erstellen, werden Sie aufgefordert, ein Abrechnungskonto mit diesem Projekt zu verknüpfen. Wenn Sie ein bereits vorhandenes Projekt verwenden, muss die Abrechnung aktiviert sein.

So prüfen Sie, ob die Abrechnung für Ihr Projekt aktiviert ist

Hinweis: Sie müssen die Abrechnung aktivieren, um die Speech-to-Text API verwenden zu können. Sie werden jedoch nur dann belastet, wenn Sie das kostenlose Kontingent überschreiten. Weitere Informationen finden Sie auf der Seite Preise.
Nachdem Sie ein Projekt ausgewählt und mit einem Rechnungskonto verknüpft haben, können Sie die Speech-to-Text API aktivieren. Öffnen Sie oben auf der Seite die Leiste Produkte und Ressourcen suchen und geben Sie speech ein.
Wählen Sie in der Ergebnisliste die Cloud Speech-to-Text API aus.
Wenn Sie Speech-to-Text ausprobieren möchten, ohne es mit Ihrem Projekt zu verknüpfen, wählen Sie die Option DIESE API TESTEN aus. Klicken Sie auf AKTIVIEREN, um die Speech-to-Text API für die Verwendung mit Ihrem Projekt zu aktivieren.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Storage-Administrator (roles/storage.admin) für Ihr Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Erstellen einer Transkription benötigen. Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Diese vordefinierte Rolle enthält die Berechtigungen, die zum Erstellen einer Transkription erforderlich sind. Erweitern Sie den Abschnitt Erforderliche Berechtigungen, um die erforderlichen Berechtigungen anzuzeigen:

Erforderliche Berechtigungen

Die folgenden Berechtigungen sind zum Erstellen einer Transkription erforderlich:

storage.buckets.get
storage.buckets.list
storage.buckets.update
Auf Projekt- oder Bucket-Ebene:
- storage.objects.create
- storage.objects.delete
- storage.objects.get
- storage.objects.list
- storage.objects.update

Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.

Transkription erstellen

Verwenden Sie die Google Cloud Console, um eine Transkription zu erstellen.

Audiokonfiguration

Öffnen Sie die Übersicht über Speech-to-Text.
Klicken Sie auf Transkription erstellen.
- Wenn Sie die Konsole zum ersten Mal verwenden, werden Sie aufgefordert, auszuwählen, wo in Cloud Storage Ihre Konfigurationen und Transkriptionen gespeichert werden sollen.
Laden Sie auf der Seite Transkription erstellen eine Quell-Audiodatei hoch. Sie können eine Datei auswählen, die bereits in Cloud Storage gespeichert ist, oder eine neue in Ihr angegebenes Cloud Storage-Ziel hochladen.
Wählen Sie den Codierungstyp der hochgeladenen Audiodatei aus.
Legen Sie die Abtastrate fest.
Klicken Sie auf Weiter. Sie werden zu Transkriptionsoptionen weitergeleitet.

Transkriptionsoptionen

Wählen Sie den Sprachcode des Audioquells aus. Dies ist die Sprache, die in der Aufzeichnung gesprochen wird.
Wählen Sie das Transkriptionsmodell aus, das Sie für die Datei verwenden möchten. Die Standardoption ist vorab ausgewählt. Im Allgemeinen ist keine Änderung erforderlich. Das Abgleichen des Modells mit der Art der Audiodaten kann jedoch zu einer höheren Genauigkeit führen. Die Modellkosten variieren.
Klicken Sie auf Weiter. Sie werden zu Modellanpassung weitergeleitet.

Modellanpassung (optional)

Wenn Ihre Quell-Audioinhalte seltene Wörter, Eigennamen oder proprietäre Begriffe enthalten und Sie bei der Erkennung auf Probleme stoßen, kann die Modellanpassung hilfreich sein.

Klicken Sie das Kästchen Modellanpassung aktivieren an.
Wählen Sie Einmalige Anpassungsressource aus.
Fügen Sie relevante Wortgruppen hinzu und weisen Sie ihnen einen Optimierungswert zu.
Klicken Sie in der linken Spalte auf Senden, um die Transkription zu erstellen.

Transkription prüfen

Je nach Größe der Audiodatei kann die Transkription zwischen Minuten und Stunden dauern. Nachdem die Transkription erstellt wurde, kann sie überprüft werden. Wenn Sie die Tabelle nach Zeitstempel sortieren, können Sie Ihre letzten Transkriptionen ganz einfach finden.

Klicken Sie auf den Namen der Transkription, die Sie sich ansehen möchten.
Vergleichen Sie den Transkriptionstext mit der Audiodatei.
Wenn Sie Änderungen vornehmen möchten, klicken Sie auf Konfiguration wiederverwenden. Dadurch gelangen Sie zum Ablauf Transkription erstellen mit denselben vorgewählten Optionen, damit Sie ein paar Dinge ändern, eine neue Transkription erstellen und die Ergebnisse vergleichen können.

Nächste Schritte

Transkribieren kurzer Audiodateien üben
Mehr über die Zusammenfassung langer Audiodateien für die Spracherkennung
Mehr über das Transkribieren von Streamingaudio, das z. B. mit einem Mikrofon aufgenommen wurde
Erste Schritte mit Speech-to-Text in Ihrer bevorzugten Sprache unter Verwendung einer Speech-to-Text-Clientbibliothek
Beispielanwendungen durcharbeiten
Für maximale Leistung, Genauigkeit und weitere Tipps die Best Practices lesen