Auf dieser Seite wird Entwicklern geholfen, ein Projekt für die Verwendung des Speech-to-Text-Dienstes einzurichten. Dazu gehören das Erstellen eines Projekts, das Aktivieren der Speech-to-Text API, das Installieren von Clientbibliotheken, das Definieren von Umgebungsvariablen und das Authentifizieren Ihrer Anmeldedaten. Wenn Sie Vertex AI noch nicht kennen, erfahren Sie mehr über die Spracherkennungsfunktionen.
So richten Sie ein Spracherkennungsprojekt mit der GDC Console und der gdcloud CLI ein:
- GDC Console: Aktivieren Sie die Speech-to-Text API und rufen Sie den Dienststatus und den Endpunkt auf.
- Die gdcloud-Befehlszeile: Dienstkonten für die Interaktion mit der Speech-to-Text API konfigurieren, Clientbibliotheken installieren und API-Anfragen authentifizieren.
Projekt erstellen
Wenn Sie ein Spracherkennungsprojekt in Ihrer Ressourcenhierarchie von Distributed Cloud erstellen, werden Ihre Speech-to-Text-Ressourcen organisiert. Dazu gehören Mitarbeiter, aktivierte APIs, Monitoring-Tools, Abrechnungsinformationen, Authentifizierungsanmeldedaten und Zugriffssteuerungen.
Informationen zum Erstellen eines Projekts finden Sie unter Projekt für Vertex AI einrichten. Sie benötigen Ihre Projekt-ID für API-Aufrufe.
Entwicklerberechtigungen anfordern
Sie benötigen die Rolle „AI Speech Developer“ in Ihrem Projekt, um auf Spracherkennungsfunktionen zuzugreifen und ein API-Token für die Authentifizierung und Autorisierung von Anfragen zu generieren.
Bitten Sie Ihren Projekt-IAM-Administrator, Ihrem Nutzer- oder Dienstkonto die Rolle „AI Speech Developer“ (ai-speech-developer
) in Ihrem Projekt-Namespace zuzuweisen. Informationen zu dieser Rolle finden Sie unter IAM-Berechtigungen vorbereiten.
Speech-to-Text API aktivieren
Sie müssen die vortrainierte Speech-to-Text API für Ihr Projekt aktivieren. Wenn die API aktiviert ist, können Sie den Dienststatus und den Endpunkt für die vortrainierte Speech-to-Text API aufrufen.
Clientbibliotheken installieren
Clientbibliotheken sind für die Programmiersprache Python verfügbar. Wir empfehlen, diese Clientbibliotheken für Aufrufe an die Speech-to-Text API zu verwenden, da sie den Zugriff auf APIs erleichtern.
Installieren Sie die Speech-to-Text-Clientbibliothek und führen Sie die folgenden Schritte aus, um sicherzustellen, dass Sie die richtige Version haben:
Prüfen Sie, ob die Speech-to-Text-Clientbibliothek installiert ist, und rufen Sie die Versionsnummer ab:
pip freeze | grep speech
Wenn die Clientbibliothek bereits installiert ist, erhalten Sie eine Ausgabe ähnlich dem folgenden Beispiel:
google-cloud-speech==2.15.0
Die Versionsnummer, die Sie erhalten, muss mit der Clientbibliothek am folgenden Endpunkt übereinstimmen:
https://GDC_URL/.well-known/static/client-libraries
Ersetzen Sie
GDC_URL
durch die URL Ihrer Organisation in GDC.Wenn die Versionsnummern nicht übereinstimmen, deinstallieren Sie die Clientbibliothek:
pip uninstall google-cloud-speech
Wenn Sie die Speech-to-Text-Clientbibliothek deinstalliert haben, müssen Sie sie neu installieren, indem Sie den Dateinamen angeben, der Ihrem Betriebssystem entspricht.
Umgebungsvariablen festlegen
Nachdem Sie die Speech-to-Text-Clientbibliothek installiert haben, können Sie über ein Python-Script mit der API interagieren.
Wenn Sie in Ihrem Projekt ein Dienstkonto einrichten, um autorisierte API-Aufrufe programmatisch auszuführen, können Sie Umgebungsvariablen im Python-Skript definieren, um beim Ausführen auf Werte wie die Dienstkontoschlüssel zuzugreifen.
So legen Sie erforderliche Umgebungsvariablen in einem Python-Skript fest:
Erstellen Sie ein JupyterLab-Notebook, um mit der vortrainierten Speech-to-Text API zu interagieren.
Erstellen Sie ein Python-Skript im JupyterLab-Notebook.
Fügen Sie dem Python-Skript den folgenden Code hinzu:
import os os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "APPLICATION_DEFAULT_CREDENTIALS_FILENAME"
Ersetzen Sie
APPLICATION_DEFAULT_CREDENTIALS_FILENAME
durch den Namen der JSON-Datei, die die von Ihnen im Projekt erstellten Dienstkontoschlüssel enthält, z. B.my-service-key.json
.Speichern Sie das Python-Skript unter einem Namen, z. B.
speech.py
.Führen Sie das Python-Skript aus, um die Umgebungsvariablen festzulegen:
python SCRIPT_NAME
Ersetzen Sie
SCRIPT_NAME
durch den Namen, den Sie Ihrem Python-Skript gegeben haben, z. B.speech.py
.
Authentifizierung einrichten
Bevor Sie die Speech-to-Text API verwenden können, müssen Sie Ihre Clientanmeldedaten authentifizieren und den Kontozugriff auf Ihre Projektressourcen anfordern. Weitere Informationen finden Sie unter API-Anfragen authentifizieren.