Diese Seite wurde von der Cloud Translation API übersetzt.

Projekt zur Zeichenerkennung einrichten

Auf dieser Seite erfahren Entwickler, wie sie ein GDC-Projekt (Google Distributed Cloud) ohne Internetverbindung einrichten, um den OCR-Dienst (Optical Character Recognition, optische Zeichenerkennung) zu verwenden. Dazu gehören das Erstellen eines Projekts, das Aktivieren der OCR API, das Installieren von Clientbibliotheken, das Definieren von Umgebungsvariablen und das Authentifizieren Ihrer Anmeldedaten. Wenn Sie neu bei Vertex AI sind, erfahren Sie mehr über die Funktionen zur Zeichenerkennung.

So richten Sie ein Projekt zur Zeichenerkennung mit der GDC Console und der gdcloud CLI ein:

GDC Console: Aktivieren Sie die OCR API und rufen Sie den Dienststatus und den Endpunkt auf.
gdcloud-Befehlszeile: Dienstkonten für die Interaktion mit der OCR API konfigurieren, Clientbibliotheken installieren und API-Anfragen authentifizieren.

Projekt erstellen

Wenn Sie ein Projekt zur Zeichenerkennung in Ihrer Ressourcenhierarchie von Distributed Cloud erstellen, werden Ihre OCR-Ressourcen organisiert. Dazu gehören Mitarbeiter, aktivierte APIs, Monitoring-Tools, Abrechnungsinformationen, Anmeldedaten für die Authentifizierung und Zugriffssteuerungen.

Informationen zum Erstellen eines Projekts finden Sie unter Projekt für Vertex AI einrichten. Sie benötigen Ihre Projekt-ID für API-Aufrufe.

Entwicklerberechtigungen anfordern

Sie benötigen die Entwicklerrolle „AI OCR“ in Ihrem Projekt, um auf Funktionen zur optischen Zeichenerkennung zuzugreifen und ein API-Token für die Authentifizierung und Autorisierung von Anfragen zu generieren.

Bitten Sie Ihren Projekt-IAM-Administrator, Ihrem Nutzer- oder Dienstkonto im Namespace Ihres Projekts die Rolle „AI OCR Developer“ (ai-ocr-developer) zuzuweisen. Informationen zu dieser Rolle finden Sie unter IAM-Berechtigungen vorbereiten.

OCR API aktivieren

Sie müssen die vortrainierte OCR-API für Ihr Projekt aktivieren. Wenn die API aktiviert ist, können Sie den Dienststatus und den Endpunkt für die vortrainierte OCR-API aufrufen.

Clientbibliotheken installieren

Clientbibliotheken sind für die Programmiersprache Python verfügbar. Wir empfehlen, diese Clientbibliotheken für Aufrufe an die OCR API zu verwenden, da sie den Zugriff auf APIs erleichtern.

Installieren Sie die OCR-Clientbibliothek und führen Sie die folgenden Schritte aus, um sicherzustellen, dass Sie die richtige Version haben:

Prüfen Sie, ob die OCR-Clientbibliothek installiert ist, und rufen Sie die Versionsnummer ab:
```
pip freeze | grep vision
```
Wenn die Clientbibliothek bereits installiert ist, erhalten Sie eine Ausgabe ähnlich dem folgenden Beispiel:
```
google-cloud-vision==3.0.0
```
Die Versionsnummer, die Sie erhalten, muss mit der Clientbibliothek am folgenden Endpunkt übereinstimmen:
```
https://GDC_URL/.well-known/static/client-libraries
```
Ersetzen Sie GDC_URL durch die URL Ihrer Organisation in GDC.
Wenn die Versionsnummern nicht übereinstimmen, deinstallieren Sie die Clientbibliothek:
```
pip uninstall google-cloud-vision
```
Wenn Sie die OCR-Clientbibliothek deinstalliert haben, müssen Sie sie neu installieren, indem Sie den Dateinamen angeben, der Ihrem Betriebssystem entspricht.

Umgebungsvariablen festlegen

Nach der Installation der OCR-Clientbibliothek können Sie über ein Python-Skript mit der API interagieren.

Wenn Sie in Ihrem Projekt ein Dienstkonto einrichten, um autorisierte API-Aufrufe programmatisch auszuführen, können Sie Umgebungsvariablen im Python-Skript definieren, um beim Ausführen auf Werte wie die Dienstkontoschlüssel zuzugreifen.

So legen Sie erforderliche Umgebungsvariablen in einem Python-Skript fest:

JupyterLab-Notebook erstellen, um mit der vortrainierten OCR-API zu interagieren.
Erstellen Sie ein Python-Skript im JupyterLab-Notebook.
Fügen Sie dem Python-Skript den folgenden Code hinzu:
```
import os

os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "APPLICATION_DEFAULT_CREDENTIALS_FILENAME"
```
Ersetzen Sie APPLICATION_DEFAULT_CREDENTIALS_FILENAME durch den Namen der JSON-Datei, die die von Ihnen im Projekt erstellten Dienstkontoschlüssel enthält, z. B. my-service-key.json.
Speichern Sie das Python-Skript unter einem Namen, z. B. vision.py.
Führen Sie das Python-Skript aus, um die Umgebungsvariablen festzulegen:
```
python SCRIPT_NAME
```
Ersetzen Sie SCRIPT_NAME durch den Namen, den Sie Ihrem Python-Skript gegeben haben, z. B. vision.py.

Authentifizierung einrichten

Bevor Sie die OCR API verwenden können, müssen Sie Ihre Clientanmeldedaten authentifizieren und Kontozugriff auf Ihre Projektressourcen anfordern. Weitere Informationen finden Sie unter API-Anfragen authentifizieren.