Die Vision API kann eine (direkte) Online-Anmerkung für mehrere Seiten oder Frames aus PDF-, TIFF- oder GIF-Dateien bereitstellen, die in Cloud Storage gespeichert sind.
Sie können für jede Datei eine Online-Feature-Erkennung und eine Anmerkung mit 5 Frames (GIF; "image/gif") oder Seiten (PDF; "application/pdf" oder TIFF; "image/tiff") anfordern.
Die Beispielanmerkungen auf dieser Seite sind für DOCUMENT_TEXT_DETECTION
. Die Online-Anmerkung für kleine Batches ist jedoch für alle Vision-Features verfügbar.

Beschränkungen
Es können höchstens 5 Seiten mit Anmerkungen versehen werden. Nutzer können die 5 Seiten angeben, die mit Anmerkungen versehen werden sollen.
Authentifizierung
Google Cloud Projekt und Authentifizierung einrichten
Derzeit unterstützte Featuretypen
Featuretyp | |
---|---|
CROP_HINTS |
Ermittelt Vorschläge für Eckpunkte für einen Bildausschnitt. |
DOCUMENT_TEXT_DETECTION |
Führt in Bildern mit hohem Textanteil eine OCR durch, z. B. Dokumente (PDF/TIFF) und Bilder mit Handschrift.
TEXT_DETECTION kann für Bilder mit wenig Text verwendet werden.
Hat Vorrang, wenn DOCUMENT_TEXT_DETECTION und TEXT_DETECTION vorhanden sind.
|
FACE_DETECTION |
Erkennt Gesichter im Bild. |
IMAGE_PROPERTIES |
Eine Reihe von Bildeigenschaften berechnen, z. B. die dominanten Farben des Bildes. |
LABEL_DETECTION |
Fügt Labels ausgehend vom Bildinhalt hinzu. |
LANDMARK_DETECTION |
Erkennt geografische Sehenswürdigkeiten im Bild. |
LOGO_DETECTION |
Erkennt Firmenlogos im Bild. |
OBJECT_LOCALIZATION |
Mehrere Objekte in einem Bild erkennen und extrahieren. |
SAFE_SEARCH_DETECTION |
Führen Sie SafeSearch aus, um potenziell unsichere oder unerwünschte Inhalte zu erkennen. |
TEXT_DETECTION |
Führen Sie die optische Zeichenerkennung (Optical Character Recognition, OCR) für Text im Bild durch.
Die Texterkennung ist für Bereiche mit wenig Text innerhalb eines größeren Bildes optimiert.
Verwenden Sie bitte DOCUMENT_TEXT_DETECTION , wenn das Bild ein Dokument ist (PDF/TIFF), viel Text oder Handschrift enthält.
|
WEB_DETECTION |
Mit der Google Bildersuche lassen sich thematische Entitäten wie Nachrichten, Veranstaltungen oder Prominente im Bild erkennen und nach ähnlichen Bildern im Web suchen. |
Beispielcode
Sie können entweder eine Anmerkungsanfrage mit einer lokal gespeicherten Datei senden oder eine Datei verwenden, die in Cloud Storage gespeichert ist.
Lokal gespeicherte Datei verwenden
Verwenden Sie die folgenden Codebeispiele, um eine Feature-Anmerkung für eine lokal gespeicherte Datei abzurufen.
REST
Senden Sie eine POST-Anfrage und geben Sie den entsprechenden Anfragetext an, um eine Online-Erkennung für einen kleinen Batch von Dateien im PDF-/TIFF-/GIF-Format durchzuführen:
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- BASE64_ENCODED_FILE: Die Base64-Darstellung (ASCII-String) der Binärdateidaten. Dieser String sollte in etwa so aussehen:
JVBERi0xLjUNCiW1tbW1...ydHhyZWYNCjk5NzM2OQ0KJSVFT0Y=
- PROJECT_ID: Ihre Google Cloud -Projekt-ID
Feldspezifische Hinweise:
inputConfig.mimeType
– eine der folgenden Optionen: "application/pdf", "image/tiff" oder "image/gif".pages
– gibt die spezifischen Seiten der Datei zur Durchführung der Feature-Erkennung an.
HTTP-Methode und URL:
POST https://vision.googleapis.com/v1/files:annotate
JSON-Text der Anfrage:
{ "requests": [ { "inputConfig": { "content": "BASE64_ENCODED_FILE", "mimeType": "application/pdf" }, "features": [ { "type": "DOCUMENT_TEXT_DETECTION" } ], "pages": [ 1,2,3,4,5 ] } ] }
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
curl
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: PROJECT_ID" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://vision.googleapis.com/v1/files:annotate"
PowerShell
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://vision.googleapis.com/v1/files:annotate" | Select-Object -Expand Content
Eine erfolgreiche annotate
-Anfrage gibt sofort eine JSON-Antwort zurück.
Bei diesem Feature (DOCUMENT_TEXT_DETECTION
) ähnelt die JSON-Antwort der einer Anfrage zur Dokumenttexterkennung eines Bildes. Die Antwort enthält Begrenzungsrahmen für Blöcke, die nach Absätzen, Wörtern und einzelnen Symbolen aufgeschlüsselt sind. Der vollständige Text wird ebenfalls erkannt. Die Antwort enthält außerdem ein context
-Feld, das den Speicherort der angegebenen PDF- oder TIFF-Datei und die Seitenzahl des Ergebnisses in der Datei angibt.
Die angezeigte JSON-Antwort bezieht sich nur auf eine einzelne Seite (Seite 2) und wurde aus Gründen der Verständlichkeit gekürzt.
Java
Bevor Sie dieses Beispiel anwenden, folgen Sie der Anleitung für die Einrichtung von Java in der Vision API-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Java-Referenzdokumentation zur Vision API.
Node.js
Bevor Sie dieses Beispiel ausprobieren, folgen Sie der Node.js-Einrichtungsanleitung in der Vision-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Vision-Referenzdokumentation zur Node.js API.
Richten Sie zur Authentifizierung bei Vision die Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Bevor Sie dieses Beispiel ausprobieren, folgen Sie der Python-Einrichtungsanleitung in der Vision-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Vision-Referenzdokumentation zur Python API.
Richten Sie zur Authentifizierung bei Vision die Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Datei in Cloud Storage verwenden
Verwenden Sie die folgenden Codebeispiele, um eine Feature-Anmerkung für eine Datei in Cloud Storage abzurufen.
REST
Senden Sie eine POST
-Anfrage und geben Sie den entsprechenden Anfragetext an, um eine Online-Erkennung für einen kleinen Batch von Dateien im PDF-/TIFF-/GIF-Format durchzuführen:
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- CLOUD_STORAGE_FILE_URI: der Pfad zu einer gültigen Datei (PDF/TIFF) in einem Cloud Storage-Bucket. Sie müssen zumindest Leseberechtigungen für die Datei haben.
Beispiel:
gs://cloud-samples-data/vision/document_understanding/custom_0773375000.pdf
- PROJECT_ID: Ihre Google Cloud -Projekt-ID
Feldspezifische Hinweise:
inputConfig.mimeType
– eine der folgenden Optionen: "application/pdf", "image/tiff" oder "image/gif".pages
– gibt die spezifischen Seiten der Datei zur Durchführung der Feature-Erkennung an.
HTTP-Methode und URL:
POST https://vision.googleapis.com/v1/files:annotate
JSON-Text der Anfrage:
{ "requests": [ { "inputConfig": { "gcsSource": { "uri": "CLOUD_STORAGE_FILE_URI" }, "mimeType": "application/pdf" }, "features": [ { "type": "DOCUMENT_TEXT_DETECTION" } ], "pages": [ 1,2,3,4,5 ] } ] }
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
curl
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: PROJECT_ID" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://vision.googleapis.com/v1/files:annotate"
PowerShell
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://vision.googleapis.com/v1/files:annotate" | Select-Object -Expand Content
Eine erfolgreiche annotate
-Anfrage gibt sofort eine JSON-Antwort zurück.
Bei diesem Feature (DOCUMENT_TEXT_DETECTION
) ähnelt die JSON-Antwort der einer Anfrage zur Dokumenttexterkennung eines Bildes. Die Antwort enthält Begrenzungsrahmen für Blöcke, die nach Absätzen, Wörtern und einzelnen Symbolen aufgeschlüsselt sind. Der vollständige Text wird ebenfalls erkannt. Die Antwort enthält außerdem ein context
-Feld, das den Speicherort der angegebenen PDF- oder TIFF-Datei und die Seitenzahl des Ergebnisses in der Datei angibt.
Die angezeigte JSON-Antwort bezieht sich nur auf eine einzelne Seite (Seite 2) und wurde aus Gründen der Verständlichkeit gekürzt.
Java
Bevor Sie dieses Beispiel anwenden, folgen Sie der Anleitung für die Einrichtung von Java in der Vision API-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Java-Referenzdokumentation zur Vision API.
Node.js
Bevor Sie dieses Beispiel ausprobieren, folgen Sie der Node.js-Einrichtungsanleitung in der Vision-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Vision-Referenzdokumentation zur Node.js API.
Richten Sie zur Authentifizierung bei Vision die Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Bevor Sie dieses Beispiel ausprobieren, folgen Sie der Python-Einrichtungsanleitung in der Vision-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Vision-Referenzdokumentation zur Python API.
Richten Sie zur Authentifizierung bei Vision die Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Jetzt testen
Probieren Sie die Online-Feature-Erkennung für einen kleinen Batch jetzt aus.
Sie können die bereits angegebene PDF-Datei verwenden oder stattdessen eine eigene Datei angeben.

Für diese Anfrage wurden drei Feature-Typen angegeben:
DOCUMENT_TEXT_DETECTION
LABEL_DETECTION
CROP_HINTS
Durch Ändern des entsprechenden Objekts in der Anfrage ({"type": "FEATURE_NAME"}
) können Sie andere Feature-Typen hinzufügen oder entfernen.
Wählen Sie zum Senden der Anfrage Ausführen aus.
Anfragetext:
{ "requests": [ { "inputConfig": { "gcsSource": { "uri": "gs://cloud-samples-data/vision/document_understanding/custom_0773375000.pdf" }, "mimeType": "application/pdf" }, "features": [ { "type": "DOCUMENT_TEXT_DETECTION" }, { "type": "LABEL_DETECTION" }, { "type": "CROP_HINTS" } ], "pages": [ 1, 2, 3, 4, 5 ] } ] }