Die optische Zeichenerkennung (Optical Character Recognition, OCR) ist eine der drei vortrainierten Vertex AI-APIs in Google Distributed Cloud (GDC) Air-Gapped. Der OCR-Dienst erkennt Text in verschiedenen Dateitypen, z. B. in Bildern, Dokumentdateien und handgeschriebenem Text.
OCR bietet die folgenden Methoden, die in Distributed Cloud zur Texterkennung verfügbar sind:
Methode | Beschreibung |
---|---|
BatchAnnotateImages |
Text aus einer Gruppe von JPEG- oder PNG-Bildern erkennen, die in einer Inline-Anfrage bereitgestellt werden. |
BatchAnnotateFiles |
Text aus einem Batch von PDF- oder TIFF-Dateien erkennen, die in einer Inline-Anfrage bereitgestellt werden. |
AsyncBatchAnnotateFiles |
Text aus einem Batch von PDF- oder TIFF-Dateien in einem Speicher-Bucket für Offlineanfragen erkennen. |
Weitere Informationen zu den von der Texterkennung unterstützten Sprachen
Funktionen zur optischen Zeichenerkennung
Mit der OCR API können Sie Text in Bildern erkennen und extrahieren. Die folgenden beiden Anmerkungsfunktionen unterstützen die optische Zeichenerkennung:
TEXT_DETECTION
erkennt und extrahiert Text aus beliebigen Bildern. Nehmen wir als Beispiel ein Foto von einem Straßenschild oder Verkehrszeichen. Der OCR-Dienst gibt eine JSON-Datei mit dem extrahierten String, einzelnen Wörtern und deren Begrenzungsrahmen zurück.Abbildung 1. Foto eines Straßenschilds, auf dem die OCR API Wörter und deren Begrenzungsrahmen erkennt.
DOCUMENT_TEXT_DETECTION
extrahiert zusätzlich Text aus einem Bild, wobei die Antwort für Fließtext und Dokumente optimiert ist. Ein gescanntes Bild mit getipptem Text kann beispielsweise mehrere Absätze und Überschriften enthalten. Der OCR-Dienst gibt eine JSON-Datei mit Informationen zu Seite, Block, Absatz, Wort und Worttrennung zurück.Abbildung 2. Gescannte Abbildung von getipptem Text, in der die OCR API Informationen wie Wörter, Seiten und Absätze erkennt.
Handschriftlicher Text
Abbildung 3 zeigt ein Bild mit handschriftlichem Text. Die OCR API erkennt und extrahiert Text aus diesen Bildern. Eine Liste der Handschrift-Scripts, die die Handschrifterkennung unterstützen, finden Sie unter Handschrift-Scripts.
Abbildung 3. Bild mit Handschrift, in dem die OCR API Text erkennt.
Grenzwerte für die optische Zeichenerkennung
Die API-Methoden BatchAnnotateImages
und BatchAnnotateFiles
unterstützen nur eine Anfrage pro Batchaufruf.
In der folgenden Tabelle sind die aktuellen Limits des OCR-Dienstes in Distributed Cloud aufgeführt.
Dateilimit für OCR | Wert |
---|---|
Maximale Anzahl von Seiten | Fünf |
Maximale Dateigröße | 20 MB |
Maximale Bildgröße | 20 Millionen Pixel (Länge × Breite) |
Für Dateien, die für die OCR API eingereicht werden und die maximale Anzahl von Seiten oder die maximale Dateigröße überschreiten, wird ein Fehler zurückgegeben. Eingereichte Dateien, die die maximale Bildgröße überschreiten, werden auf 20 Millionen Pixel verkleinert.
Für OCR unterstützte Dateitypen
Die vortrainierte OCR-API erkennt und transkribiert Text aus den folgenden Dateitypen:
- TIFF
- JPG
- PNG
Sie müssen die Dateien lokal in Ihrer Distributed Cloud-Umgebung speichern. Sie können nicht auf Dateien zugreifen, die in Cloud Storage gehostet werden, oder auf öffentlich verfügbare Dateien, um Text zu erkennen.