Funktionen zur Zeichenerkennung

Die optische Zeichenerkennung (Optical Character Recognition, OCR) ist eine der drei vortrainierten Vertex AI-APIs in Google Distributed Cloud (GDC) Air-Gapped. Der OCR-Dienst erkennt Text in verschiedenen Dateitypen, z. B. in Bildern, Dokumentdateien und handgeschriebenem Text.

OCR bietet die folgenden Methoden, die in Distributed Cloud zur Texterkennung verfügbar sind:

Methode Beschreibung
BatchAnnotateImages Text aus einer Gruppe von JPEG- oder PNG-Bildern erkennen, die in einer Inline-Anfrage bereitgestellt werden.
BatchAnnotateFiles Text aus einem Batch von PDF- oder TIFF-Dateien erkennen, die in einer Inline-Anfrage bereitgestellt werden.
AsyncBatchAnnotateFiles Text aus einem Batch von PDF- oder TIFF-Dateien in einem Speicher-Bucket für Offlineanfragen erkennen.

Weitere Informationen zu den von der Texterkennung unterstützten Sprachen

Funktionen zur optischen Zeichenerkennung

Mit der OCR API können Sie Text in Bildern erkennen und extrahieren. Die folgenden beiden Anmerkungsfunktionen unterstützen die optische Zeichenerkennung:

  • TEXT_DETECTION erkennt und extrahiert Text aus beliebigen Bildern. Nehmen wir als Beispiel ein Foto von einem Straßenschild oder Verkehrszeichen. Der OCR-Dienst gibt eine JSON-Datei mit dem extrahierten String, einzelnen Wörtern und deren Begrenzungsrahmen zurück.

    Straßenschild mit einzelnen Wörtern und Begrenzungsrahmen für die Texterkennung

    Abbildung 1. Foto eines Straßenschilds, auf dem die OCR API Wörter und deren Begrenzungsrahmen erkennt.

  • DOCUMENT_TEXT_DETECTION extrahiert zusätzlich Text aus einem Bild, wobei die Antwort für Fließtext und Dokumente optimiert ist. Ein gescanntes Bild mit getipptem Text kann beispielsweise mehrere Absätze und Überschriften enthalten. Der OCR-Dienst gibt eine JSON-Datei mit Informationen zu Seite, Block, Absatz, Wort und Worttrennung zurück.

    Gescannte Abbildung von getipptem Text mit einem hohen Anteil an Anmerkungen

    Abbildung 2. Gescannte Abbildung von getipptem Text, in der die OCR API Informationen wie Wörter, Seiten und Absätze erkennt.

Handschriftlicher Text

Abbildung 3 zeigt ein Bild mit handschriftlichem Text. Die OCR API erkennt und extrahiert Text aus diesen Bildern. Eine Liste der Handschrift-Scripts, die die Handschrifterkennung unterstützen, finden Sie unter Handschrift-Scripts.

Abbildung mit handschriftlichem Text

Abbildung 3. Bild mit Handschrift, in dem die OCR API Text erkennt.

Grenzwerte für die optische Zeichenerkennung

Die API-Methoden BatchAnnotateImages und BatchAnnotateFiles unterstützen nur eine Anfrage pro Batchaufruf.

In der folgenden Tabelle sind die aktuellen Limits des OCR-Dienstes in Distributed Cloud aufgeführt.

Dateilimit für OCR Wert
Maximale Anzahl von Seiten Fünf
Maximale Dateigröße 20 MB
Maximale Bildgröße 20 Millionen Pixel (Länge × Breite)

Für Dateien, die für die OCR API eingereicht werden und die maximale Anzahl von Seiten oder die maximale Dateigröße überschreiten, wird ein Fehler zurückgegeben. Eingereichte Dateien, die die maximale Bildgröße überschreiten, werden auf 20 Millionen Pixel verkleinert.

Für OCR unterstützte Dateitypen

Die vortrainierte OCR-API erkennt und transkribiert Text aus den folgenden Dateitypen:

  • PDF
  • TIFF
  • JPG
  • PNG

Sie müssen die Dateien lokal in Ihrer Distributed Cloud-Umgebung speichern. Sie können nicht auf Dateien zugreifen, die in Cloud Storage gehostet werden, oder auf öffentlich verfügbare Dateien, um Text zu erkennen.