El reconocimiento óptico de caracteres (OCR) es una de las tres APIs preentrenadas de Vertex AI en Google Distributed Cloud (GDC) con air gap. El servicio de OCR detecta texto en varios tipos de archivo, como imágenes, archivos de documentos y texto manuscrito.
OCR ofrece los siguientes métodos disponibles en Distributed Cloud para reconocer texto:
Método | Descripción |
---|---|
BatchAnnotateImages |
Detecta texto de un lote de imágenes JPEG o PNG proporcionadas en una solicitud insertada. |
BatchAnnotateFiles |
Detecta texto de un lote de archivos PDF o TIFF proporcionados en una solicitud insertada. |
AsyncBatchAnnotateFiles |
Detecta texto de un lote de archivos PDF o TIFF en un segmento de almacenamiento para solicitudes sin conexión. |
Consulta más información sobre los idiomas admitidos que detecta la función de reconocimiento de texto.
Funciones de reconocimiento óptico de caracteres
La API OCR puede detectar y extraer texto de imágenes. Las dos funciones de anotación siguientes admiten el reconocimiento óptico de caracteres:
TEXT_DETECTION
detecta y extrae texto de cualquier imagen. Por ejemplo, una fotografía puede contener una señal de tráfico o una señal de calle. El servicio OCR devuelve un archivo JSON con la cadena extraída, las palabras individuales y sus cuadros delimitadores.Imagen 1. Fotografía de una señal de tráfico en la que la API OCR detecta palabras y sus cuadros delimitadores.
DOCUMENT_TEXT_DETECTION
también extrae texto de una imagen, pero el servicio optimiza la respuesta para texto y documentos densos. Por ejemplo, una imagen escaneada de un texto escrito a máquina puede contener varios párrafos y encabezados. El servicio de OCR devuelve un archivo JSON con información sobre páginas, bloques, párrafos, palabras y saltos.Imagen 2. Imagen escaneada de texto escrito a máquina en la que la API OCR detecta información como palabras, páginas y párrafos.
Texto escrito a mano
La figura 3 es una imagen de texto escrito a mano. La API OCR detecta y extrae texto de estas imágenes. Para ver una lista de las escrituras a mano que admiten el reconocimiento de escritura a mano, consulta Escrituras a mano.
Imagen 3. Imagen de escritura a mano en la que la API OCR detecta texto.
Límites de reconocimiento óptico de caracteres
Los métodos de la API BatchAnnotateImages
y BatchAnnotateFiles
solo admiten una solicitud por llamada de lote.
En la siguiente tabla se indican los límites actuales del servicio de OCR en Distributed Cloud.
Límite de archivos para OCR | Valor |
---|---|
Número máximo de páginas | Cinco |
Tamaño máximo de archivo | 20 MB |
Tamaño máximo de la imagen | 20 millones de píxeles (longitud x anchura) |
Si los archivos enviados a la API OCR superan el número máximo de páginas o el tamaño máximo de archivo, se devuelve un error. Los archivos enviados que superen el tamaño máximo de imagen se reducirán a 20 millones de píxeles.
Tipos de archivos admitidos para el OCR
La API pre-entrenada de OCR detecta y transcribe texto de los siguientes tipos de archivo:
- TIFF
- JPG
- PNG
Debes almacenar los archivos de forma local en tu entorno de Distributed Cloud. No puedes acceder a archivos alojados en Cloud Storage ni a archivos disponibles públicamente para detectar texto.