Información sobre las funciones de reconocimiento de caracteres

El reconocimiento óptico de caracteres (OCR) es una de las tres APIs preentrenadas de Vertex AI en Google Distributed Cloud (GDC) con air gap. El servicio de OCR detecta texto en varios tipos de archivo, como imágenes, archivos de documentos y texto manuscrito.

OCR ofrece los siguientes métodos disponibles en Distributed Cloud para reconocer texto:

Método Descripción
BatchAnnotateImages Detecta texto de un lote de imágenes JPEG o PNG proporcionadas en una solicitud insertada.
BatchAnnotateFiles Detecta texto de un lote de archivos PDF o TIFF proporcionados en una solicitud insertada.
AsyncBatchAnnotateFiles Detecta texto de un lote de archivos PDF o TIFF en un segmento de almacenamiento para solicitudes sin conexión.

Consulta más información sobre los idiomas admitidos que detecta la función de reconocimiento de texto.

Funciones de reconocimiento óptico de caracteres

La API OCR puede detectar y extraer texto de imágenes. Las dos funciones de anotación siguientes admiten el reconocimiento óptico de caracteres:

  • TEXT_DETECTION detecta y extrae texto de cualquier imagen. Por ejemplo, una fotografía puede contener una señal de tráfico o una señal de calle. El servicio OCR devuelve un archivo JSON con la cadena extraída, las palabras individuales y sus cuadros delimitadores.

    Señal de tráfico con palabras individuales y cuadros delimitadores para la detección de texto

    Imagen 1. Fotografía de una señal de tráfico en la que la API OCR detecta palabras y sus cuadros delimitadores.

  • DOCUMENT_TEXT_DETECTION también extrae texto de una imagen, pero el servicio optimiza la respuesta para texto y documentos densos. Por ejemplo, una imagen escaneada de un texto escrito a máquina puede contener varios párrafos y encabezados. El servicio de OCR devuelve un archivo JSON con información sobre páginas, bloques, párrafos, palabras y saltos.

    Imagen escaneada de texto escrito a máquina con una proporción densa de anotaciones

    Imagen 2. Imagen escaneada de texto escrito a máquina en la que la API OCR detecta información como palabras, páginas y párrafos.

Texto escrito a mano

La figura 3 es una imagen de texto escrito a mano. La API OCR detecta y extrae texto de estas imágenes. Para ver una lista de las escrituras a mano que admiten el reconocimiento de escritura a mano, consulta Escrituras a mano.

Figura de escritura a mano

Imagen 3. Imagen de escritura a mano en la que la API OCR detecta texto.

Límites de reconocimiento óptico de caracteres

Los métodos de la API BatchAnnotateImages y BatchAnnotateFiles solo admiten una solicitud por llamada de lote.

En la siguiente tabla se indican los límites actuales del servicio de OCR en Distributed Cloud.

Límite de archivos para OCR Valor
Número máximo de páginas Cinco
Tamaño máximo de archivo 20 MB
Tamaño máximo de la imagen 20 millones de píxeles (longitud x anchura)

Si los archivos enviados a la API OCR superan el número máximo de páginas o el tamaño máximo de archivo, se devuelve un error. Los archivos enviados que superen el tamaño máximo de imagen se reducirán a 20 millones de píxeles.

Tipos de archivos admitidos para el OCR

La API pre-entrenada de OCR detecta y transcribe texto de los siguientes tipos de archivo:

  • PDF
  • TIFF
  • JPG
  • PNG

Debes almacenar los archivos de forma local en tu entorno de Distributed Cloud. No puedes acceder a archivos alojados en Cloud Storage ni a archivos disponibles públicamente para detectar texto.