Procesa documentos con el Analizador de formularios

El analizador de formularios extrae pares clave-valor (KVPs), tablas, marcas de selección (como casillas de verificación), campos genéricos y texto para aumentar y automatizar el procesamiento de documentos.

Se puede considerar el uso de Form Parser en lugar de los otros analizadores cuando el caso de uso implica lo siguiente:

  • Tratamiento de formularios estructurados: Se destaca por extraer pares clave-valor de formularios bien definidos que se parecen a los formularios convencionales con espacios en blanco etiquetados para completar, como name: __. El modelo entrenado previamente del Analizador de formularios ofrece una alta precisión para los campos comunes, como nombres, fechas y direcciones.
  • Se necesita una extracción de tablas flexible: El Analizador de formularios extrae datos de tablas simples (sin celdas que abarquen filas o columnas) que parecen tablas. No se requiere capacitación (ni es posible). En el caso de la extracción de tablas entrenadas, el extractor personalizado se puede usar con un campo principal que contenga campos secundarios de columna (celda).
  • Necesidad de eficiencia: Evita crear y mantener analizadores de extracción, en especial para tareas de extracción de gran volumen y variadas.

Funciones de extracción de datos

Las funciones del Analizador de formularios abarcan lo siguiente:

  • KVP: Son conjuntos de dos elementos dentro de un documento: una etiqueta o clave y sus datos correspondientes (un valor). Puedes usar directamente los KVP (si las claves son coherentes) o compilar una lógica personalizada para resolver claves variadas en información estructurada coherente.

  • Entidades genéricas: Analiza 11 campos diferentes de documentos de forma predeterminada. Estos incluyen los siguientes:

    • email
    • phone
    • url
    • date_time
    • address
    • person
    • organization
    • quantity
    • price
    • id
    • page_number
  • Texto y diseño: Usa nuestro motor de OCR más reciente para extraer información de texto y diseño. Esto incluye el texto incorporado de los PDFs digitales (solo en la versión 2.1) o el texto de las imágenes.

  • Tablas: Detecta y extrae tablas de imágenes y archivos PDF.

  • Casillas de verificación: Un detector de marcas de selección de alta calidad que extrae casillas de verificación de imágenes y resultados en PDF como KVP, usando el texto más cercano a la casilla de verificación, con un valueType que indica si está marcada o no.

Idiomas y regiones

Versiones del modelo

Las siguientes versiones de procesador son compatibles con esta función. Para obtener más información, consulta Administra versiones de procesadores.

Limitaciones

  • No se admiten las compresiones JPEG previas para TIFF. Tipo de encapsulamiento JPEG definido por la especificación de la versión 6.0 de TIFF.

  • El modelo de casillas de verificación no admite el análisis de botones de opción. Es posible que algunas casillas de verificación detectadas no tengan claves correspondientes.

  • El modelo no analiza de forma confiable un KVP con un valor sin completar, como un formulario en blanco.

  • El análisis de KVP en documentos en ciertos idiomas puede tener una calidad inferior a la de los idiomas latinos.

Procesa documentos con el Analizador de formularios

En esta guía de inicio rápido, se presenta la función Analizador de formularios en Document AI. En esta guía de inicio rápido, usarás la consola Google Cloud para configurar tu Google Cloud proyecto y autorización, crear un analizador de formularios y, luego, solicitar a Document AI que procese un formulario en PDF.

Aprenderás a realizar estas tareas:

  1. Habilitar Document AI en un proyecto de Google Cloud

  2. Crear un procesador de analizador de formularios, que puede identificar y extraer texto, pares clave-valor, tablas y entidades genéricas de muchos tipos de documentos.

  3. Usar el procesador para anotar un documento de muestra.


Para seguir la guía paso a paso sobre esta tarea directamente en la consola Google Cloud , haz clic en Guiarme:

GUIARME


  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Document AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Document AI API.

    Enable the API

  8. Crea un procesador de analizador de formularios

    Usa la consola Google Cloud para crear un procesador de analizador de formularios. Consulta Crea y administra procesadores para obtener más información.

    1. En el menú de navegación de la consola de Google Cloud , haz clic en Document AI y, luego, en Galería del procesador.

      Galería de procesadores

    2. En la Galería de procesadores, busca Analizador de formularios y selecciona Crear.

      Opción del Analizador de formularios en la IU

    3. En la ventana lateral, ingresa un Nombre del procesador, como quickstart-form-processor.

    4. Selecciona la región más cercana a ti.

    5. Haz clic en el botón Crear (Create).

    Se te redireccionará a la página Detalles del procesador del nuevo procesador de analizador de formularios.

    Procesador de prueba

    Después de crear tu procesador, puedes enviarle solicitudes de anotación.

    1. Descargar el documento de muestra.

      Es un archivo PDF que contiene una muestra de un formulario de admisión médica escrito a mano. Este documento se almacena en un bucket de Cloud Storage de acceso público.

    2. Haz clic en el botón Subir documento de prueba y selecciona el documento que acabas de descargar.

    3. Ahora, debes estar en la página Análisis del analizador de formularios. Puedes ver el texto detectado por OCR, los pares clave-valor, las tablas y las entidades genéricas extraídos del documento.

      Pares clave-valor del formulario de muestra en la IU Ejemplos de entidades genéricas del formulario en la IU

    Limpia

    Para evitar cargos Google Cloud innecesarios, usa Google Cloud console para borrar el procesador y el proyecto si no los necesitas.

    ¿Qué sigue?