O analisador de formulários extrai pares de chave-valor (KVPs), tabelas, marcas de seleção (caixas de seleção)
e campos genéricos para aumentar e automatizar a extração. Ele pode extrair até 11
entidades genéricas e caixas de seleção prontas para uso. Você não especifica os campos (esquema)
que quer extrair com o Analisador de formulários. O modelo detecta e retorna entidades
de interesse de cada página de documentos.
Extrator personalizado
O extrator personalizado extrai entidades que você define no esquema e oferece três opções de modelagem:
modelo de base, baseado em modelo personalizado e baseado em modelo personalizado. Considerando os resultados promissores dos modelos de base com poucos ou nenhum dado de treinamento, recomendamos começar com o modelo de base como a primeira opção e testar outras opções conforme necessário.
Os modelos de base fazem previsões de zero a poucos exemplos, com base em até cinco documentos
marcados no conjunto de dados, e previsões ajustadas com mais de 10 documentos marcados no conjunto de dados.
Método de treinamento
Exemplos de documentos
Variação do layout do documento
Texto ou parágrafos livres
Número de documentos de treinamento com qualidade para produção, dependendo da variabilidade
Ajustar e definir o modelo de base (IA generativa).
Contrato, termos de serviço, fatura, extrato bancário, conhecimento de embarque, comprovantes de pagamento.
De alta para baixa (preferencial).
alto.
Médio: 0 a 50 documentos.
Modelo personalizado.
Modelo.
Formulários semelhantes com variação de layout ao longo dos anos ou dos fornecedores (por exemplo, W9).
Baixa a média.
Baixo.
Alta: de 10 a 100 documentos.
Modelo.
Formulários fiscais com um layout fixo (por exemplo, os formulários 941 e 709).
Nenhuma.
Baixo.
Baixa (3 documentos).
Como os modelos de base geralmente exigem menos documentos de treinamento, eles são
recomendados como a primeira opção para todos os layouts de variáveis.
Analisador de layout
O Layout Parser transforma documentos em vários formatos em representações
estruturadas, tornando o conteúdo acessível, como parágrafos, tabelas, listas e elementos
estruturais, como títulos, cabeçalhos de página e rodapés, e criando
blocos com reconhecimento de contexto que facilitam a recuperação de informações em uma variedade de
apps de IA generativa e de descoberta.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-08-18 UTC."],[[["\u003cp\u003eDocument AI offers tools like Form Parser, Custom extractor, and Layout Parser for extracting information from documents based on various use cases.\u003c/p\u003e\n"],["\u003cp\u003eForm Parser automatically extracts key-value pairs, tables, selection marks, and up to 11 generic entities without needing a predefined schema.\u003c/p\u003e\n"],["\u003cp\u003eThe Custom extractor allows users to define their extraction schema and offers three modeling options: foundation model, custom model-based, and custom template-based.\u003c/p\u003e\n"],["\u003cp\u003eFoundation models in Custom extractors are recommended as the first option due to their ability to perform with minimal training data.\u003c/p\u003e\n"],["\u003cp\u003eLayout Parser transforms documents into structured data, identifying elements such as paragraphs, tables, lists, headings, and headers/footers, for use in information retrieval and generative AI applications.\u003c/p\u003e\n"]]],[],null,["# Extraction overview\n===================\n\nDocument AI offers multiple products to extract information from documents\nfor different use cases:\n\n- [Form Parser](#form-parser)\n- Custom extractor, which offers three different modeling types:\n\n - Foundation model\n - Custom model based\n - Custom template based\n- [Layout Parser](#layout-parser)\n\nForm Parser\n-----------\n\nForm Parser extracts key-value pairs (KVP), tables, selection marks (checkboxes),\nand generic fields to augment and automate extraction. It can extract up to 11\ngeneric entities and checkboxes out of the box. You don't specify the fields (schema),\nyou want to extract with the Form Parser. The model detects and returns entities\nof interest from each page of documents.\n\nCustom extractor\n----------------\n\nThe custom extractor extracts entities you define in schema and offers three modeling options:\nfoundation model, custom model based, and custom template based. Given promising\nresults from foundation models with little to no training data, we recommend starting\nwith the foundation model as the first option and try out other options as needed.\nThe foundation models do zero- to few-shot prediction, based on up to 5 labeled\ndocuments in the dataset, and fine-tuned prediction with more than 10 labeled documents in the dataset.\n\nBecause foundation models typically require fewer training documents, they're\nrecommended as the first option for all variable layouts.\n\nLayout Parser\n-------------\n\n| **Note:** Layout Parser is in Public preview\n\nLayout Parser transforms documents in various formats into structured\nrepresentations, making content like paragraphs, tables, lists, and structural\nelements like headings, page headers, and footers accessible, and creating\ncontext-aware chunks that facilitate information retrieval in a range of\ngenerative AI and discovery apps."]]