Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Visão geral do extrator personalizado
O extrator personalizado extrai entidades de documentos de um tipo específico. Por
exemplo, ele pode extrair os itens de um menu ou o nome e as informações de contato
de um currículo.
Visão geral
O objetivo do extrator personalizado é permitir que os usuários da Document AI criem
soluções personalizadas de extração de entidades para novos tipos de
documento para os quais não há processadores pré-treinados disponíveis. O extrator personalizado inclui
uma combinação de modelos de aprendizado profundo que consideram o layout (para IA generativa e modelos
personalizados) e modelos baseados em modelos.
Qual método de treinamento devo usar?
O extrator personalizado oferece suporte a uma ampla variedade de casos de uso com três modos diferentes.
Método de treinamento
Exemplos de documentos
Variação do layout do documento
Texto ou parágrafos livres
Número de documentos de treinamento com qualidade para produção, dependendo da variabilidade
Ajustar e definir o modelo de base (IA generativa).
Contrato, termos de serviço, fatura, extrato bancário, conhecimento de embarque, comprovantes de pagamento.
De alta para baixa (preferencial).
alto.
Médio: 0 a 50 documentos.
Modelo personalizado.
Modelo.
Formulários semelhantes com variação de layout ao longo dos anos ou dos fornecedores (por exemplo, W9).
Baixa a média.
Baixo.
Alta: de 10 a 100 documentos.
Modelo.
Formulários fiscais com um layout fixo (por exemplo, os formulários 941 e 709).
Nenhuma.
Baixo.
Baixo (3 documentos).
Como os modelos de base geralmente exigem menos documentos de treinamento, eles são
recomendados como a primeira opção para todos os layouts de variáveis.
Pontuação de confiança
A pontuação de confiança informa o quanto o modelo associa cada entidade
ao valor previsto. O valor fica entre zero e um. Quanto mais próximo de
um, maior a confiança do modelo de que o valor corresponde à entidade.
Isso permite que os usuários definam acionadores para a análise manual de entidades individuais quando
o valor é baixo. Por exemplo, determinar se o texto em uma entidade é
"Hello, world!" ou "HeIIo vvorld!"
Os benefícios dessa abordagem permitem detectar entidades individuais com baixa
confiança, definir limites para as previsões usadas, selecionar o
limite de confiança ideal e desenvolver
novas estratégias para treinar modelos com maior precisão e pontuações de confiança.
Para mais informações sobre conceitos e métricas de avaliação, consulte Avaliar
o desempenho.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-08-18 UTC."],[[["\u003cp\u003eCustom extractors are designed to identify and extract specific entities from various document types, including menus and resumes, for which pre-trained processors may not exist.\u003c/p\u003e\n"],["\u003cp\u003eThe custom extractor employs a combination of layout-aware deep learning models and template-based models to accommodate diverse document structures.\u003c/p\u003e\n"],["\u003cp\u003eThree training methods are available for the custom extractor: fine-tuning with foundation models, custom models, and template-based models, each suited for different levels of document layout variability.\u003c/p\u003e\n"],["\u003cp\u003eFoundation models are the preferred training option for documents with variable layouts, as they typically require fewer training documents compared to other methods.\u003c/p\u003e\n"],["\u003cp\u003eThe confidence score, ranging from zero to one, indicates the model's certainty in associating a value with a predicted entity, enabling users to set review thresholds and improve model accuracy.\u003c/p\u003e\n"]]],[],null,["# Custom extractor overview\n=========================\n\nCustom extractor extracts entities from documents of a particular type. For\nexample, it can extract the items in a menu or the name and contact information\nfrom a resume.\n\nOverview\n--------\n\nThe goal of the custom extractor is to enable Document AI users to build\ncustom entity extraction solutions for new document\ntypes for which no pre-trained processors are available. Custom extractor includes\na combination of layout-aware deep learning models (for generative AI and custom\nmodels) and template-based models.\n\nWhich training method should I use?\n-----------------------------------\n\nCustom extractor supports a wide range of use cases with three different modes.\n\nBecause foundation models typically require fewer training documents, they're\nrecommended as the first option for all variable layouts.\n\nConfidence score\n----------------\n\nThe confidence score communicates how strongly your model associates each entity\nwith the predicted value. The value is between zero and one, the closer it is to\none, the higher the model's confidence that the value corresponds to the entity.\nThis allows users to set triggers for manual review of individual entities when\nthe value is low. For example, determining whether the text in an entity is\n\"Hello, world!\" or \"HeIIo vvorld!\"\n\nThe benefits of this approach allow for spotting individual entities with low\nconfidence, setting thresholds for which predictions are used, selecting the\noptimal [confidence threshold](/document-ai/docs/evaluate#confidence_threshold), and development\nof new strategies for training models with higher accuracy and confidence scores.\n\nFor more information on evaluation concepts and metrics, see [Evaluate\nPerformance](/document-ai/docs/evaluate#all-labels)"]]