Enrichissement

Document AI utilise Enterprise Knowledge Graph pour normaliser et enrichir les résultats de l'extraction d'entités (pour les champs compatibles). Par exemple, les adresses 123 Main St Apt 1 et 123 Main street # 1 peuvent être normalisées en une même adresse standardisée.

Pour chaque champ compatible, Document AI renvoie également un normalizedValue en plus du champ brut extrait, ce qui normalise le texte littéral. Il contient les données dans un format standardisé pour réduire le post-traitement.

La plupart des données appartiennent à l'une des catégories suivantes :

  • Valeur monétaire
  • Date
  • Horodatage
  • Adresse
  • Booléen
  • Integer
  • Float

Exemple de réponse

Les valeurs enrichies se trouvent dans le champ entities.normalizedValue, comme indiqué dans l'exemple tronqué suivant :

{
  "entities": [
    {
      "textAnchor": {
        "textSegments": [ ... ],
        "content": "Google Singapore"
      },
      "type": "employer_name",
      "mentionText": "Google Singapore",
      "confidence": 0.69933707,
      "pageAnchor": {
        "pageRefs": [
          {
            "boundingPoly": {
              "normalizedVertices": [ ... ]
            }
          }
        ]
      },
      "id": "9",
      "normalizedValue": {
        "text": "Google Asia Pacific, Singapore"
      }
    }
  ]
}

Dans l'exemple, le employer_name d'origine "Google Singapore" a été normalisé en "Google Asia Pacific, Singapore".

Dans la console Google Cloud , les champs enrichis et normalisés sont annotés avec G. Exemple :

enrichissement
Exemple de champ normalisé affiché dans l'application Web.

Processeurs compatibles

Voici les processeurs et les champs compatibles avec l'enrichissement d'entités.

Processeurs Champs enrichis

Analyseur de relevés bancaires

Catégorie Pré-entraînés
Type de solution Prêts
Fonctions OCR, extraction d'entités
Phase de version Disponibilité générale
État de l'accès Publique
Informations détaillées sur le processeur Entrée détaillée
  • bank_address
  • bank_name

Analyseur de formulaires W2

Catégorie Pré-entraînés
Type de solution Prêts
Fonctions OCR, extraction d'entités
Phase de version Disponibilité générale
État de l'accès Publique
Informations détaillées sur le processeur Entrée détaillée
  • EmployerNameAndAddress
  • EIN

Analyseur de bulletins de salaire

Catégorie Pré-entraînés
Type de solution Prêts
Fonctions OCR, extraction d'entités
Phase de version Disponibilité générale
État de l'accès Publique
Informations détaillées sur le processeur Entrée détaillée
  • employer_address
  • employer_name

Analyseur de dépenses

Catégorie Pré-entraînés
Type de solution Approvisionnement
Fonctions OCR, extraction d'entités
Phase de version Disponibilité générale
État de l'accès Publique
Informations détaillées sur le processeur Entrée détaillée
  • supplier_address
  • supplier_name
  • supplier_phone

Analyseur de factures

Catégorie Pré-entraînés
Type de solution Approvisionnement
Fonctions OCR, extraction d'entités
Phase de version Disponibilité générale
État de l'accès Publique
Informations détaillées sur le processeur Entrée détaillée
  • supplier_address
  • supplier_name
  • supplier_phone