En savoir plus sur les fonctionnalités de reconnaissance de caractères

La reconnaissance optique des caractères (OCR) est l'une des trois API Vertex AI pré-entraînées sur Google Distributed Cloud (GDC) air-gapped. Le service OCR détecte le texte dans différents types de fichiers, tels que les images, les fichiers de documents et le texte manuscrit.

L'OCR propose les méthodes suivantes disponibles dans Distributed Cloud pour reconnaître le texte :

Méthode Description
BatchAnnotateImages Détecter du texte à partir d'un lot d'images JPEG ou PNG fournies dans une requête intégrée.
BatchAnnotateFiles Détectez le texte d'un lot de fichiers PDF ou TIFF fournis dans une requête intégrée.
AsyncBatchAnnotateFiles Détectez du texte à partir d'un lot de fichiers PDF ou TIFF dans un bucket de stockage pour les requêtes hors connexion.

En savoir plus sur les langues acceptées par la fonctionnalité de reconnaissance de texte

Fonctionnalités de reconnaissance optique des caractères

L'API OCR peut détecter et extraire du texte à partir d'images. Les deux fonctionnalités d'annotation suivantes sont compatibles avec la reconnaissance optique des caractères :

  • TEXT_DETECTION détecte et extrait le texte de toute image. par exemple, d'une photographie contenant un panneau indicateur. Le service OCR renvoie un fichier JSON contenant la chaîne extraite, les mots individuels et leurs cadres de délimitation.

    Panneau de signalisation contenant des mots individuels et des cadres de sélection pour la détection de texte

    Figure 1 : Photo d'un panneau de signalisation sur laquelle l'API OCR détecte des mots et leurs cadres de délimitation.

  • DOCUMENT_TEXT_DETECTION extrait également le texte d'une image, mais le service optimise la réponse pour les textes et les documents denses. Par exemple, une image numérisée de texte dactylographié peut contenir plusieurs paragraphes et titres. Le service OCR renvoie un fichier JSON contenant des informations sur les pages, les blocs, les paragraphes, les mots et les retours à la ligne.

    Image numérisée de texte dactylographié avec une forte proportion d'annotations

    Figure 2. Image numérisée de texte dactylographié dans laquelle l'API OCR détecte des informations telles que des mots, des pages et des paragraphes.

Texte manuscrit

La figure 3 est une image de texte manuscrit. L'API OCR détecte et extrait le texte de ces images. Pour obtenir la liste des scripts d'écriture manuscrite compatibles avec la reconnaissance de l'écriture manuscrite, consultez Scripts d'écriture manuscrite.

Figure d'écriture manuscrite

Figure 3. Image d'écriture manuscrite dans laquelle l'API OCR détecte du texte.

Limites de la reconnaissance optique des caractères

Les méthodes d'API BatchAnnotateImages et BatchAnnotateFiles n'acceptent qu'une seule requête par appel par lot.

Le tableau suivant répertorie les limites actuelles du service OCR dans Distributed Cloud.

Limite de fichiers pour l'OCR Valeur
Nombre maximal de pages Cinq
Taille maximale du fichier 20 Mo
Taille maximale de l'image 20 millions de pixels (longueur x largeur)

Les fichiers envoyés pour l'API OCR qui dépassent le nombre maximal de pages ou la taille maximale des fichiers renvoient une erreur. Les fichiers envoyés qui dépassent la taille maximale d'image sont redimensionnés à 20 millions de pixels.

Types de fichiers acceptés pour l'OCR

L'API pré-entraînée OCR détecte et transcrit le texte des types de fichiers suivants :

  • PDF
  • TIFF
  • JPG
  • PNG

Vous devez stocker les fichiers localement dans votre environnement Distributed Cloud. Vous ne pouvez pas accéder aux fichiers hébergés dans Cloud Storage ni aux fichiers publics pour la détection de texte.