La reconnaissance optique des caractères (OCR) est l'une des trois API Vertex AI pré-entraînées sur Google Distributed Cloud (GDC) air-gapped. Le service OCR détecte le texte dans différents types de fichiers, tels que les images, les fichiers de documents et le texte manuscrit.
L'OCR propose les méthodes suivantes disponibles dans Distributed Cloud pour reconnaître le texte :
Méthode | Description |
---|---|
BatchAnnotateImages |
Détecter du texte à partir d'un lot d'images JPEG ou PNG fournies dans une requête intégrée. |
BatchAnnotateFiles |
Détectez le texte d'un lot de fichiers PDF ou TIFF fournis dans une requête intégrée. |
AsyncBatchAnnotateFiles |
Détectez du texte à partir d'un lot de fichiers PDF ou TIFF dans un bucket de stockage pour les requêtes hors connexion. |
En savoir plus sur les langues acceptées par la fonctionnalité de reconnaissance de texte
Fonctionnalités de reconnaissance optique des caractères
L'API OCR peut détecter et extraire du texte à partir d'images. Les deux fonctionnalités d'annotation suivantes sont compatibles avec la reconnaissance optique des caractères :
TEXT_DETECTION
détecte et extrait le texte de toute image. par exemple, d'une photographie contenant un panneau indicateur. Le service OCR renvoie un fichier JSON contenant la chaîne extraite, les mots individuels et leurs cadres de délimitation.Figure 1 : Photo d'un panneau de signalisation sur laquelle l'API OCR détecte des mots et leurs cadres de délimitation.
DOCUMENT_TEXT_DETECTION
extrait également le texte d'une image, mais le service optimise la réponse pour les textes et les documents denses. Par exemple, une image numérisée de texte dactylographié peut contenir plusieurs paragraphes et titres. Le service OCR renvoie un fichier JSON contenant des informations sur les pages, les blocs, les paragraphes, les mots et les retours à la ligne.Figure 2. Image numérisée de texte dactylographié dans laquelle l'API OCR détecte des informations telles que des mots, des pages et des paragraphes.
Texte manuscrit
La figure 3 est une image de texte manuscrit. L'API OCR détecte et extrait le texte de ces images. Pour obtenir la liste des scripts d'écriture manuscrite compatibles avec la reconnaissance de l'écriture manuscrite, consultez Scripts d'écriture manuscrite.
Figure 3. Image d'écriture manuscrite dans laquelle l'API OCR détecte du texte.
Limites de la reconnaissance optique des caractères
Les méthodes d'API BatchAnnotateImages
et BatchAnnotateFiles
n'acceptent qu'une seule requête par appel par lot.
Le tableau suivant répertorie les limites actuelles du service OCR dans Distributed Cloud.
Limite de fichiers pour l'OCR | Valeur |
---|---|
Nombre maximal de pages | Cinq |
Taille maximale du fichier | 20 Mo |
Taille maximale de l'image | 20 millions de pixels (longueur x largeur) |
Les fichiers envoyés pour l'API OCR qui dépassent le nombre maximal de pages ou la taille maximale des fichiers renvoient une erreur. Les fichiers envoyés qui dépassent la taille maximale d'image sont redimensionnés à 20 millions de pixels.
Types de fichiers acceptés pour l'OCR
L'API pré-entraînée OCR détecte et transcrit le texte des types de fichiers suivants :
- TIFF
- JPG
- PNG
Vous devez stocker les fichiers localement dans votre environnement Distributed Cloud. Vous ne pouvez pas accéder aux fichiers hébergés dans Cloud Storage ni aux fichiers publics pour la détection de texte.