O reconhecimento óptico de caracteres (OCR) é uma das três APIs pré-treinadas da Vertex AI no Google Distributed Cloud (GDC) isolado por air-gap. O serviço de OCR detecta texto em vários tipos de arquivos, como imagens, arquivos de documentos e texto manuscrito.
O OCR oferece os seguintes métodos disponíveis no Distributed Cloud para reconhecer texto:
Método | Descrição |
---|---|
BatchAnnotateImages |
Detecta texto de um lote de imagens JPEG ou PNG fornecidas em uma solicitação inline. |
BatchAnnotateFiles |
Detecta texto de um lote de arquivos PDF ou TIFF fornecidos em uma solicitação inline. |
AsyncBatchAnnotateFiles |
Detecta texto de um lote de arquivos PDF ou TIFF em um bucket de armazenamento para solicitações off-line. |
Saiba mais sobre os idiomas compatíveis detectados pelo recurso de reconhecimento de texto.
Recursos de reconhecimento óptico de caracteres
A API OCR detecta e extrai texto de imagens. Os dois recursos de anotação a seguir são compatíveis com o reconhecimento óptico de caracteres:
TEXT_DETECTION
detecta e extrai texto de qualquer imagem. Por exemplo, uma foto pode ter uma placa de rua ou de trânsito. O serviço de OCR retorna um arquivo JSON com a string extraída, palavras individuais e caixas delimitadoras.Figura 1. Foto de uma placa de trânsito em que a API OCR detecta palavras e suas caixas delimitadoras.
DOCUMENT_TEXT_DETECTION
também extrai texto de uma imagem, mas o serviço otimiza a resposta para textos e documentos densos. Por exemplo, uma imagem digitalizada de texto digitado pode conter vários parágrafos e títulos. O serviço de OCR retorna um arquivo JSON com informações de página, bloco, parágrafo, palavra e quebra de linha.Figura 2. Imagem digitalizada de texto digitado em que a API OCR detecta informações como palavras, páginas e parágrafos.
Texto escrito à mão
A Figura 3 é uma imagem de texto escrito à mão. A API OCR detecta e extrai texto dessas imagens. Para uma lista de scripts de escrita manual que são compatíveis com o reconhecimento de escrita manual, consulte Scripts de escrita manual.
Figura 3. Imagem de escrita à mão em que a API OCR detecta texto.
Limites do reconhecimento óptico de caracteres
Os métodos de API BatchAnnotateImages
e BatchAnnotateFiles
só aceitam uma
solicitação por chamada em lote.
A tabela a seguir lista os limites atuais do serviço de OCR no Distributed Cloud.
Limite de arquivos para OCR | Valor |
---|---|
Número máximo de páginas | Cinco |
Tamanhos máximos dos arquivos | 20 MB |
Tamanho máximo da imagem | 20 milhões de pixels (comprimento x largura) |
Os arquivos enviados para a API OCR que excedem o número máximo de páginas ou o tamanho máximo do arquivo retornam um erro. Os arquivos enviados que excedem o tamanho máximo da imagem são reduzidos para 20 milhões de pixels.
Tipos de arquivos compatíveis com OCR
A API pré-treinada de OCR detecta e transcreve texto dos seguintes tipos de arquivos:
- TIFF
- JPG
- PNG
Você precisa armazenar os arquivos localmente no ambiente do Distributed Cloud. Não é possível acessar arquivos hospedados no Cloud Storage ou arquivos disponíveis publicamente para detecção de texto.