Saiba mais sobre os recursos de reconhecimento de caracteres

O reconhecimento óptico de caracteres (OCR) é uma das três APIs pré-treinadas da Vertex AI no Google Distributed Cloud (GDC) isolado por air-gap. O serviço de OCR detecta texto em vários tipos de arquivos, como imagens, arquivos de documentos e texto manuscrito.

O OCR oferece os seguintes métodos disponíveis no Distributed Cloud para reconhecer texto:

Método Descrição
BatchAnnotateImages Detecta texto de um lote de imagens JPEG ou PNG fornecidas em uma solicitação inline.
BatchAnnotateFiles Detecta texto de um lote de arquivos PDF ou TIFF fornecidos em uma solicitação inline.
AsyncBatchAnnotateFiles Detecta texto de um lote de arquivos PDF ou TIFF em um bucket de armazenamento para solicitações off-line.

Saiba mais sobre os idiomas compatíveis detectados pelo recurso de reconhecimento de texto.

Recursos de reconhecimento óptico de caracteres

A API OCR detecta e extrai texto de imagens. Os dois recursos de anotação a seguir são compatíveis com o reconhecimento óptico de caracteres:

  • TEXT_DETECTION detecta e extrai texto de qualquer imagem. Por exemplo, uma foto pode ter uma placa de rua ou de trânsito. O serviço de OCR retorna um arquivo JSON com a string extraída, palavras individuais e caixas delimitadoras.

    Placa de trânsito com palavras individuais e caixas delimitadoras para detecção de texto

    Figura 1. Foto de uma placa de trânsito em que a API OCR detecta palavras e suas caixas delimitadoras.

  • DOCUMENT_TEXT_DETECTION também extrai texto de uma imagem, mas o serviço otimiza a resposta para textos e documentos densos. Por exemplo, uma imagem digitalizada de texto digitado pode conter vários parágrafos e títulos. O serviço de OCR retorna um arquivo JSON com informações de página, bloco, parágrafo, palavra e quebra de linha.

    Imagem digitalizada de texto digitado com uma proporção densa de anotações

    Figura 2. Imagem digitalizada de texto digitado em que a API OCR detecta informações como palavras, páginas e parágrafos.

Texto escrito à mão

A Figura 3 é uma imagem de texto escrito à mão. A API OCR detecta e extrai texto dessas imagens. Para uma lista de scripts de escrita manual que são compatíveis com o reconhecimento de escrita manual, consulte Scripts de escrita manual.

Figura de escrita à mão

Figura 3. Imagem de escrita à mão em que a API OCR detecta texto.

Limites do reconhecimento óptico de caracteres

Os métodos de API BatchAnnotateImages e BatchAnnotateFiles só aceitam uma solicitação por chamada em lote.

A tabela a seguir lista os limites atuais do serviço de OCR no Distributed Cloud.

Limite de arquivos para OCR Valor
Número máximo de páginas Cinco
Tamanhos máximos dos arquivos 20 MB
Tamanho máximo da imagem 20 milhões de pixels (comprimento x largura)

Os arquivos enviados para a API OCR que excedem o número máximo de páginas ou o tamanho máximo do arquivo retornam um erro. Os arquivos enviados que excedem o tamanho máximo da imagem são reduzidos para 20 milhões de pixels.

Tipos de arquivos compatíveis com OCR

A API pré-treinada de OCR detecta e transcreve texto dos seguintes tipos de arquivos:

  • PDF
  • TIFF
  • JPG
  • PNG

Você precisa armazenar os arquivos localmente no ambiente do Distributed Cloud. Não é possível acessar arquivos hospedados no Cloud Storage ou arquivos disponíveis publicamente para detecção de texto.