A API Vision pode fornecer anotações on-line (imediatas) de várias páginas ou frames de arquivos PDF, TIFF ou GIF armazenados no Cloud Storage.
E possível solicitar detecção de recursos on-line e anotações de cinco frames (GIF, "imagem/gif ") ou páginas (PDF, "aplicativo/pdf" ou TIFF, "imagem/tiff") de sua escolha para cada arquivo.
As anotações de exemplo nesta página são para DOCUMENT_TEXT_DETECTION
, mas a anotação em lote pequena on-line está disponível para todos os recursos da Vision.

Limitações
No máximo, cinco páginas serão anotadas. Os usuários podem especificar as cinco páginas específicas a serem anotadas.
Autenticação
Configurar o projeto e a autenticação Google Cloud
Tipos de recursos compatíveis atualmente
Tipo de recurso | |
---|---|
CROP_HINTS |
Determinar os vértices sugeridos para uma região de corte em uma imagem. |
DOCUMENT_TEXT_DETECTION |
Execute o OCR em imagens de texto densas, como documentos (PDF/TIFF) e imagens com texto
escrito à mão.
TEXT_DETECTION pode ser usado para imagens de texto esparso.
Tem precedência quando DOCUMENT_TEXT_DETECTION e
TEXT_DETECTION estão presentes.
|
FACE_DETECTION |
Detectar rostos na imagem. |
IMAGE_PROPERTIES |
Calcular um conjunto de propriedades de imagem, como as cores dominantes. |
LABEL_DETECTION |
Adicionar rótulos com base no conteúdo da imagem. |
LANDMARK_DETECTION |
Detectar pontos de referência na imagem. |
LOGO_DETECTION |
Detectar logotipos de empresas na imagem. |
OBJECT_LOCALIZATION |
Detectar e extrair vários objetos em uma imagem. |
SAFE_SEARCH_DETECTION |
Executar a SafeSearch segura para detectar conteúdo possivelmente inseguro ou indesejável. |
TEXT_DETECTION |
Realizar o reconhecimento óptico de caracteres (OCR) no texto dentro da imagem.
A detecção de texto é otimizada para áreas de texto esparso em uma imagem maior.
Se a imagem for um documento (PDF/TIFF), tiver texto denso ou contiver texto escrito à mão,
use DOCUMENT_TEXT_DETECTION .
|
WEB_DETECTION |
Detectar entidades de um assunto específico, como notícias, eventos ou celebridades na imagem, e encontrar imagens semelhantes na Web usando o poder da pesquisa do Imagens do Google. |
Código de amostra
Envie uma solicitação de anotação com um arquivo armazenado localmente ou use um arquivo armazenado no Cloud Storage.
Como usar um arquivo armazenado no local
Use os exemplos de código a seguir para ver qualquer anotação do recurso para um arquivo armazenado no local.
REST
Para realizar a detecção de recursos PDF/TIFF/GIF on-line em um pequeno lote de arquivos, faça uma solicitação POST e forneça o corpo da solicitação apropriada:
Antes de usar os dados da solicitação abaixo, faça estas substituições:
- BASE64_ENCODED_FILE: a representação base64 (string ASCII) dos dados do arquivo binário. Essa string precisa ser semelhante à seguinte:
JVBERi0xLjUNCiW1tbW1...ydHhyZWYNCjk5NzM2OQ0KJSVFT0Y=
- PROJECT_ID: o ID do projeto do Google Cloud .
Considerações específicas de campo:
inputConfig.mimeType
- um dos seguintes: "aplicativo/pdf", "imagem/tiff" ou "imagem/gif".pages
: especifica as páginas específicas do arquivo para realizar a detecção de recursos.
Método HTTP e URL:
POST https://vision.googleapis.com/v1/files:annotate
Corpo JSON da solicitação:
{ "requests": [ { "inputConfig": { "content": "BASE64_ENCODED_FILE", "mimeType": "application/pdf" }, "features": [ { "type": "DOCUMENT_TEXT_DETECTION" } ], "pages": [ 1,2,3,4,5 ] } ] }
Para enviar a solicitação, escolha uma destas opções:
curl
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: PROJECT_ID" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://vision.googleapis.com/v1/files:annotate"
PowerShell
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://vision.googleapis.com/v1/files:annotate" | Select-Object -Expand Content
Uma solicitação annotate
bem-sucedida retorna imediatamente uma resposta JSON.
Para esse recurso (DOCUMENT_TEXT_DETECTION
), a resposta JSON é semelhante à da solicitação de detecção de texto do documento de uma imagem. A resposta contém caixas delimitadoras para blocos, divididas por parágrafos, palavras e símbolos individuais. O texto completo também é detectado. A resposta também contém um campo context
mostrando o local do PDF ou TIFF que foi especificado e o número da página do resultado no arquivo.
O JSON de resposta a seguir é apenas para uma única página (página 2) e foi encurtado para maior clareza.
Java
Antes de testar esta amostra, siga as instruções de configuração do Java no Guia de início rápido da API Vision: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Vision para Java.
Node.js
Antes de testar esta amostra, siga as instruções de configuração do Node.js no Guia de início rápido do Vision: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API VisionNode.js.
Para autenticar no Vision, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Antes de testar esta amostra, siga as instruções de configuração do Python no Guia de início rápido do Vision: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API VisionPython.
Para autenticar no Vision, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Como usar um arquivo no Cloud Storage
Use os exemplos de código a seguir para ver qualquer anotação do recurso para um arquivo no Cloud Storage.
REST
Para realizar a detecção de recursos PDF/TIFF/GIF on-line em um pequeno lote de arquivos, faça uma solicitação POST
e forneça o corpo de solicitação apropriado:
Antes de usar os dados da solicitação abaixo, faça estas substituições:
- CLOUD_STORAGE_FILE_URI: o caminho para um arquivo válido (PDF/TIFF) em um bucket do Cloud Storage. Você precisa ter, pelo menos, privilégios de leitura
para o arquivo.
Exemplo:
gs://cloud-samples-data/vision/document_understanding/custom_0773375000.pdf
- PROJECT_ID: o ID do projeto do Google Cloud .
Considerações específicas de campo:
inputConfig.mimeType
- um dos seguintes: "aplicativo/pdf", "imagem/tiff" ou "imagem/gif".pages
: especifica as páginas específicas do arquivo para realizar a detecção de recursos.
Método HTTP e URL:
POST https://vision.googleapis.com/v1/files:annotate
Corpo JSON da solicitação:
{ "requests": [ { "inputConfig": { "gcsSource": { "uri": "CLOUD_STORAGE_FILE_URI" }, "mimeType": "application/pdf" }, "features": [ { "type": "DOCUMENT_TEXT_DETECTION" } ], "pages": [ 1,2,3,4,5 ] } ] }
Para enviar a solicitação, escolha uma destas opções:
curl
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: PROJECT_ID" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://vision.googleapis.com/v1/files:annotate"
PowerShell
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "PROJECT_ID" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://vision.googleapis.com/v1/files:annotate" | Select-Object -Expand Content
Uma solicitação annotate
bem-sucedida retorna imediatamente uma resposta JSON.
Para esse recurso (DOCUMENT_TEXT_DETECTION
), a resposta JSON é semelhante à da solicitação de detecção de texto do documento de uma imagem. A resposta contém caixas delimitadoras para blocos, divididas por parágrafos, palavras e símbolos individuais. O texto completo também é detectado. A resposta também contém um campo context
mostrando o local do PDF ou TIFF que foi especificado e o número da página do resultado no arquivo.
O JSON de resposta a seguir é apenas para uma única página (página 2) e foi encurtado para maior clareza.
Java
Antes de testar esta amostra, siga as instruções de configuração do Java no Guia de início rápido da API Vision: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Vision para Java.
Node.js
Antes de testar esta amostra, siga as instruções de configuração do Node.js no Guia de início rápido do Vision: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API VisionNode.js.
Para autenticar no Vision, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Python
Antes de testar esta amostra, siga as instruções de configuração do Python no Guia de início rápido do Vision: como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API VisionPython.
Para autenticar no Vision, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Testar
Teste a detecção de recursos on-line em pequenos lotes abaixo.
Use o arquivo PDF já especificado ou especifique seu próprio arquivo no lugar.

Há três tipos de recurso especificados para esta solicitação:
DOCUMENT_TEXT_DETECTION
LABEL_DETECTION
CROP_HINTS
É possível adicionar ou remover outros tipos de recursos alterando o objeto apropriado na solicitação ({"type": "FEATURE_NAME"}
).
Envie a solicitação selecionando Executar.
Corpo da solicitação:
{ "requests": [ { "inputConfig": { "gcsSource": { "uri": "gs://cloud-samples-data/vision/document_understanding/custom_0773375000.pdf" }, "mimeType": "application/pdf" }, "features": [ { "type": "DOCUMENT_TEXT_DETECTION" }, { "type": "LABEL_DETECTION" }, { "type": "CROP_HINTS" } ], "pages": [ 1, 2, 3, 4, 5 ] } ] }