Nesta página, mostramos como começar a usar as bibliotecas de cliente do Cloud para a API Document AI Toolbox. As bibliotecas de cliente facilitam o acesso a APIs doGoogle Cloud em uma linguagem compatível. É possível usar as APIs doGoogle Cloud diretamente fazendo solicitações brutas ao servidor, mas as bibliotecas de cliente oferecem simplificações que reduzem significativamente a quantidade de código que você precisa escrever.
Saiba mais sobre as bibliotecas de cliente do Cloud e as bibliotecas de cliente de APIs do Google mais antigas em Explicação sobre as bibliotecas de cliente.
Instale a biblioteca de cliente
Python
pip install --upgrade google-cloud-documentai-toolbox
Para mais informações, consulte Como configurar um ambiente de desenvolvimento em Python.
Configurar a autenticação
Para autenticar chamadas às APIs do Google Cloud , as bibliotecas de cliente oferecem suporte a Application Default Credentials (ADC). As bibliotecas procuram credenciais em um conjunto de locais definidos e as usam para autenticar solicitações à API. Com o ADC, é possível disponibilizar credenciais ao aplicativo em uma variedade de ambientes, como de desenvolvimento ou produção local, sem precisar modificar o código do aplicativo.Em ambientes de produção, a maneira como você configura o ADC depende do serviço e do contexto. Para mais informações, consulte Configurar o Application Default Credentials.
Para um ambiente de desenvolvimento local, é possível configurar o ADC com as credenciais associadas à sua Conta do Google:
-
Install the Google Cloud CLI. After installation, initialize the Google Cloud CLI by running the following command:
gcloud initIf you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.
-
If you're using a local shell, then create local authentication credentials for your user account:
gcloud auth application-default login
You don't need to do this if you're using Cloud Shell.
If an authentication error is returned, and you are using an external identity provider (IdP), confirm that you have signed in to the gcloud CLI with your federated identity.
Uma tela de login é exibida. Após o login, suas credenciais são armazenadas no arquivo de credenciais local usado pelo ADC.
Usar a biblioteca de cliente
A caixa de ferramentas da Document AI é um SDK para Python que oferece funções
de utilidade para gerenciar, manipular e extrair informações da resposta do documento.
Ele cria um objeto de documento "encapsulado" de uma resposta de documento processado de arquivos JSON no Cloud Storage, arquivos JSON locais ou saída diretamente do método process_document().
Ele pode realizar as seguintes ações:
- Combine arquivos JSON
Documentfragmentados do processamento em lote em um único documento "encapsulado". - Exportar fragmentos como um
Documentunificado. -
Receba a saída
Documentde: - Acesse texto de
Pages,Lines,Paragraphs,FormFieldseTablessem processar informações deLayout. - Pesquise um
Pagesque contenha uma string de destino ou corresponda a uma expressão regular. - Pesquise
FormFieldspelo nome. - Pesquise
Entitiespor tipo. - Converta
Tablesem um DataFrame do Pandas ou CSV. - Insira
EntitieseFormFieldsem uma tabela do BigQuery. - Dividir um arquivo PDF com base na saída de um processador de divisão/classificação.
- Extraia a imagem
EntitiesdeDocumentcaixas delimitadoras. -
Converter
Documentspara e de formatos usados com frequência:- API Cloud Vision
AnnotateFileResponse - hOCR
- Formatos de processamento de documentos de terceiros
- API Cloud Vision
- Crie lotes de documentos para processamento em uma pasta do Cloud Storage.
Exemplos de código
Os exemplos de código a seguir demonstram como usar a caixa de ferramentas da Document AI.
Guia de início rápido
Tabelas
Exportação para o BigQuery
Divisão de PDF
Extração de imagem
Conversão de visão
Conversão de hOCR
Conversão de terceiros
Lotes de documentos
Mesclar fragmentos de documento
Outros recursos
Python
Confira na lista a seguir os links para mais recursos relacionados à biblioteca de cliente para Python: