1. Visão geral
O que é o Document AI Warehouse?
O Document AI Warehouse é uma plataforma para armazenar, pesquisar, organizar e analisar documentos e os metadados estruturados deles. Os documentos podem incluir dados estruturados, como formulários e faturas, e não estruturados, como contratos e documentos de pesquisa. Os metadados dos documentos podem ser extraídos automaticamente usando os processadores da Document AI ou inseridos manualmente usando campos e tags.
Neste codelab, você vai aprender a ingerir, processar e pesquisar documentos usando a interface do usuário do Document AI Warehouse. Exemplos de documentos em PDF são fornecidos para este codelab, incluindo um contrato de licença, um formulário de empréstimo e uma fatura de pedido.
Pré-requisitos
Este codelab se baseia no conteúdo apresentado em outros codelabs da Document AI. Recomendamos que você leia a documentação e os codelabs abaixo antes de continuar:
- Guia de início rápido: configurar a API Document AI
- Processar documentos usando o console do Google Cloud
- Gerenciamento de processadores da Document AI com Python
O que você vai aprender
- Como ativar a API Document AI Warehouse
- Como configurar processadores de documentos no Document AI Warehouse
- Como fazer upload e analisar texto em vários tipos de documentos PDF
- Como pesquisar documentos e os metadados deles no Document AI Warehouse
O que é necessário
2. Fazer o download de documentos de amostra
Exemplos de documentos em PDF são fornecidos para este codelab, incluindo um contrato de licença, um formulário de empréstimo e uma fatura de pedido. Você pode fazer o download dos documentos de exemplo abaixo para usar neste codelab.
Como alternativa, é possível fazer o download dos documentos de amostra no bucket público do Google Cloud Storage usando gsutil
.
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .
Em uma etapa posterior, você vai fazer upload desses documentos de amostra, analisá-los com diferentes processadores de documentos e armazenar os documentos e metadados resultantes no Document AI Warehouse.
3. Ativar a API Document AI Warehouse
Antes de começar a usar o Document AI Warehouse, é preciso ativar a API.
Como usar o Console do Cloud
- Abra o console do Google Cloud no navegador.
- No console do Google Cloud, acesse a Biblioteca de APIs para conferir as APIs e os serviços que podem ser ativados.
- Usando a barra de pesquisa na parte de cima da página da biblioteca de APIs, pesquise por
Document AI Warehouse
e clique no serviço resultante. - Clique no botão Ativar para ativar a API Document AI Warehouse no seu projeto do Google Cloud.
Alternativa: usando a CLI gcloud
Como alternativa, a API pode ser ativada usando o seguinte comando gcloud
:
gcloud services enable contentwarehouse.googleapis.com
Se a API tiver sido ativada corretamente, você verá uma mensagem semelhante a esta:
Operation "operations/..." finished successfully.
Agora você já pode usar o Document AI Warehouse.
4. Acesse o console do Document AI Warehouse
No navegador, acesse o console do Document AI Warehouse localizado em https://documentwarehouse.cloud.google.com (externo ao console do Google Cloud). Você vai usar o console do Document AI Warehouse junto com seu projeto do Google Cloud para realizar as etapas restantes deste codelab para fazer upload, processar e pesquisar documentos.
Se esta for a primeira vez que você usa o Document AI Warehouse, consulte a documentação do Document AI Warehouse (em inglês) para mais informações sobre como definir seu projeto e as configurações de acordo com suas necessidades.
5. Criar um esquema de documento
Os esquemas de documentos definem o tipo e os campos de documentos que você armazena no Document AI Warehouse. Você precisará criar um esquema antes de fazer o upload de novos documentos.
- No console do Document AI Warehouse, clique no botão Administrador no canto superior direito da página.
- Clique no item Esquema, na barra de navegação à esquerda, e no botão + Adicionar novo.
- Insira um nome para o esquema, como
Documents and Forms
, e verifique se Documento está selecionado como o Tipo de esquema. Em seguida, clique no botão Next para continuar. - É possível manter a definição do esquema JSON padrão, que vai aparecer da seguinte forma:
{ "display_name": "Documents and Forms", "property_definitions": [], "document_is_folder": false, "description": "" }
- Em seguida, clique no botão Concluído para terminar de criar o esquema do documento.
Após a conclusão dessas etapas, você vai receber uma mensagem informando que o esquema do documento foi criado. Clique no botão Ver esquema do documento e depois na guia JSON para confirmar o esquema, que será semelhante a este:
6. Criar processadores de documentos
Nesta etapa, você vai criar processadores que podem ser usados para realizar pesquisas de texto completo em diferentes tipos de documentos no Document AI Warehouse.
- No console do Google Cloud, navegue até a página de visão geral da Document AI Platform.
- Clique em Explore Processors e selecione Document OCR como o tipo de processador a ser criado.
- Especifique um nome para o processador de documentos, como
ocr
e sua região preferida, e clique em Criar. - Na página Detalhes do processador, copie o ID do processador, que vamos usar mais tarde para configurar um processador no Document AI Warehouse.
Repita essas etapas e selecione Form Parser (Analisador de formulários) como o tipo de processador de documentos para criar e especificar form
como o nome do processador.
Repita essas etapas e selecione Analisador de faturas como o tipo de processador de documentos para criar e especificar invoice
como o nome do processador.
Após a conclusão dessas etapas, você verá uma lista de processadores de documentos parecida com esta:
7. Configurar processadores de documentos
Nesta etapa, você vai configurar processadores de documentos no Document AI Warehouse consultando os processadores criados na etapa anterior.
- No console do Document AI Warehouse, clique no botão Administrador na barra de ferramentas superior.
- Clique no item Processadores da Doc AI na barra de navegação à esquerda e, em seguida, clique no botão + Adicionar novo.
- Clique no botão + Adicionar novo processador e especifique um nome e o ID do processador da etapa anterior.
- Clique no botão Salvar para salvar as alterações.
Repita essas etapas para adicionar os outros dois processadores à configuração do Document AI Warehouse usando o botão + Adicionar novo processador, incluindo o analisador de formulários e de faturas. Adicione mais dois processadores no mesmo ID do esquema do documento usando o botão + Adicionar novo processador, em vez de adicionar outro esquema usando o botão + Adicionar novo.
Após a conclusão dessas etapas, você verá uma lista de processadores de documentos configurados parecida com esta:
8. Fazer upload e processar exemplos de documentos
Agora que você definiu um esquema e configurou processadores para seus documentos, faça upload deles para o Document AI Warehouse.
- Volte ao console do Document AI Warehouse, clique no botão +Adicionar novo na barra de navegação à esquerda e selecione a opção Fazer upload de um novo documento.
- Arraste o documento license-agreement.pdf de sua máquina para o widget de upload ou procure e selecione um dos documentos de amostra que você baixou. Em seguida, clique no botão Next para continuar.
- Em Esquema do documento, selecione o nome do esquema que você criou anteriormente, como Documentos e formulários. Em ID do processador da Doc AI, selecione o processador de documentos OCR que você configurou na etapa anterior.
- Em Nome de exibição, é possível usar o nome padrão (como o nome do arquivo) ou um nome de documento personalizado.
- Clique no botão Criar para fazer upload e processar o documento.
Volte ao console do Document AI Warehouse e repita essas etapas com o documento de amostra loan-form.pdf. Selecione o processador de documentos form
que você configurou anteriormente.
Volte ao console do Document AI Warehouse e repita essas etapas com o documento de exemplo invoice-sample.pdf. Selecione o processador de documentos invoice
que você configurou anteriormente.
Após a conclusão dessas etapas, se você retornar ao console do Document AI Warehouse, vai encontrar uma lista de documentos processados parecida com esta:
9. Pesquise e explore documentos
Agora que você fez upload e processou um documento para o Document AI Warehouse, é possível realizar uma pesquisa de texto completo nos documentos.
No console do Document AI Warehouse, digite um termo de pesquisa que aparece nos documentos de amostra, como agreement
, e pressione a tecla Enter. Tente fazer outras consultas de pesquisa, como mortgage
e monitor
, para ver os resultados dos diferentes documentos de amostra que você enviou.
Nos resultados, você verá todos os documentos que contêm esse termo de pesquisa, junto com um resumo do texto do documento com o termo de pesquisa destacado:
Clique no nome de um documento para visualizá-lo.
Clique no botão AI View para conferir o documento com os campos detectados e os dados associados:
10. Parabéns
Você fez upload, processou e realizou pesquisas de texto completo em documentos com o Document AI Warehouse e usando processadores na Document AI. Incentivamos você a testar outros documentos e a explorar outros processadores disponíveis na plataforma.
Limpeza
Faça a limpeza a seguir para evitar cobranças dos recursos usados neste tutorial na conta do Google Cloud:
- Navegue até a página do console do armazenamento de documentos e exclua todos os documentos de amostra que você enviou.
- No console do Google Cloud, acesse a página Processadores da Document AI e exclua os processadores de amostra que você criou.
- No console do Google Cloud, acesse a página APIs e serviços e desative a API Document AI Warehouse.
Saiba mais
Saiba mais sobre a Document AI com estes outros codelabs.
- Reconhecimento óptico de caracteres com a Document AI
- Análise de formulário com a Document AI (Python)
- Processadores especializados com a Document AI (Python)
- Gerenciamento de processadores da Document AI com Python
Recursos
- Documentação do Document AI Warehouse
- O futuro dos documentos — Playlist do YouTube (em inglês)
- Repositório de amostras da Document AI
Licença
Este conteúdo está sob a licença Atribuição 2.0 Genérica da Creative Commons.