1. Visão geral
O que é o Document AI Warehouse?
O Document AI Warehouse é uma plataforma para armazenar, pesquisar, organizar e analisar documentos e os metadados estruturados deles. Os documentos podem incluir dados estruturados, como formulários e faturas, e dados não estruturados, como contratos e artigos de pesquisa. Os metadados dos documentos podem ser extraídos automaticamente usando processadores na Document AI ou inseridos manualmente usando campos e tags.
Neste codelab, você vai aprender a ingerir, processar e pesquisar documentos usando a interface do usuário do Document AI Warehouse. Documentos PDF de exemplo são fornecidos para este codelab, incluindo um contrato de licença, um formulário de empréstimo e uma fatura de pedido.
Pré-requisitos
Este codelab se baseia no conteúdo apresentado em outros codelabs da Document AI. Recomendamos que você leia a seguinte documentação e codelabs antes de continuar:
- Guia de início rápido: configurar a API Document AI
- Processar documentos usando o console do Google Cloud
- Gerenciamento de processadores da Document AI com Python
O que você vai aprender
- Como ativar a API Document AI Warehouse
- Como configurar processadores de documentos no Document AI Warehouse
- Como fazer upload e analisar textos em vários tipos de documentos PDF
- Como pesquisar documentos e metadados no Document AI Warehouse
O que é necessário
2. Baixar amostras de documentos
Documentos PDF de exemplo são fornecidos para este codelab, incluindo um contrato de licença, um formulário de empréstimo e uma fatura de pedido. Baixe os seguintes documentos de exemplo para usar neste codelab.
Como alternativa, faça o download dos documentos de amostra do bucket público do Cloud Storage usando gsutil.
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .
Em uma etapa posterior, você vai fazer upload desses documentos de amostra, analisá-los com diferentes processadores de documentos e armazenar os documentos e metadados resultantes no Document AI Warehouse.
3. Ativar a API Document AI Warehouse
Antes de começar a usar o Document AI Warehouse, você precisa ativar a API.
Como usar o Console do Cloud
- Abra o Console do Google Cloud no navegador.
- No console do Google Cloud, navegue até a Biblioteca de APIs para procurar as APIs e os serviços que podem ser ativados.
- Na barra de pesquisa na parte de cima da página da biblioteca de APIs, procure
Document AI Warehousee clique no serviço resultante. - Clique no botão Ativar para ativar a API Document AI Warehouse no seu projeto na nuvem do Google Cloud.

Alternativa: usar a CLI gcloud
Como alternativa, a API pode ser ativada com o seguinte comando gcloud:
gcloud services enable contentwarehouse.googleapis.com
Se a API foi ativada, você vai ver uma mensagem semelhante a esta:
Operation "operations/..." finished successfully.
Agora você pode usar o Document AI Warehouse.
4. Acessar o console do Document AI Warehouse
No navegador, acesse o console do Document AI Warehouse em https://documentwarehouse.cloud.google.com, que é externo ao console do Google Cloud. Você vai usar o console do Document AI Warehouse e seu projeto na nuvem do Google Cloud para realizar as etapas restantes deste codelab e fazer upload, processar e pesquisar documentos.

Se esta for a primeira vez que você usa a Document AI Warehouse, consulte a documentação da Document AI Warehouse para mais informações sobre como configurar seu projeto e as configurações de acordo com suas necessidades.
5. Criar um esquema de documento
Os esquemas de documentos definem o tipo e os campos dos documentos armazenados no Document AI Warehouse. É preciso criar um esquema antes de fazer upload de novos documentos.
- No console do Document AI Warehouse, clique no botão Administrador no canto superior direito da página.
- Clique no item Esquema na barra de navegação à esquerda e no botão + Adicionar novo.
- Insira um nome para o esquema, como
Documents and Forms, e verifique se Documento está selecionado como o Tipo de esquema. Em seguida, clique no botão Próxima para continuar. - Você pode deixar a definição padrão do esquema JSON como está, que deve aparecer da seguinte forma:
{ "display_name": "Documents and Forms", "property_definitions": [], "document_is_folder": false, "description": "" } - Em seguida, clique no botão Concluído para terminar de criar o esquema de documento.
Após a conclusão dessas etapas, você vai receber uma mensagem informando que o esquema de documento foi criado. Clique no botão Ver esquema do documento e na guia JSON para confirmar o esquema, que deve ser semelhante a este:

6. Criar processadores de documentos
Nesta etapa, você vai criar processadores de documentos que podem ser usados para realizar pesquisas de texto completo em diferentes tipos de documentos no Document AI Warehouse.
- No console do Google Cloud, navegue até a página de visão geral do Document AI Platform.
- Clique em Explorar processadores e selecione OCR de documentos como o tipo de processador a ser criado.
- Especifique um nome para o processador de documentos, como
ocr, e sua região preferida. Depois, clique em Criar. - Na página Detalhes do processador, copie o ID do processador, que usaremos mais tarde para configurar um processador no Document AI Warehouse.
Repita essas etapas e selecione Analisador de formulários como o tipo de processador de documentos para criar e especifique form como o nome do processador.
Repita essas etapas e selecione Analisador de fatura como o tipo de processador de documentos para criar e especificar invoice como o nome do processador.
Após a conclusão dessas etapas, você verá uma lista de processadores de documentos semelhante a esta:

7. Configurar processadores de documentos
Nesta etapa, você vai configurar processadores de documentos no Document AI Warehouse com base nos processadores criados na etapa anterior.
- No console do Document AI Warehouse, clique no botão Administrador na barra de ferramentas na parte de cima.
- Clique no item Processadores da Doc AI na barra de navegação à esquerda e no botão + Adicionar novo.
- Clique no botão + Adicionar novo processador e especifique um nome e o ID do processador da etapa anterior.
- Clique no botão Salvar para salvar as alterações.
Repita essas etapas para adicionar os outros dois processadores à configuração do Document AI Warehouse usando o botão + Adicionar novo processador, incluindo o analisador de formulários e o analisador de faturas. Adicione os dois processadores extras no mesmo ID do esquema de documento usando o botão + Adicionar novo processador, em vez de adicionar outro esquema com o botão + Adicionar novo.
Após a conclusão dessas etapas, você verá uma lista de processadores de documentos configurados semelhante a esta:

8. Fazer upload e processar documentos de amostra
Agora que você definiu um esquema e configurou processadores para seus documentos, é possível fazer upload deles para o Document AI Warehouse.
- Volte ao console do Document AI Warehouse e clique no botão +Adicionar novo na barra de navegação à esquerda. Em seguida, selecione a opção Fazer upload de um novo documento.
- Arraste o documento license-agreement.pdf da sua máquina para o widget de upload ou procure e selecione um dos documentos de amostra que você baixou. Em seguida, clique no botão Próxima para continuar.
- Em Esquema de documento, selecione o nome do esquema que você criou antes, como Documentos e formulários. Em ID do processador da Doc AI, selecione o processador de documentos de OCR que você configurou na etapa anterior.
- No Nome de exibição, você pode usar o nome padrão (ou seja, o nome do arquivo) ou um nome de documento personalizado.
- Clique no botão Criar para fazer upload e processar o documento.
Volte ao console da Document AI Warehouse e repita essas etapas com o documento de amostra loan-form.pdf. Selecione o processador de documentos form que você configurou anteriormente.
Volte ao console da Document AI Warehouse e repita essas etapas com o documento de amostra invoice-sample.pdf. Selecione o processador de documentos invoice que você configurou anteriormente.
Após a conclusão dessas etapas, se você voltar ao console do Document AI Warehouse, verá uma lista de documentos processados semelhante a esta:

9. Pesquise e explore documentos
Agora que você fez upload e processou um documento no Document AI Warehouse, é possível realizar uma pesquisa de texto completo nos documentos.
No console do Document AI Warehouse, insira um termo de pesquisa que apareça nos documentos de exemplo, como agreement, e pressione a tecla Enter. Você pode testar outras consultas de pesquisa, como mortgage e monitor, para ver os resultados dos diferentes documentos de amostra que você enviou.
Nos resultados, você verá todos os documentos que contêm esse termo, além de um resumo do texto do documento com o termo destacado:

Clique no nome de um documento para visualizá-lo.
Clique na chave Visualização de IA para conferir o documento com os campos detectados e os dados associados:

10. Parabéns
Você fez upload, processou e realizou uma pesquisa de texto completo em documentos com o Document AI Warehouse e usando processadores na Document AI. Incentivamos você a testar outros documentos e a explorar outros processadores disponíveis na plataforma.
Limpeza
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados neste tutorial, faça a limpeza a seguir:
- Navegue até a página do console do Document Warehouse e exclua todos os documentos de amostra que você enviou.
- No console do Google Cloud, acesse a página Processadores da Document AI e exclua os processadores de amostra que você criou.
- No console do Google Cloud, navegue até a página APIs e serviços e desative a API Document AI Warehouse.
Saiba mais
Saiba mais sobre a Document AI com estes outros codelabs.
- Reconhecimento óptico de caracteres com a Document AI
- Análise de formulário com a Document AI (Python)
- Processadores especializados com a Document AI (Python)
- Gerenciamento de processadores da Document AI com Python
Recursos
- Documentação do Document AI Warehouse
- O futuro dos documentos — Playlist do YouTube (em inglês)
- Repositório de amostras da Document AI
Licença
Este conteúdo está sob a licença Atribuição 2.0 Genérica da Creative Commons.