Como usar o Document AI Warehouse para ingerir, processar e pesquisar documentos

1. Visão geral

O que é o Document AI Warehouse?

O Document AI Warehouse é uma plataforma para armazenar, pesquisar, organizar e analisar documentos e os metadados estruturados deles. Os documentos podem incluir dados estruturados, como formulários e faturas, e dados não estruturados, como contratos e artigos de pesquisa. Os metadados dos documentos podem ser extraídos automaticamente usando processadores na Document AI ou inseridos manualmente usando campos e tags.

Neste codelab, você vai aprender a ingerir, processar e pesquisar documentos usando a interface do usuário do Document AI Warehouse. Documentos PDF de exemplo são fornecidos para este codelab, incluindo um contrato de licença, um formulário de empréstimo e uma fatura de pedido.

Pré-requisitos

Este codelab se baseia no conteúdo apresentado em outros codelabs da Document AI. Recomendamos que você leia a seguinte documentação e codelabs antes de continuar:

O que você vai aprender

  • Como ativar a API Document AI Warehouse
  • Como configurar processadores de documentos no Document AI Warehouse
  • Como fazer upload e analisar textos em vários tipos de documentos PDF
  • Como pesquisar documentos e metadados no Document AI Warehouse

O que é necessário

  • Um projeto do Google Cloud
  • Um navegador, como o Chrome ou o Firefox

2. Baixar amostras de documentos

Documentos PDF de exemplo são fornecidos para este codelab, incluindo um contrato de licença, um formulário de empréstimo e uma fatura de pedido. Baixe os seguintes documentos de exemplo para usar neste codelab.

Como alternativa, faça o download dos documentos de amostra do bucket público do Cloud Storage usando gsutil.

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

Em uma etapa posterior, você vai fazer upload desses documentos de amostra, analisá-los com diferentes processadores de documentos e armazenar os documentos e metadados resultantes no Document AI Warehouse.

3. Ativar a API Document AI Warehouse

Antes de começar a usar o Document AI Warehouse, você precisa ativar a API.

Como usar o Console do Cloud

  1. Abra o Console do Google Cloud no navegador.
  2. No console do Google Cloud, navegue até a Biblioteca de APIs para procurar as APIs e os serviços que podem ser ativados.
  3. Na barra de pesquisa na parte de cima da página da biblioteca de APIs, procure Document AI Warehouse e clique no serviço resultante.
  4. Clique no botão Ativar para ativar a API Document AI Warehouse no seu projeto na nuvem do Google Cloud.API Document AI Warehouse

Alternativa: usar a CLI gcloud

Como alternativa, a API pode ser ativada com o seguinte comando gcloud:

gcloud services enable contentwarehouse.googleapis.com

Se a API foi ativada, você vai ver uma mensagem semelhante a esta:

Operation "operations/..." finished successfully.

Agora você pode usar o Document AI Warehouse.

4. Acessar o console do Document AI Warehouse

No navegador, acesse o console do Document AI Warehouse em https://documentwarehouse.cloud.google.com, que é externo ao console do Google Cloud. Você vai usar o console do Document AI Warehouse e seu projeto na nuvem do Google Cloud para realizar as etapas restantes deste codelab e fazer upload, processar e pesquisar documentos.

Painel do Document AI Warehouse

Se esta for a primeira vez que você usa a Document AI Warehouse, consulte a documentação da Document AI Warehouse para mais informações sobre como configurar seu projeto e as configurações de acordo com suas necessidades.

5. Criar um esquema de documento

Os esquemas de documentos definem o tipo e os campos dos documentos armazenados no Document AI Warehouse. É preciso criar um esquema antes de fazer upload de novos documentos.

  1. No console do Document AI Warehouse, clique no botão Administrador no canto superior direito da página.
  2. Clique no item Esquema na barra de navegação à esquerda e no botão + Adicionar novo.
  3. Insira um nome para o esquema, como Documents and Forms, e verifique se Documento está selecionado como o Tipo de esquema. Em seguida, clique no botão Próxima para continuar.
  4. Você pode deixar a definição padrão do esquema JSON como está, que deve aparecer da seguinte forma:
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. Em seguida, clique no botão Concluído para terminar de criar o esquema de documento.

Após a conclusão dessas etapas, você vai receber uma mensagem informando que o esquema de documento foi criado. Clique no botão Ver esquema do documento e na guia JSON para confirmar o esquema, que deve ser semelhante a este:

Esquema do documento

6. Criar processadores de documentos

Nesta etapa, você vai criar processadores de documentos que podem ser usados para realizar pesquisas de texto completo em diferentes tipos de documentos no Document AI Warehouse.

  1. No console do Google Cloud, navegue até a página de visão geral do Document AI Platform.
  2. Clique em Explorar processadores e selecione OCR de documentos como o tipo de processador a ser criado.
  3. Especifique um nome para o processador de documentos, como ocr, e sua região preferida. Depois, clique em Criar.
  4. Na página Detalhes do processador, copie o ID do processador, que usaremos mais tarde para configurar um processador no Document AI Warehouse.

Repita essas etapas e selecione Analisador de formulários como o tipo de processador de documentos para criar e especifique form como o nome do processador.

Repita essas etapas e selecione Analisador de fatura como o tipo de processador de documentos para criar e especificar invoice como o nome do processador.

Após a conclusão dessas etapas, você verá uma lista de processadores de documentos semelhante a esta:

Processadores de documentos

7. Configurar processadores de documentos

Nesta etapa, você vai configurar processadores de documentos no Document AI Warehouse com base nos processadores criados na etapa anterior.

  1. No console do Document AI Warehouse, clique no botão Administrador na barra de ferramentas na parte de cima.
  2. Clique no item Processadores da Doc AI na barra de navegação à esquerda e no botão + Adicionar novo.
  3. Clique no botão + Adicionar novo processador e especifique um nome e o ID do processador da etapa anterior.
  4. Clique no botão Salvar para salvar as alterações.

Repita essas etapas para adicionar os outros dois processadores à configuração do Document AI Warehouse usando o botão + Adicionar novo processador, incluindo o analisador de formulários e o analisador de faturas. Adicione os dois processadores extras no mesmo ID do esquema de documento usando o botão + Adicionar novo processador, em vez de adicionar outro esquema com o botão + Adicionar novo.

Após a conclusão dessas etapas, você verá uma lista de processadores de documentos configurados semelhante a esta:

Processadores de documentos no Document AI Warehouse

8. Fazer upload e processar documentos de amostra

Agora que você definiu um esquema e configurou processadores para seus documentos, é possível fazer upload deles para o Document AI Warehouse.

  1. Volte ao console do Document AI Warehouse e clique no botão +Adicionar novo na barra de navegação à esquerda. Em seguida, selecione a opção Fazer upload de um novo documento.
  2. Arraste o documento license-agreement.pdf da sua máquina para o widget de upload ou procure e selecione um dos documentos de amostra que você baixou. Em seguida, clique no botão Próxima para continuar.
  3. Em Esquema de documento, selecione o nome do esquema que você criou antes, como Documentos e formulários. Em ID do processador da Doc AI, selecione o processador de documentos de OCR que você configurou na etapa anterior.
  4. No Nome de exibição, você pode usar o nome padrão (ou seja, o nome do arquivo) ou um nome de documento personalizado.
  5. Clique no botão Criar para fazer upload e processar o documento.

Volte ao console da Document AI Warehouse e repita essas etapas com o documento de amostra loan-form.pdf. Selecione o processador de documentos form que você configurou anteriormente.

Volte ao console da Document AI Warehouse e repita essas etapas com o documento de amostra invoice-sample.pdf. Selecione o processador de documentos invoice que você configurou anteriormente.

Após a conclusão dessas etapas, se você voltar ao console do Document AI Warehouse, verá uma lista de documentos processados semelhante a esta:

Documentos processados no Document AI Warehouse

9. Pesquise e explore documentos

Agora que você fez upload e processou um documento no Document AI Warehouse, é possível realizar uma pesquisa de texto completo nos documentos.

No console do Document AI Warehouse, insira um termo de pesquisa que apareça nos documentos de exemplo, como agreement, e pressione a tecla Enter. Você pode testar outras consultas de pesquisa, como mortgage e monitor, para ver os resultados dos diferentes documentos de amostra que você enviou.

Nos resultados, você verá todos os documentos que contêm esse termo, além de um resumo do texto do documento com o termo destacado:

Resultados da pesquisa no Document AI Warehouse

Clique no nome de um documento para visualizá-lo.

Clique na chave Visualização de IA para conferir o documento com os campos detectados e os dados associados:

Visualização detalhada no Document AI Warehouse

10. Parabéns

Você fez upload, processou e realizou uma pesquisa de texto completo em documentos com o Document AI Warehouse e usando processadores na Document AI. Incentivamos você a testar outros documentos e a explorar outros processadores disponíveis na plataforma.

Limpeza

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados neste tutorial, faça a limpeza a seguir:

Saiba mais

Saiba mais sobre a Document AI com estes outros codelabs.

Recursos

Licença

Este conteúdo está sob a licença Atribuição 2.0 Genérica da Creative Commons.