Como usar o Document AI Warehouse para ingerir, processar e pesquisar documentos

1. Visão geral

O que é o Document AI Warehouse?

O Document AI Warehouse é uma plataforma para armazenar, pesquisar, organizar e analisar documentos e os metadados estruturados deles. Os documentos podem incluir dados estruturados, como formulários e faturas, e não estruturados, como contratos e documentos de pesquisa. Os metadados dos documentos podem ser extraídos automaticamente usando os processadores da Document AI ou inseridos manualmente usando campos e tags.

Neste codelab, você vai aprender a ingerir, processar e pesquisar documentos usando a interface do usuário do Document AI Warehouse. Exemplos de documentos em PDF são fornecidos para este codelab, incluindo um contrato de licença, um formulário de empréstimo e uma fatura de pedido.

Pré-requisitos

Este codelab se baseia no conteúdo apresentado em outros codelabs da Document AI. Recomendamos que você leia a documentação e os codelabs abaixo antes de continuar:

O que você vai aprender

  • Como ativar a API Document AI Warehouse
  • Como configurar processadores de documentos no Document AI Warehouse
  • Como fazer upload e analisar texto em vários tipos de documentos PDF
  • Como pesquisar documentos e os metadados deles no Document AI Warehouse

O que é necessário

  • Um projeto do Google Cloud
  • Um navegador, como o Chrome ou o Firefox

2. Fazer o download de documentos de amostra

Exemplos de documentos em PDF são fornecidos para este codelab, incluindo um contrato de licença, um formulário de empréstimo e uma fatura de pedido. Você pode fazer o download dos documentos de exemplo abaixo para usar neste codelab.

Como alternativa, é possível fazer o download dos documentos de amostra no bucket público do Google Cloud Storage usando gsutil.

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

Em uma etapa posterior, você vai fazer upload desses documentos de amostra, analisá-los com diferentes processadores de documentos e armazenar os documentos e metadados resultantes no Document AI Warehouse.

3. Ativar a API Document AI Warehouse

Antes de começar a usar o Document AI Warehouse, é preciso ativar a API.

Como usar o Console do Cloud

  1. Abra o console do Google Cloud no navegador.
  2. No console do Google Cloud, acesse a Biblioteca de APIs para conferir as APIs e os serviços que podem ser ativados.
  3. Usando a barra de pesquisa na parte de cima da página da biblioteca de APIs, pesquise por Document AI Warehouse e clique no serviço resultante.
  4. Clique no botão Ativar para ativar a API Document AI Warehouse no seu projeto do Google Cloud.API Document AI Warehouse

Alternativa: usando a CLI gcloud

Como alternativa, a API pode ser ativada usando o seguinte comando gcloud:

gcloud services enable contentwarehouse.googleapis.com

Se a API tiver sido ativada corretamente, você verá uma mensagem semelhante a esta:

Operation "operations/..." finished successfully.

Agora você já pode usar o Document AI Warehouse.

4. Acesse o console do Document AI Warehouse

No navegador, acesse o console do Document AI Warehouse localizado em https://documentwarehouse.cloud.google.com (externo ao console do Google Cloud). Você vai usar o console do Document AI Warehouse junto com seu projeto do Google Cloud para realizar as etapas restantes deste codelab para fazer upload, processar e pesquisar documentos.

Painel do Document AI Warehouse

Se esta for a primeira vez que você usa o Document AI Warehouse, consulte a documentação do Document AI Warehouse (em inglês) para mais informações sobre como definir seu projeto e as configurações de acordo com suas necessidades.

5. Criar um esquema de documento

Os esquemas de documentos definem o tipo e os campos de documentos que você armazena no Document AI Warehouse. Você precisará criar um esquema antes de fazer o upload de novos documentos.

  1. No console do Document AI Warehouse, clique no botão Administrador no canto superior direito da página.
  2. Clique no item Esquema, na barra de navegação à esquerda, e no botão + Adicionar novo.
  3. Insira um nome para o esquema, como Documents and Forms, e verifique se Documento está selecionado como o Tipo de esquema. Em seguida, clique no botão Next para continuar.
  4. É possível manter a definição do esquema JSON padrão, que vai aparecer da seguinte forma:
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. Em seguida, clique no botão Concluído para terminar de criar o esquema do documento.

Após a conclusão dessas etapas, você vai receber uma mensagem informando que o esquema do documento foi criado. Clique no botão Ver esquema do documento e depois na guia JSON para confirmar o esquema, que será semelhante a este:

Esquema do documento

6. Criar processadores de documentos

Nesta etapa, você vai criar processadores que podem ser usados para realizar pesquisas de texto completo em diferentes tipos de documentos no Document AI Warehouse.

  1. No console do Google Cloud, navegue até a página de visão geral da Document AI Platform.
  2. Clique em Explore Processors e selecione Document OCR como o tipo de processador a ser criado.
  3. Especifique um nome para o processador de documentos, como ocr e sua região preferida, e clique em Criar.
  4. Na página Detalhes do processador, copie o ID do processador, que vamos usar mais tarde para configurar um processador no Document AI Warehouse.

Repita essas etapas e selecione Form Parser (Analisador de formulários) como o tipo de processador de documentos para criar e especificar form como o nome do processador.

Repita essas etapas e selecione Analisador de faturas como o tipo de processador de documentos para criar e especificar invoice como o nome do processador.

Após a conclusão dessas etapas, você verá uma lista de processadores de documentos parecida com esta:

Processadores de documentos

7. Configurar processadores de documentos

Nesta etapa, você vai configurar processadores de documentos no Document AI Warehouse consultando os processadores criados na etapa anterior.

  1. No console do Document AI Warehouse, clique no botão Administrador na barra de ferramentas superior.
  2. Clique no item Processadores da Doc AI na barra de navegação à esquerda e, em seguida, clique no botão + Adicionar novo.
  3. Clique no botão + Adicionar novo processador e especifique um nome e o ID do processador da etapa anterior.
  4. Clique no botão Salvar para salvar as alterações.

Repita essas etapas para adicionar os outros dois processadores à configuração do Document AI Warehouse usando o botão + Adicionar novo processador, incluindo o analisador de formulários e de faturas. Adicione mais dois processadores no mesmo ID do esquema do documento usando o botão + Adicionar novo processador, em vez de adicionar outro esquema usando o botão + Adicionar novo.

Após a conclusão dessas etapas, você verá uma lista de processadores de documentos configurados parecida com esta:

Processadores de documentos no Document AI Warehouse

8. Fazer upload e processar exemplos de documentos

Agora que você definiu um esquema e configurou processadores para seus documentos, faça upload deles para o Document AI Warehouse.

  1. Volte ao console do Document AI Warehouse, clique no botão +Adicionar novo na barra de navegação à esquerda e selecione a opção Fazer upload de um novo documento.
  2. Arraste o documento license-agreement.pdf de sua máquina para o widget de upload ou procure e selecione um dos documentos de amostra que você baixou. Em seguida, clique no botão Next para continuar.
  3. Em Esquema do documento, selecione o nome do esquema que você criou anteriormente, como Documentos e formulários. Em ID do processador da Doc AI, selecione o processador de documentos OCR que você configurou na etapa anterior.
  4. Em Nome de exibição, é possível usar o nome padrão (como o nome do arquivo) ou um nome de documento personalizado.
  5. Clique no botão Criar para fazer upload e processar o documento.

Volte ao console do Document AI Warehouse e repita essas etapas com o documento de amostra loan-form.pdf. Selecione o processador de documentos form que você configurou anteriormente.

Volte ao console do Document AI Warehouse e repita essas etapas com o documento de exemplo invoice-sample.pdf. Selecione o processador de documentos invoice que você configurou anteriormente.

Após a conclusão dessas etapas, se você retornar ao console do Document AI Warehouse, vai encontrar uma lista de documentos processados parecida com esta:

Documentos processados no Document AI Warehouse

9. Pesquise e explore documentos

Agora que você fez upload e processou um documento para o Document AI Warehouse, é possível realizar uma pesquisa de texto completo nos documentos.

No console do Document AI Warehouse, digite um termo de pesquisa que aparece nos documentos de amostra, como agreement, e pressione a tecla Enter. Tente fazer outras consultas de pesquisa, como mortgage e monitor, para ver os resultados dos diferentes documentos de amostra que você enviou.

Nos resultados, você verá todos os documentos que contêm esse termo de pesquisa, junto com um resumo do texto do documento com o termo de pesquisa destacado:

Resultados da pesquisa no Document AI Warehouse

Clique no nome de um documento para visualizá-lo.

Clique no botão AI View para conferir o documento com os campos detectados e os dados associados:

Visualização detalhada no Document AI Warehouse

10. Parabéns

Você fez upload, processou e realizou pesquisas de texto completo em documentos com o Document AI Warehouse e usando processadores na Document AI. Incentivamos você a testar outros documentos e a explorar outros processadores disponíveis na plataforma.

Limpeza

Faça a limpeza a seguir para evitar cobranças dos recursos usados neste tutorial na conta do Google Cloud:

Saiba mais

Saiba mais sobre a Document AI com estes outros codelabs.

Recursos

Licença

Este conteúdo está sob a licença Atribuição 2.0 Genérica da Creative Commons.