1. Visão geral

O que é a Document AI de compras?
As empresas gerenciam grandes pipelines de compras, incluindo milhares de faturas, recibos e outros documentos relacionados todos os anos. Use Document AI de compras para processar de maneira inteligente seus "dados ocultos", como PDFs, imagens e formulários escritos à mão, para reduzir a sobrecarga manual do ciclo de vida de compras. Automatize a captura de dados de compras em escala transformando documentos, como faturas e recibos, em dados estruturados para aumentar a eficiência operacional, melhorar a experiência do cliente e tomar decisões fundamentadas em análises métricas.
Neste codelab, vamos mostrar como configurar a plataforma Document AI, processar uma fatura de amostra, extrair e visualizar entidades em um notebook do AI Platform.
O que você vai aprender
- Como começar a usar a plataforma Document AI
- Extrair entidades esquematizadas usando a solução Document AI de compras
- Criar e personalizar uma instância de notebooks do AI Platform
O que é necessário
Pesquisa
Como você usará este tutorial?
Como você classificaria sua experiência com o Python?
Como você classificaria sua experiência de uso dos serviços do Google Cloud?
2. Configuração e requisitos
Configuração de ambiente autoguiada
- Faça login no Console do Cloud e crie um novo projeto ou reutilize um existente. Crie uma se você ainda não tiver uma conta do Gmail ou do G Suite.



Lembre-se do ID do projeto, um nome exclusivo em todos os projetos do Google Cloud. (seu nome acima já foi escolhido e não funcionará para você). Você precisará fornecer esse ID posteriormente como PROJECT_ID.
- Em seguida, é necessário ativar o faturamento no console do Cloud para usar os recursos do Google Cloud.
Siga todas as instruções da seção "Limpeza". Na seção, você aprende a encerrar recursos para não incorrer em cobranças além deste tutorial. Novos usuários do Google Cloud estão qualificados para o programa de US$300 de avaliação sem custos.
3. Ativar a API Document AI do Cloud
Antes de começar a usar a Document AI, você precisa ativar a API. Abra o Console do Cloud no navegador.
- Clique em Menu de navegação > APIs e serviços > Biblioteca.

- Pesquise por "API Document AI" e clique em Ativar para usar a API no seu projeto na nuvem do Google Cloud
4. Crie e teste um processador
Primeiro, você precisa criar uma instância do processador Form Parser para usar no Document AI Platform para este tutorial.
- No console, navegue até a Visão geral do Document AI Platform.
- Clique em Criar processador e selecione Analisador de faturas

- Especifique um nome de processador e selecione sua região na lista.
- Clique em Criar para criar seu processador.
- Copie o ID do processador. Você precisará usá-la em seu código mais tarde.
(Opcional) É possível testar o processador no console fazendo upload de um documento. Clique em Fazer upload do documento e selecione um formulário para analisar. É possível fazer o download e usar este formulário de exemplo se você não tiver um disponível.

A saída será assim: 
5. Crie um notebook do AI Platform
Navegue até a seção Notebooks do AI Platform do Console do Cloud e clique em Nova instância. Em seguida, selecione o tipo de instância Python mais recente:

Use as opções padrão e clique em Criar. Quando a instância tiver sido criada, selecione Abrir o JupyterLab.
6. Acesse o código de amostra
Importe diretamente o exemplo de código do repositório do GitHub de notebooks da Document AI Github Repo. No notebook, navegue até Git > Clonar um repositório no menu superior ou clique no ícone do Git: 
Cole o seguinte URL do repositório:
https://github.com/GoogleCloudPlatform/documentai-notebooks.git
Depois que o repositório for clonado, clique no diretório documentai-notebooks/specialized/ e abra o notebook specialized_form_parser.ipynb. Encontre a célula em que o projeto do GCP e os IDs do processador da Document AI são declarados.

Cole o ID do projeto do GCP e o ID do processador da etapa 4. Salve o notebook.
7. Extrair e visualizar as entidades
Agora você pode extrair as entidades esquematizadas das faturas e as pontuações de confiança correspondentes. O objeto de resposta Document contém uma lista de entidades. Para saber mais sobre as entidades esquematizadas, leia o guia de início rápido do analisador de faturas quickstart.
Execute todas as células no notebook e role para baixo até a saída tabular. O código anterior itera por cada entidade e cria um DataFrame do Pandas com os resultados. 
Agora role para baixo até o componente de visualização. A resposta do objeto Document contém informações de layout espacial para cada página do documento. Abaixo, as informações de layout em cada campo de formulário são usadas para desenhar caixas delimitadoras na imagem. Esses dados podem ser usados para integrar a Document AI a um aplicativo de front-end.

8. Parabéns
Parabéns! Você usou a solução Document AI de compras para extrair dados de uma fatura. Incentivamos você a fazer experiências com outros tipos de formulário.
Limpeza
Para evitar cobranças dos recursos usados neste tutorial na conta do Google Cloud, encerre o notebook ou exclua o projeto do GCP.
Como encerrar a instância de notebooks do AI Platform
Siga estas instruções para encerrar uma instância de notebooks do AI Platform.
Excluir o projeto
O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para este tutorial.
Para excluir o projeto:
- No Console do GCP, acesse a página Projetos. Página "Projetos"
- Na lista de projetos, selecione um e clique em Excluir.
- Na caixa de diálogo, digite o ID do projeto e clique em Desligar para excluir o projeto.