Document AI: human in the loop

1. Introdução

A API Document AI é uma solução para compreensão de dados não estruturados, como documentos, e-mails etc., e facilita o entendimento, a análise e o consumo desses dados.

Com a revisão humana, é possível alcançar uma precisão maior no processamento de documentos com a garantia da revisão humana. A revisão humana pode aumentar a precisão e ajudar as empresas a avaliar as previsões usando ferramentas específicas para permitir essas revisões. Neste laboratório, você vai configurar e testar um processador de despesas com revisão humana para validar os resultados do processador usando ferramentas de configuração e gerenciamento human-in-the-loop.

Pré-requisitos

Este codelab se baseia no conteúdo apresentado em outros codelabs da Document AI.

Recomendamos que você conclua os codelabs a seguir antes de continuar.

O que você vai aprender

  • Configurar a revisão humana de um processador.
  • Criar um pool de recursos do usuário para revisão humana.
  • Crie uma tarefa de teste de revisão humana.
  • Atribuir uma tarefa de revisão humana a um usuário.
  • Concluir a revisão humana de um documento.

O que é necessário

  • Um projeto do Google Cloud
  • Um navegador, como o Chrome ou o Firefox
  • Conhecimento sobre o Python 3

2. Etapas da configuração

Este codelab parte do princípio de que você concluiu as etapas de configuração da Document AI listadas no Codelab básico.

Conclua as etapas a seguir antes de continuar:

Também é necessário ativar a API Vertex AI.

  1. Pesquise "API Vertex AI" na barra de pesquisa na parte de cima do console e clique em Ativar para usar a API no projeto do Google Cloud
  2. Como alternativa, a API pode ser ativada usando o seguinte comando gcloud.
gcloud services enable aiplatform.googleapis.com

3. Crie um processador

Primeiro, crie uma instância do processador de despesas para usar neste laboratório.

  1. No console, navegue até Visão geral da Document AI Platform.
  2. Clique em Criar processador, role para baixo até Especializado e selecione Analisador de despesas.
  3. Nomeie como codelab-expense-parser ou de outra maneira, desde que você se lembre. Em seguida, selecione a região mais próxima na lista.
  4. Clique em Criar para criar seu processador.
  5. Copie o ID do processador. Você precisará usá-la em seu código mais tarde.
  6. No Cloud Shell, crie um bucket de armazenamento usando PROJECT_ID-hitl-results como nome:
export PROJECT_ID=$(gcloud config get-value core/project)
gsutil mb gs://$PROJECT_ID-hitl-results
  1. Vincule sua conta de usuário ao papel IAM de administrador da Vertex AI no projeto do laboratório.
export USER_ACCOUNT=$(gcloud config get-value core/account)
gcloud projects add-iam-policy-binding $PROJECT_ID --member=user:$USER_ACCOUNT --role=roles/aiplatform.admin

4. Configurar o human-in-the-loop

Nesta tarefa, você vai configurar a revisão humana do processador de despesas criado anteriormente.

  1. No console, abra o Menu de navegação e selecione Document AI.
  2. Clique em IA human-in-the-loop. HITLMenu
  3. Clique em codelab-expense-parser para abrir a página "Revisão humana" do processador.
  4. Clique em Configurar human-in-the-loop.

ConfigureHITL

  1. Selecione Filtro no nível do documento.
  2. Defina o controle deslizante da %do limite de confiança como 50%.
  3. Deixe a opção Especialistas definida como Usar meus próprios especialistas.

HITLFilters

  1. Clique no menu suspenso Grupo de especialistas e NOVO POOL DE ESPECIALISTAS.
  2. Em Nome do pool, digite Codelab HITL Pool na caixa de diálogo Novo pool de especialistas.
  3. Insira seu endereço de e-mail pessoal de Administradores de piscinas e Especialistas.
  4. Clique em Criar pool.

HITLSpecialistPool

Esse processo leva alguns minutos. Você receberá um e-mail de Vertex AI noreply-vertex@google.com.

  1. Deixe a caixa de seleção Atribuição automática desmarcada.
  2. Clique na caixa de seleção da seção Confirmar cobranças.
  3. Clique em Instructions location e copie neste local de armazenamento: - NÃO inclua o prefixo gs:// no caminho.
cloud-samples-data/documentai/codelabs/hitl/hitl-instructions.pdf
  1. Em Local de resultados, clique em Procurar e selecione o bucket do Cloud Storage criado anteriormente.
  2. Clique em Selecionar.
  3. Clique em Save Configuration.

O console vai exibir a mensagem Configurando human-in-the-loop e levar alguns minutos para ser concluído.

HITLLoading

  1. Quando a configuração for concluída, o console solicitará que você ative o human-in-the-loop.
  • Clique no botão para ativar.
  • Em seguida, clique em ATIVAR na caixa de diálogo pop-up.

HITLEnable

Fazer upload de um exemplo de formulário de despesas

  1. Temos um formulário de amostra para ser usado armazenado no Google Cloud Storage. Para fazer o download, use o botão ou o comando abaixo:

gsutil cp gs://cloud-samples-data/documentai/codelabs/hitl/expense-claim.pdf .
  1. Depois de ativar o human-in-the-loop, clique no botão Fazer upload de documento e procure o documento de amostra que você acabou de transferir por download.
  2. Clique em Fazer upload e aguarde a conclusão.

5. Atribuir um item para revisão humana

  1. Nessa página, você encontra links para os consoles do gerenciador de pools e do especialista. Esses links também vão aparecer no e-mail de Vertex AI noreply-vertex@google.com.
    • Eles devem ficar assim: https://datacompute.google.com/cm/cloudml_data_specialists_us_central1_xxxxxxx/tasks
    • Clique no link para o console do administrador.

  1. No Console de rotulagem de dados, clique no título da guia Tarefas para abrir a página de atribuição de tarefas.
  2. Clique na caixa de seleção Não atribuídos. Você verá uma nova entrada listada na fila de tarefas codelab-expense-parser-P1.

imagem

  1. Selecione codelab-expense-parser-P1.
  2. Clique em Gerenciar atividade.
  3. Insira seu e-mail pessoal na caixa de texto Incluir especialistas por e-mail e selecione-o na lista suspensa.
  4. Clique em Aplicar.

A tela vai mostrar que a tarefa foi atribuída a você. Isso pode levar alguns minutos para se propagar e ficar visível.

imagem

  1. Selecione o novo usuário e clique no ícone de menu.
  2. Clique em Atribuir a todas as tarefas no menu pop-up que aparece.

imagem

  1. Clique em Confirmar alterações.
  2. Clique em Fazer commit.

imagem

6. Realizar a tarefa de revisão humana

  1. Volte para a página de configuração do human-in-the-loop no console do Cloud.

Clique no link para acessar o console do especialista (Worker). Ele terá esta aparência: https://datacompute.google.com/w/cloudml_data_specialists_us_central1_xxxxxxxxxxx.

O console do worker será aberto e lista a nova tarefa.

imagem

  1. Passe o cursor sobre o item de linha que contém Reunião com 4 min e clique no ícone de edição (lápis).
  2. Edite o valor para mudar o texto para Reunião com Adam. Talvez seja necessário rolar para baixo na caixa de texto para ver o texto.
  3. Clique em Aplicar.
  4. Clique no ícone Confirmar (marca de verificação verde) para o item abaixo. imagem
  5. Clique no ícone Confirmar para as outras entidades destacadas.
  6. Clique em Enviar. A tarefa de revisão foi removida da fila de rotuladores.

7. Ver tarefas concluídas

  1. Volte ao console do administrador.
  2. Clique em Tarefas e selecione Em andamentoimagem
  3. Clique em Especialistas.
  4. Selecione seu endereço de e-mail.
  5. Clique em Gerenciar atividade.
  6. Selecione expense-processor-P1 no menu suspenso Select specialists working on specific tasks e Select tasks. Clique em Aplicar para cada seleção. No menu de contexto de expense-processor-P1 atribuído a você, selecione Ver especialistas.

imagem

Depois que a tarefa de rotulagem for enviada pelo rotulador, o número de tarefas respondidas e o tempo total gasto serão atualizados, mas os dados nesta visualização podem levar alguns minutos para aparecer.

  1. Feche o pop-up de especialistas e acesse a guia Especialistas.
  2. Clique no menu de contexto do seu nome de usuário e selecione Exibir tarefas.

Essa visualização mostra a lista de tarefas do usuário, os números de conclusão e o tempo gasto, conforme mostrado abaixo:

imagem

8. Parabéns

Parabéns, você usou corretamente o recurso human-in-the-loop da Document AI para configurar a revisão humana de documentos processados usando um processador de despesas da Document AI.

Limpeza

Para evitar cobranças dos recursos usados neste tutorial na conta do Google Cloud, siga estas etapas:

  • No console do Cloud, acesse a página Gerenciar recursos.
  • Na lista de projetos, selecione o projeto e clique em "Excluir".
  • Na caixa de diálogo, digite o ID do projeto e clique em "Encerrar" para excluí-lo.

Saiba mais

Saiba mais sobre a Document AI com estes codelabs de acompanhamento.

Recursos

Licença

Este conteúdo está sob a licença Atribuição 2.0 Genérica da Creative Commons.