Utilizzo di Document AI Warehouse per importare, elaborare e cercare documenti

1. Panoramica

Che cos'è Document AI Warehouse?

Document AI Warehouse è una piattaforma per archiviare, cercare, organizzare e analizzare documenti e relativi metadati strutturati. I documenti possono includere dati strutturati come moduli e fatture, nonché dati non strutturati come contratti e documenti di ricerca. I metadati dei documenti possono essere estratti automaticamente utilizzando i processori in Document AI o inseriti manualmente utilizzando campi e tag.

In questo codelab, imparerai a importare, elaborare ed eseguire ricerche nei documenti utilizzando l'interfaccia utente di Document AI Warehouse. Per questo codelab vengono forniti documenti PDF di esempio, tra cui un contratto di licenza, un modulo di prestito e una fattura dell'ordine.

Prerequisiti

Questo codelab si basa sui contenuti presentati in altri codelab di Document AI. Prima di procedere, ti consigliamo di leggere la seguente documentazione e i seguenti codelab:

Obiettivi didattici

  • Come attivare l'API Document AI Warehouse
  • Come configurare i processori di documenti in Document AI Warehouse
  • Come caricare e analizzare il testo in vari tipi di documenti PDF
  • Come cercare documenti e relativi metadati in Document AI Warehouse

Che cosa ti serve

  • Un progetto Google Cloud
  • Un browser, ad esempio Chrome o Firefox

2. Scarica documenti di esempio

Per questo codelab vengono forniti documenti PDF di esempio, tra cui un contratto di licenza, un modulo di prestito e una fattura dell'ordine. Puoi scaricare i seguenti documenti di esempio da utilizzare in questo codelab.

In alternativa, puoi scaricare i documenti di esempio dal nostro bucket Google Cloud Storage pubblico utilizzando gsutil.

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

In un passaggio successivo, caricherai questi documenti di esempio, li analizzerai con diversi processori di documenti e archivierai i documenti e i metadati risultanti in Document AI Warehouse.

3. Abilita l'API Document AI Warehouse

Prima di poter iniziare a utilizzare Document AI Warehouse, devi abilitare l'API.

Utilizzo di Cloud Console

  1. Apri la console Google Cloud nel browser.
  2. Nella console Google Cloud, vai alla libreria di API per sfogliare le API e i servizi che possono essere abilitati.
  3. Utilizza la barra di ricerca nella parte superiore della pagina della libreria API, cerca Document AI Warehouse e poi fai clic sul servizio risultante.
  4. Fai clic sul pulsante Abilita per abilitare l'API Document AI Warehouse nel tuo progetto Google Cloud.API Document AI Warehouse

Alternativa: utilizzo di gcloud CLI

In alternativa, l'API può essere abilitata utilizzando il seguente comando gcloud:

gcloud services enable contentwarehouse.googleapis.com

Se l'API è stata abilitata correttamente, dovresti visualizzare un messaggio simile al seguente:

Operation "operations/..." finished successfully.

Ora puoi utilizzare Document AI Warehouse.

4. Visualizzare la console Document AI Warehouse

Nel browser, vai alla console Document AI Warehouse all'indirizzo https://documentwarehouse.cloud.google.com (esterna alla console Google Cloud). Utilizzerai la console Document AI Warehouse insieme al tuo progetto Google Cloud per eseguire i passaggi rimanenti di questo codelab per caricare, elaborare ed eseguire ricerche nei documenti.

Dashboard di Document AI Warehouse

Se è la prima volta che utilizzi Document AI Warehouse, consulta la documentazione di Document AI Warehouse per saperne di più sulla configurazione del progetto e delle impostazioni in base alle tue esigenze.

5. Crea uno schema di documento

Gli schemi di documenti definiscono il tipo di documento e i campi per i documenti archiviati in Document AI Warehouse. Prima di caricare nuovi documenti, devi creare uno schema.

  1. Nella console Document AI Warehouse, fai clic sul pulsante Amministrazione nell'angolo in alto a destra della pagina.
  2. Fai clic sulla voce Schema nella barra di navigazione a sinistra, poi fai clic sul pulsante + Aggiungi nuovo.
  3. Inserisci un nome per lo schema, ad esempio Documents and Forms, e assicurati che sia selezionato Documento come Tipo di schema. Quindi, fai clic sul pulsante Avanti per continuare.
  4. Puoi lasciare invariata la definizione dello schema JSON predefinito, che dovrebbe essere visualizzata come segue:
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. Poi fai clic sul pulsante Fine per completare la creazione dello schema del documento.

Al termine di questi passaggi, dovresti visualizzare un messaggio che indica che lo schema del documento è stato creato. Puoi fare clic sul pulsante Visualizza schema documento e poi sulla scheda JSON per confermare lo schema, che dovrebbe essere simile al seguente:

Schema documento

6. Creare processori di documenti

In questo passaggio, creerai processori di documenti che puoi utilizzare per eseguire ricerche full-text su diversi tipi di documenti in Document AI Warehouse.

  1. Nella console Google Cloud, vai alla pagina di panoramica della piattaforma Document AI.
  2. Fai clic su Esplora processori, quindi seleziona OCR di documenti come tipo di processore da creare.
  3. Specifica un nome per il processore di documenti, ad esempio ocr, e la regione che preferisci, poi fai clic su Crea per creare il processore.
  4. Nella pagina Dettagli processore, copia l'ID processore, che utilizzeremo in un secondo momento per configurare un processore in Document AI Warehouse.

Ripeti questi passaggi e seleziona Analizzatore di moduli come tipo di processore di documenti per creare e specificare form come nome del processore.

Ripeti questi passaggi e seleziona Analizzatore sintattico delle fatture come tipo di processore di documenti per creare e specificare invoice come nome del processore.

Al termine di questi passaggi, dovresti visualizzare un elenco di elaboratori di documenti simile al seguente:

Processori di documenti

7. Configurare i processori di documenti

In questo passaggio, configurerai i processori di documenti in Document AI Warehouse facendo riferimento a quelli che hai creato nel passaggio precedente.

  1. Nella console Document AI Warehouse, fai clic sul pulsante Amministrazione nella barra degli strumenti in alto.
  2. Fai clic sulla voce Processori Doc AI nella barra di navigazione a sinistra, poi fai clic sul pulsante + Aggiungi nuovo.
  3. Fai clic sul pulsante + Aggiungi nuovo processore, quindi specifica un nome e l'ID processore del passaggio precedente.
  4. Fai clic sul pulsante Salva per salvare le modifiche.

Ripeti questi passaggi per aggiungere gli altri due processori alla configurazione di Document AI Warehouse utilizzando il pulsante + Add New Processor (Aggiungi nuovo processore), inclusi l'analizzatore di moduli e l'analizzatore di fatture. Assicurati di aggiungere i due responsabili del trattamento aggiuntivi con lo stesso ID schema documento utilizzando il pulsante + Aggiungi nuovo responsabile del trattamento, anziché aggiungere un altro schema utilizzando il pulsante + Aggiungi nuovo.

Al termine di questi passaggi, dovresti visualizzare un elenco di processori di documenti configurati simile al seguente:

Processori di documenti in Document AI Warehouse

8. Caricare ed elaborare documenti di esempio

Ora che hai definito uno schema e configurato i processori per i tuoi documenti, puoi caricarli in Document AI Warehouse.

  1. Torna alla console Document AI Warehouse e fai clic sul pulsante + Aggiungi nuovo nella barra di navigazione a sinistra, quindi seleziona l'opzione Carica un nuovo documento.
  2. Trascina il documento license-agreement.pdf dal computer al widget di caricamento oppure sfoglia e seleziona uno dei documenti di esempio che hai scaricato. Quindi, fai clic sul pulsante Avanti per continuare.
  3. Per lo Schema del documento, seleziona il nome dello schema che hai creato in precedenza, ad esempio Documenti e moduli. Per l'ID processore Doc AI, seleziona il processore OCR di documenti che hai configurato nel passaggio precedente.
  4. Per il Nome visualizzato, puoi utilizzare il nome predefinito (ovvero il nome del file) o un nome personalizzato per il documento.
  5. Fai clic sul pulsante Crea per caricare ed elaborare il documento.

Torna alla console Document AI Warehouse e ripeti questi passaggi con il documento di esempio loan-form.pdf. Seleziona il form processore di documenti che hai configurato in precedenza.

Torna alla console Document AI Warehouse e ripeti questi passaggi con il documento di esempio invoice-sample.pdf. Seleziona il invoice processore di documenti che hai configurato in precedenza.

Al termine di questi passaggi, se torni alla console Document AI Warehouse, dovresti visualizzare un elenco di documenti elaborati simile al seguente:

Documenti elaborati in Document AI Warehouse

9. Cerca ed esplora documenti

Ora che hai caricato ed elaborato un documento in Document AI Warehouse, puoi eseguire una ricerca a testo intero nei documenti.

Nella console Document AI Warehouse, inserisci un termine di ricerca che appare nei documenti di esempio, ad esempio agreement, quindi premi il tasto Invio. Puoi provare altre query di ricerca come mortgage e monitor per visualizzare i risultati per i diversi documenti di esempio che hai caricato.

Nei risultati, vedrai tutti i documenti che contengono quel termine di ricerca, insieme a un riepilogo del testo del documento con il termine di ricerca evidenziato:

Risultati di ricerca in Document AI Warehouse

Fai clic sul nome di un documento per visualizzarlo.

Fai clic sul pulsante di attivazione/disattivazione Visualizzazione AI per visualizzare il documento insieme ai campi rilevati e ai relativi dati:

Visualizzazione dettagliata in Document AI Warehouse

10. Complimenti

Hai caricato, elaborato ed eseguito correttamente la ricerca full-text nei documenti con Document AI Warehouse e utilizzando i processori in Document AI. Ti invitiamo a sperimentare con altri documenti ed esplorare gli altri processori disponibili sulla piattaforma.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, puoi eseguire la seguente pulizia:

  • Vai alla pagina della console Document Warehouse ed elimina tutti i documenti di esempio che hai caricato.
  • Nella console Google Cloud, vai alla pagina Processori Document AI ed elimina i processori di esempio che hai creato.
  • Nella console Google Cloud, vai alla pagina API e servizi e disattiva l'API Document AI Warehouse.

Scopri di più

Continua a scoprire Document AI con questi altri codelab.

Risorse

Licenza

Questo lavoro è concesso in licenza ai sensi di una licenza Creative Commons Attribution 2.0 Generic.