Utilizzo di Document AI Warehouse per importare, elaborare e cercare documenti

1. Panoramica

Che cos'è Document AI Warehouse?

Document AI Warehouse è una piattaforma per archiviare, cercare, organizzare e analizzare documenti e i relativi metadati strutturati. I documenti possono includere dati strutturati come moduli e fatture, nonché dati non strutturati come contratti e articoli di ricerca. I metadati dei documenti possono essere estratti automaticamente utilizzando i processori in Document AI o inseriti manualmente utilizzando campi e tag.

In questo codelab, imparerai a importare, elaborare ed eseguire ricerche nei documenti utilizzando l'interfaccia utente di Document AI Warehouse. Per questo codelab vengono forniti documenti PDF di esempio, tra cui un contratto di licenza, un modulo per il prestito e una fattura dell'ordine.

Prerequisiti

Questo codelab si basa sui contenuti presentati in altri codelab di Document AI. Ti consigliamo di leggere la documentazione e i codelab seguenti prima di procedere:

Obiettivi didattici

  • Come abilitare l'API Document AI Warehouse
  • Come configurare processori di documenti in Document AI Warehouse
  • Come caricare e analizzare il testo in vari tipi di documenti PDF
  • Come cercare documenti e metadati in Document AI Warehouse

Che cosa ti serve

  • Un progetto Google Cloud
  • Un browser, ad esempio Chrome o Firefox

2. Scarica documenti di esempio

Per questo codelab vengono forniti documenti PDF di esempio, tra cui un contratto di licenza, un modulo per il prestito e una fattura dell'ordine. Puoi scaricare i seguenti documenti di esempio da utilizzare in questo codelab.

In alternativa, puoi scaricare i documenti di esempio dal bucket Google Cloud Storage pubblico utilizzando gsutil.

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

In un passaggio successivo, caricherai questi documenti di esempio, li analizzerai con diversi processori di documenti e archivierai i documenti e i metadati risultanti in Document AI Warehouse.

3. Abilita l'API Document AI Warehouse

Prima di poter iniziare a utilizzare Document AI Warehouse, devi abilitare l'API.

Utilizzo di Cloud Console

  1. Apri la console Google Cloud nel browser.
  2. Nella console Google Cloud, vai alla libreria API per sfogliare le API e i servizi che possono essere abilitati.
  3. Utilizzando la barra di ricerca nella parte superiore della pagina Libreria API, cerca Document AI Warehouse, quindi fai clic sul servizio risultante.
  4. Fai clic sul pulsante Abilita per abilitare l'API Document AI Warehouse nel tuo progetto Google Cloud.API Document AI Warehouse

Alternativa: utilizzo di gcloud CLI

In alternativa, l'API può essere abilitata utilizzando il seguente comando gcloud:

gcloud services enable contentwarehouse.googleapis.com

Se l'API è stata abilitata correttamente, dovrebbe essere visualizzato un messaggio simile al seguente:

Operation "operations/..." finished successfully.

Ora è tutto pronto per utilizzare Document AI Warehouse.

4. Visualizza la console di Document AI Warehouse

Nel browser, vai alla console di Document AI Warehouse all'indirizzo https://documentwarehouse.cloud.google.com (esterna alla console Google Cloud). Utilizzerai la console di Document AI Warehouse insieme al tuo progetto Google Cloud per eseguire i passaggi rimanenti in questo codelab per caricare, elaborare e cercare documenti.

Dashboard di Document AI Warehouse

Se è la prima volta che utilizzi Document AI Warehouse, consulta la documentazione di Document AI Warehouse per saperne di più su come configurare il progetto e le impostazioni in base alle tue esigenze.

5. Crea uno schema di documento

Gli schemi dei documenti definiscono il tipo di documento e i campi per i documenti archiviati in Document AI Warehouse. Dovrai creare uno schema prima di caricare nuovi documenti.

  1. Nella console di Document AI Warehouse, fai clic sul pulsante Amministrazione nell'angolo in alto a destra della pagina.
  2. Fai clic sull'elemento Schema nella barra di navigazione a sinistra e poi sul pulsante + Aggiungi nuovo.
  3. Inserisci un nome per lo schema, ad esempio Documents and Forms, e assicurati che l'opzione Documento sia selezionata come Tipo di schema. Quindi, fai clic sul pulsante Avanti per continuare.
  4. Puoi lasciare invariata la definizione dello schema JSON predefinita, che dovrebbe avere il seguente aspetto:
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. Quindi, fai clic sul pulsante Fine per completare la creazione dello schema del documento.

Una volta completati questi passaggi, dovrebbe essere visualizzato un messaggio che indica che lo schema del documento è stato creato. Puoi fare clic sul pulsante Visualizza schema documento e poi sulla scheda JSON per confermare lo schema, che dovrebbe avere un aspetto simile al seguente:

Schema documento

6. Crea processori di documenti

In questo passaggio creerai processori di documenti che puoi usare per eseguire ricerche a testo intero su diversi tipi di documenti in Document AI Warehouse.

  1. Nella console Google Cloud, vai alla pagina di riepilogo di Document AI Platform.
  2. Fai clic su Esplora processori e seleziona OCR documento come tipo di processore da creare.
  3. Specifica un nome per l'elaboratore di documenti, ad esempio ocr e la tua regione preferita, quindi fai clic su Crea per creare il processore.
  4. Nella pagina Dettagli processore, copia l'ID processore, che utilizzeremo in seguito per configurare un processore in Document AI Warehouse.

Ripeti questi passaggi e seleziona Analizzatore moduli come tipo di elaboratore di documenti da creare e specifica form come nome del processore.

Ripeti questi passaggi e seleziona Analizzatore fatture come tipo di elaboratore di documenti da creare e specifica invoice come nome del processore.

Una volta completati questi passaggi, dovresti vedere un elenco di processori di documenti simile al seguente:

Processori di documenti

7. Configura processori di documenti

In questo passaggio configurerai i processori di documenti in Document AI Warehouse facendo riferimento ai processori creati nel passaggio precedente.

  1. Nella console di Document AI Warehouse, fai clic sul pulsante Amministratore nella barra degli strumenti in alto.
  2. Fai clic sull'elemento Processori di Doc AI nella barra di navigazione a sinistra, quindi fai clic sul pulsante + Aggiungi nuovo.
  3. Fai clic sul pulsante + Aggiungi nuovo processore, quindi specifica un nome e l'ID processore del passaggio precedente.
  4. Fai clic sul pulsante Salva per salvare le modifiche.

Ripeti questi passaggi per aggiungere gli altri due processori alla configurazione di Document AI Warehouse utilizzando il pulsante + Aggiungi nuovo processore, incluso l'analizzatore sintattico dei moduli e dell'analizzatore sintattico delle fatture. Assicurati di aggiungere i due processori aggiuntivi sotto lo stesso ID schema di documento utilizzando il pulsante + Aggiungi nuovo processore, anziché aggiungere un altro schema con il pulsante + Aggiungi nuovo.

Una volta completati questi passaggi, dovresti vedere un elenco di processori di documenti configurati, simile al seguente:

Processori di documenti in Document AI Warehouse

8. Carica ed elabora documenti di esempio

Ora che hai definito uno schema e configurato i processori per i tuoi documenti, puoi caricarli in Document AI Warehouse.

  1. Torna alla console di Document AI Warehouse e fai clic sul pulsante +Aggiungi nuovo nella barra di navigazione a sinistra, quindi seleziona l'opzione Carica un nuovo documento.
  2. Trascina il documento license-agreement.pdf dal tuo computer al widget di caricamento oppure sfoglia e seleziona uno dei documenti di esempio che hai scaricato. Quindi, fai clic sul pulsante Avanti per continuare.
  3. Per Schema di documenti, seleziona il nome dello schema creato in precedenza, ad esempio Documenti e moduli. Per l'ID processore Doc AI, seleziona l'elaboratore di documenti OCR che hai configurato nel passaggio precedente.
  4. Per Nome visualizzato, puoi utilizzare il nome predefinito (ossia il nome file) o un nome personalizzato per il documento.
  5. Fai clic sul pulsante Crea per caricare ed elaborare il documento.

Torna alla console di Document AI Warehouse e ripeti questi passaggi con il documento di esempio loan-form.pdf. Seleziona l'elaboratore di documenti form configurato in precedenza.

Torna alla console di Document AI Warehouse e ripeti questi passaggi con il documento di esempio invoice-sample.pdf. Seleziona l'elaboratore di documenti invoice configurato in precedenza.

Una volta completati questi passaggi, se torni alla console di Document AI Warehouse, dovresti vedere un elenco di documenti elaborati simile al seguente:

Documenti elaborati in Document AI Warehouse

9. Cerca ed esplora documenti

Ora che hai caricato ed elaborato un documento in Document AI Warehouse, puoi eseguire una ricerca testuale nei documenti.

Dalla console Document AI Warehouse, inserisci un termine di ricerca visualizzato nei documenti di esempio, come agreement, quindi premi il tasto Invio. Puoi provare altre query di ricerca, come mortgage e monitor, per visualizzare i risultati per i diversi documenti di esempio che hai caricato.

Nei risultati vengono visualizzati tutti i documenti contenenti il termine di ricerca in questione, insieme a un riepilogo del testo del documento in cui è evidenziato il termine di ricerca:

Risultati di ricerca in Document AI Warehouse

Fai clic sul nome di un documento per visualizzarlo.

Fai clic sul pulsante di attivazione/disattivazione Vista IA per visualizzare il documento insieme ai campi rilevati e ai dati associati:

Visualizzazione dettagliata in Document AI Warehouse

10. Complimenti

Hai caricato, elaborato ed eseguito correttamente la ricerca a testo intero dei documenti con Document AI Warehouse e utilizzando i processori in Document AI. Ti invitiamo a fare esperimenti con altri documenti e a esplorare gli altri processori disponibili sulla piattaforma.

Esegui la pulizia

Puoi eseguire la pulizia seguente per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial:

Scopri di più

Continua a imparare su Document AI con questi altri codelab.

Risorse

Licenza

Questo lavoro è concesso in licenza ai sensi di una licenza Creative Commons Attribution 2.0 Generic.