1. Panoramica
Che cos'è Document AI Warehouse?
Document AI Warehouse è una piattaforma per archiviare, cercare, organizzare e analizzare documenti e i relativi metadati strutturati. I documenti possono includere dati strutturati come moduli e fatture, nonché dati non strutturati come contratti e articoli di ricerca. I metadati dei documenti possono essere estratti automaticamente utilizzando i processori in Document AI o inseriti manualmente utilizzando campi e tag.
In questo codelab, imparerai a importare, elaborare ed eseguire ricerche nei documenti utilizzando l'interfaccia utente di Document AI Warehouse. Per questo codelab vengono forniti documenti PDF di esempio, tra cui un contratto di licenza, un modulo per il prestito e una fattura dell'ordine.
Prerequisiti
Questo codelab si basa sui contenuti presentati in altri codelab di Document AI. Ti consigliamo di leggere la documentazione e i codelab seguenti prima di procedere:
- Guida rapida: configura l'API Document AI
- Elaborare documenti utilizzando la console Google Cloud
- Gestione dei processori Document AI con Python
Obiettivi didattici
- Come abilitare l'API Document AI Warehouse
- Come configurare processori di documenti in Document AI Warehouse
- Come caricare e analizzare il testo in vari tipi di documenti PDF
- Come cercare documenti e metadati in Document AI Warehouse
Che cosa ti serve
2. Scarica documenti di esempio
Per questo codelab vengono forniti documenti PDF di esempio, tra cui un contratto di licenza, un modulo per il prestito e una fattura dell'ordine. Puoi scaricare i seguenti documenti di esempio da utilizzare in questo codelab.
In alternativa, puoi scaricare i documenti di esempio dal bucket Google Cloud Storage pubblico utilizzando gsutil
.
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .
In un passaggio successivo, caricherai questi documenti di esempio, li analizzerai con diversi processori di documenti e archivierai i documenti e i metadati risultanti in Document AI Warehouse.
3. Abilita l'API Document AI Warehouse
Prima di poter iniziare a utilizzare Document AI Warehouse, devi abilitare l'API.
Utilizzo di Cloud Console
- Apri la console Google Cloud nel browser.
- Nella console Google Cloud, vai alla libreria API per sfogliare le API e i servizi che possono essere abilitati.
- Utilizzando la barra di ricerca nella parte superiore della pagina Libreria API, cerca
Document AI Warehouse
, quindi fai clic sul servizio risultante. - Fai clic sul pulsante Abilita per abilitare l'API Document AI Warehouse nel tuo progetto Google Cloud.
Alternativa: utilizzo di gcloud CLI
In alternativa, l'API può essere abilitata utilizzando il seguente comando gcloud
:
gcloud services enable contentwarehouse.googleapis.com
Se l'API è stata abilitata correttamente, dovrebbe essere visualizzato un messaggio simile al seguente:
Operation "operations/..." finished successfully.
Ora è tutto pronto per utilizzare Document AI Warehouse.
4. Visualizza la console di Document AI Warehouse
Nel browser, vai alla console di Document AI Warehouse all'indirizzo https://documentwarehouse.cloud.google.com (esterna alla console Google Cloud). Utilizzerai la console di Document AI Warehouse insieme al tuo progetto Google Cloud per eseguire i passaggi rimanenti in questo codelab per caricare, elaborare e cercare documenti.
Se è la prima volta che utilizzi Document AI Warehouse, consulta la documentazione di Document AI Warehouse per saperne di più su come configurare il progetto e le impostazioni in base alle tue esigenze.
5. Crea uno schema di documento
Gli schemi dei documenti definiscono il tipo di documento e i campi per i documenti archiviati in Document AI Warehouse. Dovrai creare uno schema prima di caricare nuovi documenti.
- Nella console di Document AI Warehouse, fai clic sul pulsante Amministrazione nell'angolo in alto a destra della pagina.
- Fai clic sull'elemento Schema nella barra di navigazione a sinistra e poi sul pulsante + Aggiungi nuovo.
- Inserisci un nome per lo schema, ad esempio
Documents and Forms
, e assicurati che l'opzione Documento sia selezionata come Tipo di schema. Quindi, fai clic sul pulsante Avanti per continuare. - Puoi lasciare invariata la definizione dello schema JSON predefinita, che dovrebbe avere il seguente aspetto:
{ "display_name": "Documents and Forms", "property_definitions": [], "document_is_folder": false, "description": "" }
- Quindi, fai clic sul pulsante Fine per completare la creazione dello schema del documento.
Una volta completati questi passaggi, dovrebbe essere visualizzato un messaggio che indica che lo schema del documento è stato creato. Puoi fare clic sul pulsante Visualizza schema documento e poi sulla scheda JSON per confermare lo schema, che dovrebbe avere un aspetto simile al seguente:
6. Crea processori di documenti
In questo passaggio creerai processori di documenti che puoi usare per eseguire ricerche a testo intero su diversi tipi di documenti in Document AI Warehouse.
- Nella console Google Cloud, vai alla pagina di riepilogo di Document AI Platform.
- Fai clic su Esplora processori e seleziona OCR documento come tipo di processore da creare.
- Specifica un nome per l'elaboratore di documenti, ad esempio
ocr
e la tua regione preferita, quindi fai clic su Crea per creare il processore. - Nella pagina Dettagli processore, copia l'ID processore, che utilizzeremo in seguito per configurare un processore in Document AI Warehouse.
Ripeti questi passaggi e seleziona Analizzatore moduli come tipo di elaboratore di documenti da creare e specifica form
come nome del processore.
Ripeti questi passaggi e seleziona Analizzatore fatture come tipo di elaboratore di documenti da creare e specifica invoice
come nome del processore.
Una volta completati questi passaggi, dovresti vedere un elenco di processori di documenti simile al seguente:
7. Configura processori di documenti
In questo passaggio configurerai i processori di documenti in Document AI Warehouse facendo riferimento ai processori creati nel passaggio precedente.
- Nella console di Document AI Warehouse, fai clic sul pulsante Amministratore nella barra degli strumenti in alto.
- Fai clic sull'elemento Processori di Doc AI nella barra di navigazione a sinistra, quindi fai clic sul pulsante + Aggiungi nuovo.
- Fai clic sul pulsante + Aggiungi nuovo processore, quindi specifica un nome e l'ID processore del passaggio precedente.
- Fai clic sul pulsante Salva per salvare le modifiche.
Ripeti questi passaggi per aggiungere gli altri due processori alla configurazione di Document AI Warehouse utilizzando il pulsante + Aggiungi nuovo processore, incluso l'analizzatore sintattico dei moduli e dell'analizzatore sintattico delle fatture. Assicurati di aggiungere i due processori aggiuntivi sotto lo stesso ID schema di documento utilizzando il pulsante + Aggiungi nuovo processore, anziché aggiungere un altro schema con il pulsante + Aggiungi nuovo.
Una volta completati questi passaggi, dovresti vedere un elenco di processori di documenti configurati, simile al seguente:
8. Carica ed elabora documenti di esempio
Ora che hai definito uno schema e configurato i processori per i tuoi documenti, puoi caricarli in Document AI Warehouse.
- Torna alla console di Document AI Warehouse e fai clic sul pulsante +Aggiungi nuovo nella barra di navigazione a sinistra, quindi seleziona l'opzione Carica un nuovo documento.
- Trascina il documento license-agreement.pdf dal tuo computer al widget di caricamento oppure sfoglia e seleziona uno dei documenti di esempio che hai scaricato. Quindi, fai clic sul pulsante Avanti per continuare.
- Per Schema di documenti, seleziona il nome dello schema creato in precedenza, ad esempio Documenti e moduli. Per l'ID processore Doc AI, seleziona l'elaboratore di documenti OCR che hai configurato nel passaggio precedente.
- Per Nome visualizzato, puoi utilizzare il nome predefinito (ossia il nome file) o un nome personalizzato per il documento.
- Fai clic sul pulsante Crea per caricare ed elaborare il documento.
Torna alla console di Document AI Warehouse e ripeti questi passaggi con il documento di esempio loan-form.pdf. Seleziona l'elaboratore di documenti form
configurato in precedenza.
Torna alla console di Document AI Warehouse e ripeti questi passaggi con il documento di esempio invoice-sample.pdf. Seleziona l'elaboratore di documenti invoice
configurato in precedenza.
Una volta completati questi passaggi, se torni alla console di Document AI Warehouse, dovresti vedere un elenco di documenti elaborati simile al seguente:
9. Cerca ed esplora documenti
Ora che hai caricato ed elaborato un documento in Document AI Warehouse, puoi eseguire una ricerca testuale nei documenti.
Dalla console Document AI Warehouse, inserisci un termine di ricerca visualizzato nei documenti di esempio, come agreement
, quindi premi il tasto Invio. Puoi provare altre query di ricerca, come mortgage
e monitor
, per visualizzare i risultati per i diversi documenti di esempio che hai caricato.
Nei risultati vengono visualizzati tutti i documenti contenenti il termine di ricerca in questione, insieme a un riepilogo del testo del documento in cui è evidenziato il termine di ricerca:
Fai clic sul nome di un documento per visualizzarlo.
Fai clic sul pulsante di attivazione/disattivazione Vista IA per visualizzare il documento insieme ai campi rilevati e ai dati associati:
10. Complimenti
Hai caricato, elaborato ed eseguito correttamente la ricerca a testo intero dei documenti con Document AI Warehouse e utilizzando i processori in Document AI. Ti invitiamo a fare esperimenti con altri documenti e a esplorare gli altri processori disponibili sulla piattaforma.
Esegui la pulizia
Puoi eseguire la pulizia seguente per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial:
- Vai alla pagina della console di Document Warehouse ed elimina tutti i documenti di esempio che hai caricato.
- Nella console Google Cloud, vai alla pagina Processori di Document AI ed elimina i processori di esempio che hai creato.
- Nella console Google Cloud, vai alla pagina API e servizi e disabilita l'API Document AI Warehouse.
Scopri di più
Continua a imparare su Document AI con questi altri codelab.
- Riconoscimento ottico dei caratteri con Document AI
- Analisi dei moduli con Document AI (Python)
- Processori specializzati con Document AI (Python)
- Gestione dei processori Document AI con Python
Risorse
- Documentazione di Document AI Warehouse
- Il futuro dei documenti - Playlist di YouTube
- Repository di esempi di Document AI
Licenza
Questo lavoro è concesso in licenza ai sensi di una licenza Creative Commons Attribution 2.0 Generic.