Menggunakan Document AI Warehouse untuk Menyerap, Memproses, dan Menelusuri Dokumen

1. Ringkasan

Apa itu Document AI Warehouse?

Document AI Warehouse adalah platform untuk menyimpan, menelusuri, mengatur, dan menganalisis dokumen serta metadata terstrukturnya. Dokumen dapat mencakup data terstruktur seperti formulir dan invoice serta data tidak terstruktur seperti kontrak dan makalah penelitian. Metadata untuk dokumen dapat diekstrak secara otomatis menggunakan pemroses di Document AI atau memasukkannya secara manual menggunakan kolom dan tag.

Dalam codelab ini, Anda akan mempelajari cara menyerap, memproses, dan menelusuri dokumen menggunakan antarmuka pengguna Document AI Warehouse. Contoh dokumen PDF disediakan untuk codelab ini, termasuk perjanjian lisensi, formulir pinjaman, dan invoice pesanan.

Prasyarat

Codelab ini dibangun berdasarkan konten yang disajikan dalam codelab Document AI lainnya. Sebaiknya Anda membaca dokumentasi dan codelab berikut sebelum melanjutkan:

Yang akan Anda pelajari

  • Cara mengaktifkan Document AI Warehouse API
  • Cara mengonfigurasi prosesor dokumen di Document AI Warehouse
  • Cara mengupload dan mengurai teks dalam berbagai jenis dokumen PDF
  • Cara menelusuri dokumen dan metadatanya di Document AI Warehouse

Yang Anda butuhkan

2. Download contoh dokumen

Contoh dokumen PDF disediakan untuk codelab ini, termasuk perjanjian lisensi, formulir pinjaman, dan invoice pesanan. Anda dapat mendownload dokumen contoh berikut untuk digunakan dalam codelab ini.

Atau, Anda dapat mendownload dokumen contoh dari Bucket Google Cloud Storage publik kami menggunakan gsutil.

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

Pada langkah berikutnya, Anda akan mengupload dokumen contoh ini, mengurainya dengan berbagai prosesor dokumen, serta menyimpan dokumen dan metadata yang dihasilkan di Document AI Warehouse.

3. Mengaktifkan Document AI Warehouse API

Sebelum dapat mulai menggunakan Document AI Warehouse, Anda harus mengaktifkan API.

Menggunakan Cloud Console

  1. Buka Konsol Google Cloud di browser Anda.
  2. Di konsol Google Cloud, buka Library API untuk menelusuri API dan layanan yang dapat diaktifkan.
  3. Dengan menggunakan kotak penelusuran di bagian atas halaman Library API, telusuri Document AI Warehouse, lalu klik layanan yang dihasilkan.
  4. Klik tombol Enable untuk mengaktifkan Document AI Warehouse API di project Google Cloud Anda.API Gudang Document AI

Alternatif: Menggunakan gcloud CLI

Atau, API dapat diaktifkan menggunakan perintah gcloud berikut:

gcloud services enable contentwarehouse.googleapis.com

Jika API berhasil diaktifkan, Anda akan melihat pesan seperti ini:

Operation "operations/..." finished successfully.

Sekarang, Anda siap untuk menggunakan Document AI Warehouse.

4. Melihat konsol Document AI Warehouse

Di browser Anda, buka konsol Document AI Warehouse yang terletak di https://documentwarehouse.cloud.google.com (yang berada di luar konsol Google Cloud). Anda akan menggunakan konsol Document AI Warehouse bersama dengan project Google Cloud untuk melakukan langkah-langkah yang tersisa dalam codelab ini guna mengupload, memproses, dan menelusuri dokumen.

Dasbor Warehouse Document AI

Jika ini pertama kalinya Anda menggunakan Document AI Warehouse, lihat Dokumentasi Warehouse Document AI untuk informasi selengkapnya tentang cara mengonfigurasi project dan setelan sesuai kebutuhan Anda.

5. Membuat skema dokumen

Skema dokumen menentukan jenis dan kolom dokumen untuk dokumen yang Anda simpan di Document AI Warehouse. Anda harus membuat skema sebelum mengupload dokumen baru.

  1. Dari konsol Document AI Warehouse, klik tombol Admin di pojok kanan atas halaman.
  2. Klik item Schema di menu navigasi sebelah kiri, lalu klik tombol + Add new.
  3. Masukkan nama untuk skema Anda, seperti Documents and Forms, dan pastikan Document dipilih sebagai Schema Type. Lalu, klik tombol Berikutnya untuk melanjutkan.
  4. Anda dapat membiarkan definisi skema JSON default sebagaimana adanya, yang akan muncul seperti berikut:
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. Kemudian, klik tombol Done untuk menyelesaikan pembuatan skema dokumen.

Setelah berhasil menyelesaikan langkah-langkah ini, Anda akan melihat pesan bahwa skema dokumen Anda telah dibuat. Anda dapat mengklik tombol View Document Schema, lalu mengklik tab JSON untuk mengonfirmasi skema, yang akan terlihat seperti berikut:

Skema Dokumen

6. Membuat pemroses dokumen

Pada langkah ini, Anda akan membuat prosesor dokumen yang dapat digunakan untuk melakukan penelusuran teks lengkap pada berbagai jenis dokumen di Document AI Warehouse.

  1. Di Konsol Google Cloud, buka halaman Overview Document AI Platform.
  2. Klik Explore Processors, pilih Document OCR sebagai jenis prosesor yang akan dibuat.
  3. Tentukan nama untuk pemroses dokumen Anda seperti ocr dan region pilihan Anda, lalu klik Create untuk membuat prosesor.
  4. Di halaman Prosesor Details, salin ID Prosesor, yang akan kita gunakan nanti untuk mengonfigurasi prosesor di Document AI Warehouse.

Ulangi langkah-langkah ini dan pilih Form Parser sebagai jenis pemroses dokumen untuk membuat dan menentukan form sebagai nama pemroses.

Ulangi langkah-langkah ini dan pilih Invoice Parser sebagai jenis pemroses dokumen untuk membuat dan menentukan invoice sebagai nama pemroses.

Setelah berhasil menyelesaikan langkah-langkah ini, Anda akan melihat daftar pemroses dokumen yang terlihat mirip dengan berikut ini:

Prosesor Dokumen

7. Mengonfigurasi pemroses dokumen

Pada langkah ini, Anda akan mengonfigurasi prosesor dokumen di Document AI Warehouse dengan mengacu pada prosesor yang telah dibuat di langkah sebelumnya.

  1. Dari konsol Document AI Warehouse, klik tombol Admin di toolbar bagian atas.
  2. Klik item Doc AI Processors di menu navigasi sebelah kiri, lalu klik tombol + Add new.
  3. Klik tombol + Add New Processor, lalu tentukan nama dan ID prosesor dari langkah sebelumnya.
  4. Klik tombol Simpan untuk menyimpan perubahan.

Ulangi langkah-langkah ini untuk menambahkan dua prosesor lainnya ke konfigurasi Document AI Warehouse menggunakan tombol + Tambahkan Prosesor Baru, termasuk parser formulir dan parser invoice. Pastikan Anda menambahkan dua prosesor tambahan pada Document Schema ID yang sama menggunakan tombol + Add New Processor, bukan menambahkan skema tambahan menggunakan tombol + Add New.

Setelah berhasil menyelesaikan langkah-langkah ini, Anda akan melihat daftar pemroses dokumen yang dikonfigurasi yang terlihat mirip dengan berikut ini:

Prosesor Dokumen di Document AI Warehouse

8. Mengupload dan memproses dokumen contoh

Setelah Anda menentukan skema dan mengonfigurasi prosesor untuk dokumen, Anda dapat mengupload dokumen ke Document AI Warehouse.

  1. Kembali ke konsol Document AI Warehouse dan klik tombol +Add new di menu navigasi sebelah kiri, lalu pilih opsi Upload a new document.
  2. Tarik dokumen license-agreement.pdf dari komputer ke widget upload, atau jelajahi dan pilih salah satu contoh dokumen yang didownload. Kemudian, klik tombol Next untuk melanjutkan.
  3. Untuk Document Schema, pilih nama skema yang telah dibuat sebelumnya, misalnya Documents and Forms. Untuk Doc AI processor ID, pilih prosesor dokumen OCR yang Anda konfigurasi pada langkah sebelumnya.
  4. Untuk Nama Tampilan, Anda dapat menggunakan nama default (yaitu, nama file), atau menggunakan nama dokumen kustom Anda sendiri.
  5. Klik tombol Buat untuk mengupload dan memproses dokumen Anda.

Kembali ke konsol Document AI Warehouse dan ulangi langkah-langkah ini dengan dokumen contoh loan-form.pdf. Pilih pemroses dokumen form yang Anda konfigurasi sebelumnya.

Kembali ke konsol Document AI Warehouse dan ulangi langkah-langkah ini dengan contoh dokumen invoice-sample.pdf. Pilih pemroses dokumen invoice yang Anda konfigurasi sebelumnya.

Setelah berhasil menyelesaikan langkah-langkah ini, jika Anda kembali ke konsol Document AI Warehouse, maka Anda akan melihat daftar dokumen yang diproses yang terlihat seperti berikut ini:

Dokumen yang Diproses di Document AI Warehouse

9. Menelusuri dan menjelajahi dokumen

Setelah mengupload dan memproses dokumen ke Document AI Warehouse, Anda dapat melakukan penelusuran teks lengkap pada dokumen.

Dari konsol Document AI Warehouse, masukkan istilah penelusuran yang muncul dalam contoh dokumen seperti agreement, lalu tekan tombol Enter. Anda dapat mencoba kueri penelusuran lain seperti mortgage dan monitor untuk melihat hasil dari berbagai dokumen contoh yang Anda upload.

Dalam hasilnya, Anda akan melihat semua dokumen yang berisi istilah penelusuran tersebut, bersama dengan ringkasan teks dokumen dengan istilah penelusuran yang ditandai:

Hasil Penelusuran di Document AI Warehouse

Klik nama dokumen untuk melihatnya.

Klik tombol AI View untuk melihat dokumen beserta kolom yang terdeteksi dan data terkaitnya:

Tampilan Mendetail di Document AI Warehouse

10. Selamat

Anda telah berhasil mengupload, memproses, dan melakukan penelusuran teks lengkap pada dokumen dengan Document AI Warehouse dan dengan menggunakan prosesor dalam Document AI. Kami mendorong Anda untuk bereksperimen dengan dokumen lain dan mempelajari prosesor lain yang tersedia di platform.

Pembersihan

Anda dapat melakukan pembersihan berikut guna menghindari timbulnya biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini:

Pelajari Lebih Lanjut

Lanjutkan mempelajari Document AI dengan codelab lainnya.

Resource

Lisensi

Karya ini dilisensikan berdasarkan Lisensi Umum Creative Commons Attribution 2.0.