1. Ringkasan
Apa itu Document AI Warehouse?
Document AI Warehouse adalah platform untuk menyimpan, menelusuri, mengatur, dan menganalisis dokumen serta metadata terstrukturnya. Dokumen dapat mencakup data terstruktur seperti formulir dan invoice serta data tidak terstruktur seperti kontrak dan makalah penelitian. Metadata untuk dokumen dapat diekstrak secara otomatis menggunakan pemroses di Document AI atau dimasukkan secara manual menggunakan kolom dan tag.
Dalam codelab ini, Anda akan mempelajari cara menyerap, memproses, dan menelusuri dokumen menggunakan antarmuka pengguna Document AI Warehouse. Dokumen PDF contoh disediakan untuk codelab ini, termasuk perjanjian lisensi, formulir pinjaman, dan invoice pesanan.
Prasyarat
Codelab ini dibangun berdasarkan konten yang disajikan dalam codelab Document AI lainnya. Sebaiknya Anda membaca dokumentasi dan codelab berikut sebelum melanjutkan:
- Panduan memulai: Menyiapkan Document AI API
- Memproses dokumen menggunakan konsol Google Cloud
- Mengelola prosesor Document AI dengan Python
Yang akan Anda pelajari
- Cara mengaktifkan Document AI Warehouse API
- Cara mengonfigurasi pemroses dokumen di Document AI Warehouse
- Cara mengupload dan mengurai teks dalam berbagai jenis dokumen PDF
- Cara menelusuri dokumen dan metadatanya di Document AI Warehouse
Yang Anda butuhkan
2. Mendownload contoh dokumen
Dokumen PDF contoh disediakan untuk codelab ini, termasuk perjanjian lisensi, formulir pinjaman, dan invoice pesanan. Anda dapat mendownload dokumen contoh berikut untuk digunakan dalam codelab ini.
Atau, Anda dapat mendownload dokumen sampel dari Bucket Google Cloud Storage publik kami menggunakan gsutil.
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .
Pada langkah selanjutnya, Anda akan mengupload contoh dokumen ini, menguraikannya dengan pemroses dokumen yang berbeda, dan menyimpan dokumen serta metadata yang dihasilkan di Document AI Warehouse.
3. Mengaktifkan Document AI Warehouse API
Sebelum dapat mulai menggunakan Document AI Warehouse, Anda harus mengaktifkan API.
Menggunakan Konsol Cloud
- Buka konsol Google Cloud di browser Anda.
- Di Konsol Google Cloud, buka API Library untuk menjelajahi API dan layanan yang dapat diaktifkan.
- Dengan menggunakan kotak penelusuran di bagian atas halaman API Library, telusuri
Document AI Warehouse, lalu klik layanan yang muncul. - Klik tombol Enable untuk mengaktifkan Document AI Warehouse API di project Google Cloud Anda.

Alternatif: Menggunakan gcloud CLI
Atau, API dapat diaktifkan menggunakan perintah gcloud berikut:
gcloud services enable contentwarehouse.googleapis.com
Jika API berhasil diaktifkan, Anda akan melihat pesan yang mirip dengan berikut ini:
Operation "operations/..." finished successfully.
Sekarang, Anda siap menggunakan Document AI Warehouse.
4. Melihat konsol Document AI Warehouse
Di browser Anda, buka konsol Document AI Warehouse di https://documentwarehouse.cloud.google.com (yang berada di luar konsol Google Cloud). Anda akan menggunakan konsol Document AI Warehouse bersama dengan project Google Cloud untuk melakukan langkah-langkah yang tersisa dalam codelab ini untuk mengupload, memproses, dan menelusuri dokumen.

Jika ini adalah pertama kalinya Anda menggunakan Document AI Warehouse, lihat Dokumentasi Document AI Warehouse untuk mengetahui informasi selengkapnya tentang cara mengonfigurasi project dan setelan Anda, bergantung pada kebutuhan Anda.
5. Membuat skema dokumen
Skema dokumen menentukan jenis dan kolom dokumen yang Anda simpan di Document AI Warehouse. Anda harus membuat skema sebelum mengupload dokumen baru.
- Dari konsol Document AI Warehouse, klik tombol Admin di pojok kanan atas halaman.
- Klik item Schema di panel navigasi kiri, lalu klik tombol + Tambahkan baru.
- Masukkan nama untuk skema Anda, seperti
Documents and Forms, dan pastikan Dokumen dipilih sebagai Jenis Skema. Kemudian, klik tombol Berikutnya untuk melanjutkan. - Anda dapat membiarkan definisi skema JSON default seperti apa adanya, yang akan muncul seperti berikut:
{ "display_name": "Documents and Forms", "property_definitions": [], "document_is_folder": false, "description": "" } - Kemudian, klik tombol Selesai untuk menyelesaikan pembuatan skema dokumen.
Setelah berhasil menyelesaikan langkah-langkah ini, Anda akan melihat pesan bahwa skema dokumen Anda telah dibuat. Anda dapat mengklik tombol View Document Schema, lalu tab JSON untuk mengonfirmasi skema, yang akan terlihat mirip dengan berikut:

6. Membuat pemroses dokumen
Pada langkah ini, Anda akan membuat pemroses dokumen yang dapat digunakan untuk melakukan penelusuran teks lengkap pada berbagai jenis dokumen di Document AI Warehouse.
- Di konsol Google Cloud, buka halaman ringkasan Document AI Platform.
- Klik Explore Processors, lalu pilih Document OCR sebagai jenis pemroses yang akan dibuat.
- Tentukan nama untuk pemroses dokumen Anda, seperti
ocr, dan region pilihan Anda, lalu klik Create untuk membuat pemroses. - Di halaman Processor Details, salin Processor ID, yang akan kita gunakan nanti untuk mengonfigurasi pemroses di Document AI Warehouse.
Ulangi langkah-langkah ini dan pilih Form Parser sebagai jenis pemroses dokumen untuk membuat dan menentukan form sebagai nama pemroses.
Ulangi langkah-langkah ini dan pilih Invoice Parser sebagai jenis pemroses dokumen yang akan dibuat dan tentukan invoice sebagai nama pemroses.
Setelah berhasil menyelesaikan langkah-langkah ini, Anda akan melihat daftar pemroses dokumen yang terlihat mirip dengan berikut ini:

7. Mengonfigurasi pemroses dokumen
Pada langkah ini, Anda akan mengonfigurasi pemroses dokumen di Document AI Warehouse dengan merujuk pada pemroses yang Anda buat pada langkah sebelumnya.
- Dari konsol Document AI Warehouse, klik tombol Admin di toolbar atas.
- Klik item Doc AI Processors di menu navigasi sebelah kiri, lalu klik tombol + Add new.
- Klik tombol + Add New Processor, lalu tentukan nama dan ID pemroses dari langkah sebelumnya.
- Klik tombol Simpan untuk menyimpan perubahan.
Ulangi langkah-langkah ini untuk menambahkan dua pemroses lainnya ke konfigurasi Document AI Warehouse menggunakan tombol + Tambahkan Pemroses Baru, termasuk parser formulir dan parser invoice. Pastikan Anda menambahkan dua pemroses tambahan di ID Skema Dokumen yang sama menggunakan tombol + Tambahkan Pemroses Baru, bukan menambahkan skema tambahan menggunakan tombol + Tambahkan Baru.
Setelah berhasil menyelesaikan langkah-langkah ini, Anda akan melihat daftar pemroses dokumen yang dikonfigurasi dan terlihat mirip dengan berikut ini:

8. Mengupload dan memproses dokumen contoh
Setelah menentukan skema dan mengonfigurasi pemroses untuk dokumen, Anda dapat mengupload dokumen ke Document AI Warehouse.
- Kembali ke konsol Document AI Warehouse, klik tombol +Add new di menu navigasi sebelah kiri, lalu pilih opsi Upload a new document.
- Tarik dokumen license-agreement.pdf dari komputer Anda ke widget upload, atau jelajahi dan pilih salah satu dokumen contoh yang Anda download. Kemudian, klik tombol Berikutnya untuk melanjutkan.
- Untuk Skema Dokumen, pilih nama skema yang Anda buat sebelumnya, seperti Dokumen dan Formulir. Untuk Doc AI processor ID, pilih pemroses dokumen OCR yang Anda konfigurasi di langkah sebelumnya.
- Untuk Nama Tampilan, Anda dapat menggunakan nama default (yaitu, nama file), atau menggunakan nama dokumen kustom Anda sendiri.
- Klik tombol Buat untuk mengupload dan memproses dokumen Anda.
Kembali ke konsol Document AI Warehouse dan ulangi langkah-langkah ini dengan contoh dokumen loan-form.pdf. Pilih pemroses dokumen form yang Anda konfigurasi sebelumnya.
Kembali ke konsol Document AI Warehouse dan ulangi langkah-langkah ini dengan contoh dokumen invoice-sample.pdf. Pilih pemroses dokumen invoice yang Anda konfigurasi sebelumnya.
Setelah berhasil menyelesaikan langkah-langkah ini, jika Anda kembali ke konsol Document AI Warehouse, Anda akan melihat daftar dokumen yang diproses yang terlihat mirip dengan berikut ini:

9. Menelusuri dan menjelajahi dokumen
Setelah mengupload dan memproses dokumen ke Document AI Warehouse, Anda dapat melakukan penelusuran teks lengkap pada dokumen.
Dari konsol Document AI Warehouse, masukkan istilah penelusuran yang muncul dalam dokumen contoh seperti agreement, lalu tekan tombol Enter. Anda dapat mencoba kueri penelusuran lainnya seperti mortgage dan monitor untuk melihat hasil dari berbagai contoh dokumen yang Anda upload.
Pada hasil penelusuran, Anda akan melihat semua dokumen yang berisi istilah penelusuran tersebut, beserta ringkasan teks dokumen dengan istilah penelusuran yang ditandai:

Klik nama dokumen untuk melihatnya.
Klik tombol Tampilan AI untuk melihat dokumen beserta kolom yang terdeteksi dan data terkaitnya:

10. Selamat
Anda telah berhasil mengupload, memproses, dan melakukan penelusuran teks lengkap pada dokumen dengan Document AI Warehouse dan menggunakan pemroses di Document AI. Kami mendorong Anda untuk bereksperimen dengan dokumen lain dan mempelajari prosesor lain yang tersedia di platform.
Pembersihan
Anda dapat melakukan pembersihan berikut agar tidak menimbulkan biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini:
- Buka halaman konsol Document Warehouse, lalu hapus semua dokumen contoh yang Anda upload.
- Di konsol Google Cloud, buka halaman Document AI processors dan hapus pemroses contoh yang Anda buat.
- Di konsol Google Cloud, buka halaman APIs and Services, lalu nonaktifkan API Document AI Warehouse.
Pelajari Lebih Lanjut
Lanjutkan mempelajari Document AI dengan codelab lainnya berikut ini.
- Pengenalan Karakter Optik dengan Document AI
- Penguraian Formulir dengan Document AI (Python)
- Prosesor Terspesialisasi dengan Document AI (Python)
- Mengelola prosesor Document AI dengan Python
Resource
- Dokumentasi Document AI Warehouse
- The Future of Documents - Playlist YouTube
- Repositori Sampel Document AI
Lisensi
Karya ini dilisensikan berdasarkan Lisensi Umum Creative Commons Attribution 2.0.