1. Genel Bakış
Document AI Deposu nedir?
Document AI Warehouse, belgeleri ve yapılandırılmış meta verilerini depolamak, aramak, organize etmek ve analiz etmek için kullanılan bir platformdur. Belgeler, formlar ve faturalar gibi yapılandırılmış verilerin yanı sıra sözleşmeler ve araştırma belgeleri gibi yapılandırılmamış veriler de içerebilir. Belgelerin meta verileri, Document AI'daki işlemciler kullanılarak otomatik olarak ayıklanabilir veya alanlar ve etiketler aracılığıyla manuel olarak girilebilir.
Bu codelab'de, Document AI Deposu kullanıcı arayüzünü kullanarak belge almayı, işlemeyi ve aramayı öğreneceksiniz. Bu codelab için lisans sözleşmesi, kredi formu ve sipariş faturası dahil örnek PDF dokümanları sağlanmıştır.
Ön koşullar
Bu codelab'de, diğer Document AI codelab'lerinde sunulan içerikler temel alınır. Devam etmeden önce aşağıdaki dokümanları ve codelab'leri okumanız önerilir:
- Hızlı başlangıç: Document AI API'yi ayarlama
- Dokümanları Google Cloud Console kullanarak işleyin
- Document AI işlemcilerini Python ile yönetme
Neler öğreneceksiniz?
- Document AI Warehouse API'yi etkinleştirme
- Document AI Deposu'nda belge işlemcilerini yapılandırma
- Çeşitli PDF belgelerinde metin yükleme ve ayrıştırma
- Document AI Deposu'nda dokümanlar ve meta verileri arama
Gerekenler
2. Örnek dokümanları indirin
Bu codelab için lisans sözleşmesi, kredi formu ve sipariş faturası dahil örnek PDF dokümanları sağlanmıştır. Aşağıdaki örnek dokümanları bu codelab'de kullanmak için indirebilirsiniz.
Alternatif olarak, gsutil
kullanarak örnek belgeleri herkese açık Google Cloud Storage paketimizden indirebilirsiniz.
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .
Sonraki adımda bu örnek belgeleri yükleyecek, bunları farklı belge işlemcileriyle ayrıştıracak ve elde edilen belgeler ile meta verileri Document AI Atölyesi'nde depolayacaksınız.
3. Document AI Deposu API'sini etkinleştir
Document AI Atölyesi'ni kullanmaya başlamadan önce API'yi etkinleştirmeniz gerekir.
Cloud Console'u kullanma
- Tarayıcınızda Google Cloud Console'u açın.
- Google Cloud konsolunda API Kitaplığı'na giderek etkinleştirilebilecek API'lere ve hizmetlere göz atın.
- API Kitaplığı sayfasının üst kısmındaki arama çubuğunu kullanarak
Document AI Warehouse
araması yapın ve ardından gösterilen hizmeti tıklayın. - Google Cloud projenizde Document AI Warehouse API'yi etkinleştirmek için Etkinleştir düğmesini tıklayın.
Alternatif: gcloud KSA'yı kullanma
Alternatif olarak, API aşağıdaki gcloud
komutu kullanılarak da etkinleştirilebilir:
gcloud services enable contentwarehouse.googleapis.com
API başarıyla etkinleştirildiyse aşağıdakine benzer bir mesaj görürsünüz:
Operation "operations/..." finished successfully.
Artık Document AI Atölyesi'ni kullanabilirsiniz.
4. Document AI Deposu konsolunu görüntüle
Tarayıcınızdan https://documentwarehouse.cloud.google.com adresindeki (Google Cloud konsolunun dışındadır) Document AI Warehouse konsoluna gidin. Bu codelab'deki geri kalan adımları uygulayarak belgeleri yüklemek, işlemek ve aramak için Document AI Deposu konsolunu Google Cloud projenizle birlikte kullanacaksınız.
Document AI Deposu'nu ilk kez kullanıyorsanız ihtiyaçlarınıza göre projenizi ve ayarlarınızı yapılandırma hakkında daha fazla bilgi için Document AI Atölyesi Belgeleri'ne bakın.
5. Doküman şeması oluşturma
Belge şemaları, Document AI Atölyesi'nde depoladığınız belgelerin belge türünü ve alanlarını tanımlar. Yeni doküman yüklemeden önce bir şema oluşturmanız gerekir.
- Document AI Deposu konsolunda sayfanın sağ üst köşesindeki Yönetici düğmesini tıklayın.
- Soldaki gezinme çubuğunda Schema öğesini, ardından + Add new (+ Yeni ekle) düğmesini tıklayın.
- Şemanız için
Documents and Forms
gibi bir ad girin ve Schema Type olarak Document'ın (Doküman) seçildiğinden emin olun. Ardından, devam etmek için İleri düğmesini tıklayın. - Varsayılan JSON şeması tanımını olduğu gibi bırakabilirsiniz. Şema tanımı aşağıdaki gibi görünür:
{ "display_name": "Documents and Forms", "property_definitions": [], "document_is_folder": false, "description": "" }
- Ardından, doküman şemasını oluşturmayı tamamlamak için Bitti düğmesini tıklayın.
Bu adımları başarıyla tamamladıktan sonra, doküman şemanızın oluşturulduğunu belirten bir mesaj görürsünüz. Şemayı onaylamak için Belge Şemasını Görüntüle düğmesini ve ardından JSON sekmesini tıklayabilirsiniz. Aşağıdakine benzer bir şema açılır:
6. Belge işlemcileri oluşturma
Bu adımda, Document AI Atölyesi'ndeki farklı belge türlerinde tam metin araması yapmak için kullanabileceğiniz belge işlemcileri oluşturacaksınız.
- Google Cloud Console'da Document AI Platform'a genel bakış sayfasına gidin.
- İşlemcileri Keşfet'i tıklayın ve oluşturulacak işlemci türü olarak Belge OCR'yi seçin.
- Belge işlemciniz için
ocr
gibi bir ad ve tercih ettiğiniz bölgeyi girip Oluştur'u tıklayarak işlemcinizi oluşturun. - İşlemci Ayrıntıları sayfasında, daha sonra Document AI Atölyesi'nde bir işleyen yapılandırmak için kullanacağımız İşlemci Kimliği'ni kopyalayın.
Bu adımları tekrarlayın ve oluşturulacak belge işlemci türü olarak Form Ayrıştırıcı'yı seçin, işleyen adı olarak form
değerini belirtin.
Bu adımları tekrarlayın ve oluşturulacak belge işlemci türü olarak Fatura Ayrıştırıcı'yı seçin ve işleyen adı olarak invoice
değerini belirtin.
Bu adımları başarıyla tamamladıktan sonra, aşağıdakine benzer bir belge işlemcilerinin listesi gösterilir:
7. Belge işlemcilerini yapılandırma
Bu adımda, bir önceki adımda oluşturduğunuz işlemcilere başvurarak Document AI Atölyesi'nde belge işleyenleri yapılandıracaksınız.
- Document AI Deposu konsolunda, üstteki araç çubuğunda yer alan Yönetici düğmesini tıklayın.
- Soldaki gezinme çubuğunda Doc AI Processors (Doküman AI İşlemcileri) öğesini ve ardından + Yeni ekle düğmesini tıklayın.
- + Yeni İşlemci Ekle düğmesini tıklayın, ardından önceki adımdan bir ad ve işleyen kimliğini belirtin.
- Değişikliklerinizi kaydetmek için Kaydet düğmesini tıklayın.
+ Yeni İşleyen Ekle düğmesini (form ayrıştırıcı ve fatura ayrıştırıcı dahil) kullanarak diğer iki işlemciyi Document AI Atölyesi yapılandırmasına eklemek için bu adımları tekrarlayın. Ek bir şema eklemek yerine, + Yeni İşlemci Ekle düğmesini kullanarak diğer iki işlemciyi aynı Belge Şeması Kimliği altında eklediğinizden emin olun.
Bu adımları başarıyla tamamladıktan sonra, aşağıdakine benzer yapılandırılmış bir belge işlemcilerinin listesi gösterilir:
8. Örnek belgeleri yükleme ve işleme
Belgeleriniz için şema tanımladığınıza ve işlemcileri yapılandırdığınıza göre artık Document AI Deposu'na belge yükleyebilirsiniz.
- Document AI Deposu konsoluna dönün ve soldaki gezinme çubuğunda +Add new (+Yeni ekle) düğmesini tıkladıktan sonra Yeni belge yükle seçeneğini belirleyin.
- license-agreement.pdf dokümanını makinenizden yükleme widget'ına sürükleyin veya indirdiğiniz örnek dokümanlardan birini inceleyip seçin. Ardından, devam etmek için İleri düğmesini tıklayın.
- Document Schema (Belge Şeması) için daha önce oluşturduğunuz şemanın adını (ör. Documents and Forms) seçin. Doküman AI işlemci kimliği için önceki adımda yapılandırdığınız OCR belge işlemcisini seçin.
- Görünen Ad için varsayılan adı (ör. dosya adı) veya kendi özel doküman adınızı kullanabilirsiniz.
- Dokümanınızı yüklemek ve işlemek için Oluştur düğmesini tıklayın.
Document AI Deposu konsoluna dönün ve loan-form.pdf örnek belgesiyle bu adımları tekrarlayın. Daha önce yapılandırdığınız form
belge işlemcisini seçin.
Document AI Deposu konsoluna dönün ve invoice-sample.pdf örnek belgesini kullanarak bu adımları tekrarlayın. Daha önce yapılandırdığınız invoice
belge işlemcisini seçin.
Bu adımları başarıyla tamamladıktan sonra Document AI Deposu konsoluna dönerseniz aşağıdakine benzer bir işlenmiş belgelerin listesi görürsünüz:
9. Doküman arama ve keşfetme
Dokümanınızı Document AI Deposu'na yükleyip işlediğinize göre artık belgeler üzerinde tam metin araması yapabilirsiniz.
Document AI Deposu konsoluna, örnek dokümanlarda görünecek agreement
gibi bir arama terimi girin ve ardından Enter tuşuna basın. Yüklediğiniz farklı örnek dokümanlara ilişkin sonuçları görmek için mortgage
ve monitor
gibi başka arama sorgularını deneyebilirsiniz.
Sonuçlarda, söz konusu arama terimini içeren tüm dokümanları ve arama terimi vurgulanmış olarak doküman metninin bir özetini görürsünüz:
Görüntülemek için bir belgenin adını tıklayın.
AI Görünümü açma/kapatma düğmesini tıklayarak dokümanı, algılanan alanlar ve ilişkili verilerle birlikte görüntüleyin:
10. Tebrikler
Document AI Deposu'nu ve Document AI'da işlemcileri kullanarak dokümanları başarıyla yüklediniz, işlediniz ve tam metin araması gerçekleştirdiniz. Diğer belgelerle denemeler yapmanızı ve platformdaki diğer işleyenleri keşfetmenizi öneririz.
Temizleme
Bu eğitimde kullanılan kaynaklar için Google Cloud hesabınızın ücretlendirilmesini önlemek amacıyla aşağıdaki temizlik işlemini yapabilirsiniz:
- Belge Ambarı konsolu sayfasına gidin ve yüklediğiniz tüm örnek belgeleri silin.
- Google Cloud konsolunda Document AI işlemcileri sayfasına gidip oluşturduğunuz örnek işlemcileri silin.
- Google Cloud konsolunda API'ler ve Hizmetler sayfasına gidin ve Document AI Warehouse API'sini devre dışı bırakın.
Daha Fazla Bilgi
Diğer codelab'leri inceleyerek Document AI hakkında bilgi edinmeye devam edin.
- Document AI ile Optik Karakter Tanıma
- Document AI ile Form Ayrıştırma (Python)
- Document AI (Python) kullanan Özel İşlemciler
- Document AI işlemcilerini Python ile yönetme
Kaynaklar
Lisans
Bu çalışma, Creative Commons Attribution 2.0 Genel Amaçlı Lisans ile lisans altına alınmıştır.