Document AI Çalışma Alanı - Özel Belge Ayıklayıcı

1. Giriş

Document AI, belgeler ve e-postalar gibi yapılandırılmamış verileri alıp bu verileri anlamayı, analiz etmeyi ve kullanmayı kolaylaştıran bir belge anlama çözümüdür.

Document AI Workbench ile kendi eğitim verilerinizi kullanarak tamamen özelleştirilmiş modeller oluşturabilir ve belge işleme doğruluğunu artırabilirsiniz.

Bu laboratuvarda, özel belge ayıklama işlemcisi oluşturacak, veri kümesi içe aktaracak, örnek belgeleri etiketleyecek ve işlemciyi eğiteceksiniz.

Bu laboratuvarda kullanılan belge veri kümesi, Kaggle'daki Fake W-2 (ABD Vergi Formu) veri kümesinden alınmıştır ve CC0: Public Domain License (Kamu Malı Lisansı) ile lisanslanmıştır.

Ön koşullar

Bu codelab, diğer Document AI codelab'lerinde sunulan içeriklere dayanmaktadır.

Devam etmeden önce aşağıdaki Codelab'leri tamamlamanız önerilir.

Neler öğreneceksiniz?

  • Özel Doküman Çıkarma İşlemcisi oluşturun.
  • Ek açıklama aracını kullanarak Document AI eğitim verilerini etiketleyin.
  • Yeni bir model sürümü eğitin.
  • Yeni model sürümünün doğruluğunu değerlendirin.

Gerekenler

2. Hazırlanma

Bu codelab'de, Giriş Codelab'inde listelenen Document AI kurulum adımlarını tamamladığınız varsayılır.

Lütfen devam etmeden önce aşağıdaki adımları tamamlayın:

3. İşleyici oluşturma

Bu laboratuvarda kullanmak üzere önce özel bir belge ayıklayıcı işlemcisi oluşturmanız gerekir.

  1. Konsolda Document AI'a Genel Bakış sayfasına gidin.

DocAIOverviewConsole

  1. Özel İşleyici Oluştur'u tıklayın ve Özel Doküman Ayıklayıcı'yı seçin.

docai-custom-codelab-02

  1. codelab-custom-extractor adını verin (veya hatırlayacağınız başka bir ad) ve listede size en yakın bölgeyi seçin.

docai-custom-codelab-03

  1. İşlemcinizi oluşturmak için Oluştur'u tıklayın. Ardından İşlemciye Genel Bakış sayfasını görürsünüz.

docai-custom-codelab-04

4. Veri kümesi oluşturma

İşlemcimizi eğitmek için, işlemcinin çıkarmak istediğimiz öğeleri tanımlamasına yardımcı olacak eğitim ve test verileri içeren bir veri kümesi oluşturmamız gerekir.

  1. İşlemciye Genel Bakış sayfasında Veri Kümenizi Yapılandırın'ı tıklayın.

docai-custom-codelab-04

  1. Şimdi Veri Kümesini Yapılandır sayfasında olmalısınız. Eğitim dokümanlarını ve etiketlerini depolamak için kendi paketlerinizi belirtmek istiyorsanız Gelişmiş Seçenekleri Göster'i tıklayın. Aksi takdirde Devam'ı tıklayın.

docai-custom-codelab-05

  1. Veri kümesinin oluşturulmasını bekleyin. Ardından Eğitim sayfasına yönlendirilirsiniz.

docai-custom-codelab-07

5. Test dokümanı içe aktarma

Şimdi, örnek bir W2 PDF'sini veri kümemize aktaralım.

  1. Belgeleri İçe Aktar'ı tıklayın.

docai-custom-codelab-08

  1. Bu laboratuvarda kullanabileceğiniz örnek bir PDF'miz var. Aşağıdaki bağlantıyı kopyalayıp Kaynak Yolu kutusuna yapıştırın. Şimdilik "Veri dağıtımı"nı "Atanmamış" olarak bırakın. Diğer tüm kutuları işaretlemeyin. İçe aktar'ı tıklayın.
cloud-samples-data/documentai/codelabs/custom/extractor/pdfs

docai-custom-codelab-09

  1. Belgenin içe aktarılmasını bekleyin. Bu işlem 1 dakikadan kısa sürer.
  2. İçe aktarma işlemi tamamlandığında dokümanı Eğitim sayfasında görürsünüz.

docai-custom-codelab-10

6. Etiket oluşturma

Yeni bir işlemci türü oluşturduğumuz için Document AI'a hangi alanları ayıklamak istediğimizi bildirmek üzere özel etiketler oluşturmamız gerekir.

  1. Sol alt köşedeki Şemayı Düzenle'yi tıklayın.

docai-custom-codelab-11

  1. Şema Yönetimi konsoluna yönlendirilirsiniz.

docai-custom-codelab-12

  1. Etiket Oluştur düğmesini kullanarak aşağıdaki etiketleri oluşturun.

Ad

Veri Türü

Oluşum

CONTROL_NUMBER

Sayı

Gerekli kat

EMPL_SSN

Düz Metin

Gerekli kat

EMPLR_ID_NUMBER

Düz Metin

Gerekli kat

EMPLR_NAME_ADDRESS

Adres

Gerekli kat

FEDERAL_INCOME_TAX_WH

Para

Gerekli kat

SS_TAX_WH

Para

Gerekli kat

SS_WAGES

Para

Gerekli kat

WAGES_TIPS_OTHER_COMP

Para

Gerekli kat

  1. Tamamlandığında konsol aşağıdaki gibi görünmelidir. İşlemi tamamladığınızda Kaydet'i tıklayın.

docai-custom-codelab-13

  1. Eğitim sayfasına dönmek için geri okunu tıklayın. Oluşturduğumuz etiketlerin sol alt köşede göründüğünü fark edebilirsiniz.

docai-custom-codelab-14

7. Test Dokümanını Etiketleme

Ardından, çıkarmak istediğimiz varlıklar için metin öğelerini ve etiketleri belirleyeceğiz. Bu etiketler, modelimizi bu belirli belge yapısını ayrıştıracak ve doğru türleri tanımlayacak şekilde eğitmek için kullanılır.

  1. Etiketleme konsoluna girmek için daha önce içe aktardığımız belgeyi çift tıklayın. Şuna benzer bir görünümde olacaktır.

docai-custom-codelab-15

  1. "Sınırlayıcı Kutu" aracını tıklayın, ardından "1173038" metnini vurgulayın ve CONTROL_NUMBER etiketini atayın. Etiket adlarını aramak için metin filtresini kullanabilirsiniz.

docai-custom-codelab-16

  1. Diğer CONTROL_NUMBER örneği için de aynı işlemi yapın. Etiketlendikten sonra aşağıdaki gibi görünmelidir.

docai-custom-codelab-17

  1. Aşağıdaki metin değerlerinin tüm örneklerini vurgulayın ve uygun etiketleri atayın.

Etiket Adı

Metin

EMPLR_ID_NUMBER

24-3188810

FEDERAL_INCOME_TAX_WH

19127.2

SS_TAX_WH

5093,71

SS_WAGES

66584.46

WAGES_TIPS_OTHER_COMP

56081.18

EMPL_SSN

714-32-2105

EMPLR_NAME_ADDRESS

Adams, Chase and Gilbert Inc 972 Gonzalez Dam South Katherine NC 95869-5178

  1. Etiketlenen belge tamamlandığında aşağıdaki gibi görünmelidir. Belgedeki sınırlayıcı kutuyu veya sol taraftaki menüde etiket adını/değerini tıklayarak bu etiketlerde düzenleme yapabilirsiniz. Etiketleme işlemini tamamladığınızda Etiketlendi Olarak İşaretle'yi tıklayın ve Veri kümesi yönetim konsoluna geri dönün.

docai-custom-codelab-20

8. Belgeyi Eğitim Setine Atama

Şimdi Veri kümesi yönetim konsoluna geri dönmüş olmanız gerekir. Etiketli ve etiketsiz belgelerin sayısının ve etiket başına örnek sayısının değiştiğini fark edeceksiniz.

docai-custom-codelab-21

  1. Bu belgeyi "Eğitim" veya "Test" kümesine atamamız gerekiyor. Belgeyi, Sete Ata'yı ve ardından Eğitim'i tıklayın.

docai-custom-codelab-22

  1. Veri dağılımı sayılarının değiştiğini fark edin.

docai-custom-codelab-23

9. Önceden Etiketlenmiş Verileri İçe Aktarma

Document AI Özel İşlemcileri için hem eğitim hem de test kümelerinde en az 10 belge ve her kümede her etiketten 10 örnek bulunması gerekir.

En iyi performansı elde etmek için her sette en az 50 belge ve her etiketten 50 örnek olması önerilir. Daha fazla eğitim verisi genellikle daha yüksek doğruluk anlamına gelir.

Tüm belgeleri manuel olarak etiketlemek uzun zaman alacağından bu laboratuvar için içe aktarabileceğiniz önceden etiketlenmiş bazı belgelerimiz var.

Önceden etiketlenmiş doküman dosyalarını Document.json biçiminde içe aktarabilirsiniz. Bunlar, bir işlemci çağrılıp Human in the Loop (HITL) kullanılarak doğruluğu onaylanan sonuçlar olabilir.

aside negative

NOT: Önceden etiketlenmiş verileri içe aktarırken, model eğitilmeden önce notları manuel olarak incelemeniz şiddetle tavsiye edilir.

  1. Belgeleri İçe Aktar'ı tıklayın.

docai-custom-codelab-24

  1. Aşağıdaki Cloud Storage yolunu kopyalayıp yapıştırın ve Eğitim kümesine atayın.
cloud-samples-data/documentai/codelabs/custom/extractor/training
  1. Başka bir klasör ekle'yi tıklayın. Ardından aşağıdaki Cloud Storage yolunu kopyalayıp yapıştırın ve Test (Test) kümesine atayın.
cloud-samples-data/documentai/codelabs/custom/extractor/test

docai-custom-codelab-25

  1. İçe aktar'ı tıklayın ve belgelerin içe aktarılmasını bekleyin. İşlenecek daha fazla belge olduğundan bu işlem, son seferkinden daha uzun sürer. Bu işlem yaklaşık 6 dakika sürer. Bu sayfadan ayrılabilir ve daha sonra geri dönebilirsiniz.

docai-custom-codelab-26

  1. İşlem tamamlandığında belgeleri Eğitim sayfasında görürsünüz.

docai-custom-codelab-27

10. Modeli eğitme

Artık özel belge ayıklayıcımızı eğitmeye başlayabiliriz.

  1. Yeni Sürümü Eğit'i tıklayın.

docai-custom-codelab-28

  1. Sürümünüze codelab-custom-1 gibi hatırlayacağınız bir ad verin. "Eğitim Yöntemi" için "Sıfırdan eğit"i seçin.

docai-custom-codelab-29

  1. (İsteğe bağlı) Veri kümenizdeki etiketlerle ilgili metrikleri görmek için Etiket İstatistiklerini Görüntüle'yi de seçebilirsiniz.

docai-custom-codelab-30

  1. Eğitim sürecini başlatmak için Eğitimi Başlat'ı tıklayın. Veri kümesi yönetimi sayfasına yönlendirilirsiniz. Eğitim durumunu sağ tarafta görebilirsiniz. Eğitimin tamamlanması birkaç saat sürer. Bu sayfadan ayrılıp daha sonra geri dönebilirsiniz.

docai-custom-codelab-31

  1. Sürüm adını tıkladığınızda, sürüm kimliğini ve eğitim işinin mevcut durumunu gösteren Sürümleri Yönet sayfasına yönlendirilirsiniz.

docai-custom-codelab-32

11. Yeni model sürümünü test etme

Eğitim işi tamamlandıktan sonra (testlerimde yaklaşık 1 saat sürdü) yeni model sürümünü test edebilir ve tahminler için kullanmaya başlayabilirsiniz.

  1. Sürümleri Yönet sayfasına gidin. Burada mevcut durumu ve F1 puanını görebilirsiniz.

docai-custom-codelab-33

  1. Bu model sürümünün kullanılabilmesi için önce dağıtılması gerekir. Sağ taraftaki dikey noktaları tıklayın ve Sürümü Dağıt'ı seçin.

docai-custom-codelab-34

  1. Sürümün dağıtılmasını bekleyin ve pop-up pencereden Dağıt'ı seçin. Bu işlemin tamamlanması birkaç dakika sürer. Bu sürüm dağıtıldıktan sonra Varsayılan Sürüm olarak da ayarlayabilirsiniz.

docai-custom-codelab-35

  1. Dağıtım tamamlandıktan sonra Değerlendir sekmesine gidin. Bu sayfada, F1 puanı, hassasiyet ve geri çağırma gibi değerlendirme metriklerini hem tam belge hem de tek tek etiketler için görüntüleyebilirsiniz. Bu metrikler hakkında daha fazla bilgiyi AutoML belgelerinde bulabilirsiniz.

docai-custom-codelab-36

  1. Aşağıda bağlantısı verilen PDF dosyasını indirin. Bu, eğitim veya test kümesine dahil edilmemiş bir örnek W2'dir.

  1. Upload Test Document'ı (Test Belgesi Yükle) tıklayın ve PDF dosyasını seçin.
  2. Ayıklanan öğeler aşağıdaki gibi görünmelidir.

docai-custom-codelab-37

12. İsteğe bağlı: Yeni içe aktarılan dokümanları otomatik olarak etiketleme

Eğitilmiş bir işlemci sürümünü dağıttıktan sonra, yeni dokümanları içe aktarırken etiketleme konusunda zaman kazanmak için otomatik etiketleme özelliğini kullanabilirsiniz.

  1. Eğit sayfasında Belgeleri İçe Aktar'ı tıklayın.
  2. Aşağıdaki yolunu kopyalayıp yapıştırın. Bu dizinde 5 adet etiketsiz W2 PDF'si var. Veri bölme açılır listesinden Eğitim'i seçin.
    cloud-samples-data/documentai/Custom/W2/AutoLabel
    
  3. Otomatik etiketleme bölümünde Otomatik etiketlemeyle içe aktar onay kutusunu işaretleyin.
  4. Dokümanları etiketlemek için mevcut bir işlemci sürümü seçin.
  • Örneğin: 2af620b2fd4d1fcf
  1. İçe aktar'ı tıklayın ve belgelerin içe aktarılmasını bekleyin. Bu sayfadan ayrılıp daha sonra geri dönebilirsiniz.
  • İşlem tamamlandığında dokümanlar, Otomatik etiketli bölümündeki Eğit sayfasında görünür.
  1. Otomatik olarak etiketlenmiş belgeleri, etiketlenmiş olarak işaretlemeden eğitim veya test için kullanamazsınız. Otomatik etiketli belgeleri görüntülemek için Otomatik etiketli bölümüne gidin.
  2. Etiketleme konsoluna girmek için ilk belgeyi seçin.
  3. Etiketlerin, sınırlayıcı kutuların ve değerlerin doğru olduğundan emin olun. Atlanan değerleri etiketleyin.
  4. İşiniz bittiğinde Etiketlendi olarak işaretle'yi seçin.
  5. Otomatik etiketlenen her belge için etiket doğrulama işlemini tekrarlayın, ardından verileri eğitim için kullanmak üzere Eğit sayfasına dönün.

13. Sonuç

Tebrikler! Özel Doküman Çıkarma İşlemcisi'ni eğitmek için Document AI'ı başarıyla kullandınız. Artık bu işlemciyi, diğer tüm Özel İşlemcilerde olduğu gibi bu biçimdeki dokümanları ayrıştırmak için kullanabilirsiniz.

İşleme yanıtının nasıl ele alınacağını incelemek için Specialized Processors Codelab'e bakabilirsiniz.

Temizleme

Bu eğiticide kullanılan kaynaklar için Google Cloud hesabınızın ücretlendirilmesini istemiyorsanız:

  • Cloud Console'da Kaynakları yönetin sayfasına gidin.
  • Proje listesinde projenizi seçin ve Sil'i tıklayın.
  • İletişim kutusunda proje kimliğini yazın ve projeyi silmek için Kapat'ı tıklayın.

Kaynaklar

Lisans

Bu çalışma, Creative Commons Attribution 2.0 Genel Amaçlı Lisans ile lisans altına alınmıştır.