Document AI Çalışma Alanı - Özel Belge Ayıklayıcı

1. Giriş

Document AI; belgeler ve e-postalar gibi yapılandırılmamış verileri alarak verilerin anlaşılmasını, analiz edilmesini ve kullanılmasını kolaylaştıran bir belge anlama çözümüdür.

Document AI Workbench sayesinde kendi eğitim verilerinizi kullanıp tamamen özelleştirilmiş modeller oluşturarak daha yüksek belge işleme doğruluğu elde edebilirsiniz.

Bu laboratuvarda Özel Belge Ayıklama işlemcisi oluşturacak, bir veri kümesini içe aktaracak, örnek belgeleri etiketleyecek ve işlemciyi eğiteceksiniz.

Bu laboratuvarda kullanılan belge veri kümesi, Kaggle'daki Sahte W-2 (ABD Vergi Formu) veri kümesinden, CC0: Kamu Alanı Lisansına sahip olan bir belgedir.

Ön koşullar

Bu codelab'de, diğer Document AI Codelab'lerinde sunulan içerikler temel alınır.

Devam etmeden önce aşağıdaki Codelab'leri tamamlamanız önerilir.

Neler öğreneceksiniz?

  • Özel Belge Ayıklayıcı işlemcisi oluşturun.
  • Ek açıklama aracını kullanarak Document AI eğitim verilerini etiketleyin.
  • Yeni bir model sürümü eğitin.
  • Yeni model sürümünün doğruluğunu değerlendirin.

Gerekenler

  • Bir Google Cloud projesi
  • Chrome veya Firefox gibi bir tarayıcı

2. Kurulum

Bu codelab'de, Tanıtım Codelab'de listelenen Document AI Kurulum adımlarını tamamladığınız varsayılır.

Devam etmeden önce lütfen aşağıdaki adımları tamamlayın:

3. İşlemci Oluşturma

Öncelikle bu laboratuvarda kullanmak için bir Özel Belge Ayıklayıcı işlemcisi oluşturmanız gerekir.

  1. Konsolda Document AI Overview (Document AI'a Genel Bakış) sayfasına gidin.

DocAIOverviewConsole

  1. Özel İşlemci Oluştur'u tıklayın ve Özel Belge Ayıklayıcı'yı seçin.

docai-custom-codelab-02

  1. Hedefe codelab-custom-extractor adını (veya hatırlayacağınız başka bir ad) verin ve listeden en yakın bölgeyi seçin.

docai-custom-codelab-03

  1. İşleyicinizi oluşturmak için Oluştur'u tıklayın. İşlemciye Genel Bakış sayfasını görüyor olmanız gerekir.

docai-custom-codelab-04

4. Veri Kümesi Oluştur

Veri işleyeni eğitmek için, ayıklamak istediğimiz varlıkları tespit etmesine yardımcı olacak eğitim ve test verilerini içeren bir veri kümesi oluşturmamız gerekir.

  1. İşlemciye Genel Bakış sayfasında Veri Kümenizi Yapılandırın'ı tıklayın.

docai-custom-codelab-04

  1. Şu anda Veri Kümesini Yapılandır sayfasında olmalısınız. Eğitim dokümanlarını ve etiketlerini depolamak için kendi paketinizi belirtmek istiyorsanız Show Advanced Options (Gelişmiş Seçenekleri Göster) seçeneğini tıklayın. Aksi takdirde, Devam'ı tıklamanız yeterlidir.

docai-custom-codelab-05

  1. Veri kümesinin oluşturulmasını bekleyin. Oluşturulan veri kümesi sizi Eğitim sayfasına yönlendirmelidir.

docai-custom-codelab-07

5. Test Dokümanı İçe Aktar

Şimdi örnek bir W2 pdf dosyasını veri kümemize aktaralım.

  1. Dokümanları İçe Aktar'ı tıklayın.

docai-custom-codelab-08

  1. Bu laboratuvarda kullanabileceğiniz örnek bir PDF'miz var. Aşağıdaki bağlantıyı kopyalayıp Kaynak Yolu kutusuna yapıştırın. "Verileri bölme"den ayrılın "Atanmamış" olarak . Diğer tüm kutuları işaretlemeyin. Import'u (İçe aktar) tıklayın.
cloud-samples-data/documentai/codelabs/custom/extractor/pdfs

docai-custom-codelab-09

  1. Dokümanın içe aktarılmasını bekleyin. Bu işlem 1 dakikadan daha kısa sürer.
  2. İçe aktarma işlemi tamamlandığında Eğitim sayfasında Dokümanı görürsünüz.

docai-custom-codelab-10

6. Etiket Oluştur

Yeni bir işlemci türü oluşturduğumuzdan, hangi alanları çıkarmak istediğimizi Document AI'a bildirmek için özel etiketler oluşturmamız gerekecek.

  1. Sol alt köşedeki Şemayı Düzenle'yi tıklayın.

docai-custom-codelab-11

  1. Schema Management konsolundasınız.

docai-custom-codelab-12

  1. Etiket Oluştur düğmesini kullanarak aşağıdaki etiketleri oluşturun.

Ad

Veri Türü

Tekrar

CONTROL_NUMBER

Sayı

Zorunlu birden çok

EMPL_SSN

Düz Metin

Zorunlu birden çok

EMPLR_ID_NUMBER

Düz Metin

Zorunlu birden çok

EMPLR_NAME_ADDRESS

Adres

Zorunlu birden çok

FEDERAL_INCOME_TAX_WH

Para

Zorunlu birden çok

SS_TAX_WH

Para

Zorunlu birden çok

SS_WAGES

Para

Zorunlu birden çok

WAGES_TIPS_OTHER_COMP

Para

Zorunlu birden çok

  1. Tamamlandığında Console aşağıdaki gibi görünecektir. İşiniz bittiğinde Kaydet'i tıklayın.

docai-custom-codelab-13

  1. Eğitim sayfasına dönmek için Geri okunu tıklayın. Oluşturduğumuz etiketlerin sol alt köşede göründüğüne dikkat edin.

docai-custom-codelab-14

7. Test Dokümanını Etiketle

Ardından, ayıklamak istediğimiz varlıklar için metin öğelerini ve etiketleri belirleyeceğiz. Bu etiketler, bu belirli belge yapısını ayrıştıracak ve doğru türleri tanımlayacak şekilde modelimizi eğitmek için kullanılacaktır.

  1. Etiketleme konsoluna girmek için daha önce içe aktardığımız dokümanı çift tıklayın. Şuna benzer bir görünümde olacaktır.

docai-custom-codelab-15

  1. "Sınırlayıcı Kutu"yu tıklayın. Araç, ardından "1173038" metnini vurgulayın ve CONTROL_NUMBER etiketini atayın. Etiket adlarını aramak için metin filtresini kullanabilirsiniz.

docai-custom-codelab-16

  1. Diğer CONTROL_NUMBER örneği için tamamlayın, etiketlendikten sonra şu şekilde görünecektir.

docai-custom-codelab-17

  1. Aşağıdaki metin değerlerinin tüm örneklerini vurgulayın ve uygun etiketleri atayın.

Etiket Adı

Metin

EMPLR_ID_NUMBER

24-3188810

FEDERAL_INCOME_TAX_WH

19127,2

SS_TAX_WH

5093,71

SS_WAGES

66584,46

WAGES_TIPS_OTHER_COMP

56081,18

EMPL_SSN

714-32-2105

EMPLR_NAME_ADDRESS

Adams, Chase and Gilbert Inc 972 Gonzalez Dam South Katherine NC 95869-5178

  1. Tamamlandığında etiketlenen belge şu şekilde görünmelidir. Dokümandaki sınırlayıcı kutuyu veya sol taraftaki menüde etiket adını/değerini tıklayarak bu etiketlerde ayarlamalar yapabileceğinizi unutmayın. Etiketleme işlemini tamamladığınızda Etiketli Olarak İşaretle'yi tıklayın, ardından Veri Kümesi yönetim konsoluna dönün.

docai-custom-codelab-20

8. Eğitim Setine Doküman Ata

Şimdi Veri Kümesi yönetim konsoluna geri dönmüş olmanız gerekir. Etiketli ve Etiketsiz doküman sayısının ve etiket başına örnek sayısının değiştiğine dikkat edin.

docai-custom-codelab-21

  1. Bu belgeyi "Eğitim" veya "Test" yapın ayarlandı. Belgeyi, Sete Ata'yı ve ardından Eğitim'i tıklayın.

docai-custom-codelab-22

  1. Veri Bölme sayılarının değiştiğini fark edeceksiniz.

docai-custom-codelab-23

9. Önceden Etiketlenmiş Verileri İçe Aktar

Document AI Özel İşlemcileri için hem eğitim hem de test setlerinde en az 10 belge ve her grupta her etiketin 10 örneği bulunmalıdır.

En iyi performans için her etiketten en az 50 örnek olacak şekilde, her grupta en az 50 dokümanın olması önerilir. Daha fazla eğitim verisi, genellikle daha yüksek doğruluk anlamına gelir.

Tüm dokümanları manuel olarak etiketlemek uzun sürer. Bu nedenle, bu laboratuvar için içe aktarabileceğiniz önceden etiketlenmiş bazı dokümanlarımız mevcuttur.

Önceden etiketlenmiş doküman dosyalarını Document.json biçiminde içe aktarabilirsiniz. Bunlar, bir işleyenin çağrılması ve Human in the Loop (HITL) (Döngüdeki İnsan İnsanı) aracını kullanarak doğruluğun doğrulanmasıyla sağlanabilir.

negatif bir kenara

NOT: Önceden etiketlenmiş verileri içe aktarırken bir model eğitiminden önce ek açıklamaları manuel olarak incelemeniz kesinlikle önerilir.

  1. Dokümanları İçe Aktar'ı tıklayın.

docai-custom-codelab-24

  1. Aşağıdaki Cloud Storage yolunu kopyalayıp yapıştırın ve Eğitim grubuna atayın.
cloud-samples-data/documentai/codelabs/custom/extractor/training
  1. Başka Bir Klasör Ekle'yi tıklayın. Ardından aşağıdaki Cloud Storage yolunu Kopyalayın/Yapıştırın ve Test grubuna atayın.
cloud-samples-data/documentai/codelabs/custom/extractor/test

docai-custom-codelab-25

  1. İçe Aktar'ı tıklayın ve dokümanların içe aktarılmasını bekleyin. İşlenecek daha fazla belge olduğu için bu işlem geçen zamandan daha uzun sürecek. Bu işlem yaklaşık 6 dakika sürer. Bu sayfadan ayrılıp daha sonra geri dönebilirsiniz.

docai-custom-codelab-26

  1. İşlem tamamlandığında Eğitim sayfasında belgeleri göreceksiniz.

docai-custom-codelab-27

10. Modeli Eğitme

Artık Özel Belge Ayıklayıcımızı eğitmeye hazırız.

  1. Yeni Sürümü Eğit'i tıklayın

docai-custom-codelab-28

  1. Kullandığınız sürüme kolay akılda kalacak bir ad verin (ör. codelab-custom-1). "Eğitim Yöntemi" için "Sıfırdan eğit"i seçin.

docai-custom-codelab-29

  1. (İsteğe bağlı) Veri kümenizdeki etiketlerle ilgili metrikleri görmek için Etiket İstatistiklerini Görüntüle'yi de seçebilirsiniz.

docai-custom-codelab-30

  1. Eğitim sürecini başlatmak için Eğitimi Başlat'ı tıklayın. Veri kümesi yönetimi sayfasına yönlendirilirsiniz. Eğitim durumunu sağ tarafta görebilirsiniz. Eğitimin tamamlanması birkaç saat sürer. Bu sayfadan ayrılıp daha sonra geri dönebilirsiniz.

docai-custom-codelab-31

  1. Sürüm adını tıklarsanız Sürümleri Yönet sayfasına yönlendirilirsiniz. Burada, Sürüm Kimliği ve Eğitim İşi'nin mevcut durumu gösterilir.

docai-custom-codelab-32

11. Yeni Model Sürümünü Test Etme

Eğitim İşi tamamlandıktan sonra (testlerim yaklaşık 1 saat sürdü), artık yeni model sürümünü test edebilir ve tahminler için kullanmaya başlayabilirsiniz.

  1. Sürümleri Yönet sayfasına gidin. Burada mevcut durumu ve F1 puanını görebilirsiniz.

docai-custom-codelab-33

  1. Bu model sürümünü kullanılabilmesi için dağıtmamız gerekiyor. Sağ taraftaki dikey noktaları tıklayın ve Sürümü Dağıt'ı seçin.

docai-custom-codelab-34

  1. Sürümün dağıtılmasını beklerken pop-up pencerede Dağıt'ı seçin. Bu işlemin tamamlanması birkaç dakika sürer. Dağıtımdan sonra bu sürümü Varsayılan Sürüm olarak ayarlayabilirsiniz.

docai-custom-codelab-35

  1. Dağıtım tamamlandıktan sonra Değerlendir sekmesine gidin. Bu sayfada tüm dokümanın yanı sıra tek tek etiketler için F1 puanı, Hassasiyet ve Geri Çağırma gibi değerlendirme metriklerini görüntüleyebilirsiniz. Bu metrikler hakkında daha fazla bilgiye AutoML Belgeleri'nden ulaşabilirsiniz.

docai-custom-codelab-36

  1. Aşağıda bağlantısı verilen PDF dosyasını indirin. Bu, Eğitim veya Test setine dahil edilmeyen örnek bir W2'dir.

  1. Test Dokümanı Yükle'yi tıklayıp PDF dosyasını seçin.
  2. Çıkarılan varlıklar aşağıdakine benzer bir görünümde olacaktır.

docai-custom-codelab-37

12. İsteğe bağlı: Yeni içe aktarılan dokümanları otomatik olarak etiketleme

Eğitilmiş bir işlemci sürümünü dağıttıktan sonra, yeni dokümanları içe aktarırken etiketleme işleminde zaman kazanmak için Otomatik etiketleme özelliğini kullanabilirsiniz.

  1. Tren sayfasında Dokümanları İçe Aktar'ı tıklayın.
  2. Aşağıdaki yolunu kopyalayıp yapıştırın. Bu dizin 5 etiketsiz W2 PDF içerir. Veri bölme açılır listesinden Eğitim'i seçin.
    cloud-samples-data/documentai/Custom/W2/AutoLabel
    
  3. Otomatik etiketleme bölümünde Otomatik etiketlemeyle içe aktar onay kutusunu seçin.
  4. Dokümanları etiketlemek için mevcut bir işlemci sürümünü seçin.
  • Örneğin: 2af620b2fd4d1fcf
  1. İçe Aktar'ı tıklayın ve dokümanların içe aktarılmasını bekleyin. Bu sayfadan ayrılıp daha sonra geri dönebilirsiniz.
  • İşlem tamamlandığında belgeler, Eğitim sayfasındaki Otomatik etiketlenmiş bölümünde görünür.
  1. Otomatik olarak etiketlenen belgeleri, etiketli olarak işaretlemeden eğitim veya test amacıyla kullanamazsınız. Otomatik olarak etiketlenmiş dokümanları görüntülemek için Otomatik etiketli bölümüne gidin.
  2. Etiketleme konsoluna gireceğiniz ilk dokümanı seçin.
  3. Etiketleri, sınırlayıcı kutuları ve değerleri kontrol ederek doğru olduklarından emin olun. Dahil edilmeyen tüm değerleri etiketleyin.
  4. İşlemi tamamladığınızda Etiketli olarak işaretle'yi seçin.
  5. Otomatik olarak etiketlenen her belge için etiket doğrulamasını tekrarlayın, ardından verileri eğitimde kullanmak üzere Eğitim sayfasına dönün.

13. Sonuç

Tebrikler, Özel Belge Ayıklayıcı işlemcisini eğitmek için Document AI'ı başarıyla kullandınız. Artık bu işlemciyi, herhangi bir Uzman İşleyen'de olduğu gibi bu biçimdeki dokümanları ayrıştırmak için kullanabilirsiniz.

İşleme yanıtının nasıl ele alınacağını incelemek için Uzman İşleyenler Codelab'e bakabilirsiniz.

Temizleme

Bu eğiticide kullanılan kaynaklar için Google Cloud hesabınızın ücretlendirilmesini önlemek amacıyla:

  • Cloud Console'da Kaynakları yönetin sayfasına gidin.
  • Proje listesinden projenizi seçin ve ardından Sil'i tıklayın.
  • İletişim kutusuna proje kimliğini yazın ve projeyi silmek için Kapat'ı tıklayın.

Kaynaklar

Lisans

Bu çalışma, Creative Commons Attribution 2.0 Genel Amaçlı Lisans ile lisans altına alınmıştır.