Document AI Workbench – חילוץ מסמכים בהתאמה אישית

1. מבוא

Document AI הוא פתרון להבנת מסמכים שלוקח נתונים לא מובנים, כמו מסמכים, אימיילים וכו', כדי שיהיה קל יותר להבין, לנתח ולצרוך את הנתונים.

באמצעות Document AI Workbench, תוכלו ליצור מודלים מותאמים אישית באופן מלא בהתאם לנתוני האימון שלכם, וכך לשפר את הדיוק של עיבוד המסמכים.

בשיעור ה-Lab הזה תצרו מעבד לחילוץ מסמכים בהתאמה אישית, תייבאו מערך נתונים, תתייגו מסמכים לדוגמה ותאמנים את המעבד.

מערך הנתונים של המסמכים שנעשה בו שימוש בשיעור ה-Lab הזה הוא ממערך נתונים מסוג Fake W-2 (טופס מס של ארה"ב) ב-Kaggle עם רישיון CC0: Public Domain License.

דרישות מוקדמות

ה-Codelab הזה מתבסס על תוכן שמוצג ב-Document AI Codelabs אחרים.

מומלץ לבצע את הפעולות הבאות ב-Codelabs לפני שממשיכים.

מה תלמדו

  • יצירת מעבד חילוץ מסמכים בהתאמה אישית.
  • אפשר להוסיף תוויות לנתוני אימון של Document AI באמצעות כלי ההערות.
  • אימון גרסה חדשה של מודל.
  • להעריך את מידת הדיוק של גרסת המודל החדשה.

מה צריך להכין

  • פרויקט ב-Google Cloud
  • דפדפן, כמו Chrome או Firefox

2. בתהליך ההגדרה

פלטפורמת ה-Codelab הזו מבוססת על ההנחה שהשלמת את השלבים להגדרת Document AI שמפורטים ב-Introductionory Codelab.

לפני שממשיכים, צריך לבצע את הפעולות הבאות:

3. יצירת מעבד

קודם צריך ליצור מעבד מידע מותאם אישית לחילוץ מסמכים כדי להשתמש בו בשיעור ה-Lab הזה.

  1. נכנסים לדף Document AI Overview במסוף.

DocAIOverviewConsole

  1. לוחצים על יצירת מעבד מותאם אישית ובוחרים באפשרות חלץ מסמכים בהתאמה אישית.

docai-custom-codelab-02

  1. נותנים לאזור את השם codelab-custom-extractor (או משהו אחר שתזכרו) ובוחרים את האזור הקרוב ביותר מהרשימה.

docai-custom-codelab-03

  1. לוחצים על יצירה כדי ליצור את המעבד. בשלב זה אמור להופיע הדף 'סקירה כללית של מעבד המידע'.

docai-custom-codelab-04

4. יצירת מערך נתונים

כדי לאמן את המעבד, נצטרך ליצור מערך נתונים עם נתוני אימון ובדיקה שיעזרו למעבד לזהות את הישויות שרוצים לחלץ.

  1. בדף 'סקירה כללית של מעבד המידע', לוחצים על הגדרת מערך הנתונים.

docai-custom-codelab-04

  1. בשלב זה אתם אמורים להופיע בדף Configure Dataset. כדי לציין קטגוריה משלכם לאחסון מסמכי האימון והתוויות, לוחצים על Show Advanced Options. אחרת, פשוט לוחצים על המשך.

docai-custom-codelab-05

  1. ממתינים ליצירת מערך הנתונים ואז הוא יפנה אתכם לדף אימון.

docai-custom-codelab-07

5. ייבוא מסמך בדיקה

עכשיו נייבא קובץ PDF לדוגמה של W2 למערך הנתונים.

  1. לוחצים על ייבוא מסמכים.

docai-custom-codelab-08

  1. יש לנו קובץ PDF לדוגמה לשימוש בשיעור ה-Lab הזה. מעתיקים את הקישור הבא ומדביקים אותו בתיבה נתיב המקור. עזיבת 'חלוקת הנתונים' בתור 'לא הוקצה' בינתיים. משאירים את כל שאר התיבות לא מסומנות. לוחצים על Import.
cloud-samples-data/documentai/codelabs/custom/extractor/pdfs

docai-custom-codelab-09

  1. ממתינים לייבוא המסמך. התהליך יימשך פחות מדקה.
  2. כשהייבוא יסתיים, המסמך אמור להופיע בדף אימון.

docai-custom-codelab-10

6. יצירת תוויות

מכיוון שאנחנו יוצרים סוג מעבד מידע חדש, נצטרך ליצור תוויות מותאמות אישית כדי להגדיר ל-Document AI אילו שדות אנחנו רוצים לחלץ.

  1. לוחצים על Edit Schema (עריכת הסכימה) בפינה הימנית התחתונה.

docai-custom-codelab-11

  1. עכשיו אתם אמורים להיות במסוף Schema Management.

docai-custom-codelab-12

  1. יוצרים את התוויות הבאות באמצעות הלחצן Create Label.

שם

סוג הנתונים

מופע

CONTROL_NUMBER

מספר

מספר פריטים נדרשים

EMPL_SSN

טקסט פשוט

מספר פריטים נדרשים

EMPLR_ID_NUMBER

טקסט פשוט

מספר פריטים נדרשים

EMPLR_NAME_ADDRESS

כתובת

מספר פריטים נדרשים

FEDERAL_INCOME_TAX_WH

כסף

מספר פריטים נדרשים

SS_TAX_WH

כסף

מספר פריטים נדרשים

SS_WAGES

כסף

מספר פריטים נדרשים

WAGES_TIPS_OTHER_COMP

כסף

מספר פריטים נדרשים

  1. המסוף אמור להיראות כך בסיום התהליך. כשמסיימים, לוחצים על שמירה.

docai-custom-codelab-13

  1. לוחצים על החץ 'חזרה' כדי לחזור לדף אימון. שימו לב שהתוויות שיצרנו מופיעות בפינה הימנית התחתונה.

docai-custom-codelab-14

7. הוספת תווית למסמך הבדיקה

בשלב הבא נזהה רכיבי טקסט ותוויות עבור הישויות שרוצים לחלץ. התוויות האלה ישמשו לאימון המודל שלנו לניתוח מבנה המסמך הספציפי הזה ולזהות את הסוגים הנכונים.

  1. לוחצים לחיצה כפולה על המסמך שייבאנו קודם כדי להיכנס למסוף התוויות. הוא אמור להיראות כך.

docai-custom-codelab-15

  1. לוחצים על "תיבת הדו-שיח" כלי, ולאחר מכן מדגישים את הטקסט '1173038' ומקצים את התווית CONTROL_NUMBER. אפשר להשתמש במסנן הטקסט כדי לחפש שמות של תוויות.

docai-custom-codelab-16

  1. הושלם עבור המופע השני של CONTROL_NUMBER הוא אמור להיראות כך לאחר התווית.

docai-custom-codelab-17

  1. מדגישים את כל המופעים של ערכי הטקסט הבאים ומקצים את התוויות המתאימות.

שם התווית

טקסט

EMPLR_ID_NUMBER

24-3188810

FEDERAL_INCOME_TAX_WH

19127.2

SS_TAX_WH

5093.71

SS_WAGES

66584.46

WAGES_TIPS_OTHER_COMP

18.56081

EMPL_SSN

714-32-2105

EMPLR_NAME_ADDRESS

Adams, Chase and Gilbert Inc 972 Gonzalez Ram South Katherine NC 95869-5178

  1. המסמך עם התווית אמור להיראות כך בסיום התהליך. הערה: אפשר לבצע שינויים בתוויות האלה על ידי לחיצה על התיבה התוחמת במסמך או על השם/הערך של התווית בתפריט בצד ימין. כשמסיימים להוסיף תוויות, לוחצים על סימון כתווית וחוזרים למסוף הניהול של מערך הנתונים.

docai-custom-codelab-20

8. הקצאת מסמך לערכת אימון

עכשיו אתם אמורים להיות שוב במסוף הניהול של מערך הנתונים. שימו לב שמספר המסמכים המתויגים וללא תווית ומספר המופעים של כל תווית השתנו.

docai-custom-codelab-21

  1. צריך להקצות את המסמך הזה לאחד ה"הדרכה" או 'בדיקה' הוגדרה. לוחצים על המסמך, לוחצים על הקצאה לסט ואז על אימון.

docai-custom-codelab-22

  1. שימו לב שמספרי פיצול הנתונים השתנו.

docai-custom-codelab-23

9. ייבוא נתונים שסומנו מראש

לשימוש במעבדים מותאמים אישית של Document AI נדרשים לפחות 10 מסמכים בערכות האימון ובערכות הבדיקה, וכן 10 מופעים של כל תווית בכל קבוצה.

כדי להשיג את הביצועים הכי טובים, מומלץ לכלול לפחות 50 מסמכים בכל קבוצה, עם 50 מופעים של כל תווית. בדרך כלל, כמות גדולה יותר של נתוני אימון מקבילה לדיוק גבוה יותר.

תהליך התיוג הידני של כל המסמכים יימשך זמן רב, כך שיש לנו כמה מסמכים מתויגים מראש שתוכלו לייבא לשיעור ה-Lab הזה.

ניתן לייבא קובצי מסמכים מתויגים מראש בפורמט Document.json. התוצאות האלה יכולות להיות תוצאה של קריאה למעבד ואימות של רמת הדיוק באמצעות Human in the Loop (HITL).

לא שלילית

הערה: כשמייבאים נתונים שמסומנים מראש בתווית, מומלץ מאוד לבדוק את ההערות באופן ידני לפני אימון המודל.

  1. לוחצים על ייבוא מסמכים.

docai-custom-codelab-24

  1. מעתיקים/מדביקים את הנתיב הבא של Cloud Storage ומקצים אותו לקבוצה ההדרכה.
cloud-samples-data/documentai/codelabs/custom/extractor/training
  1. לוחצים על Add another Folder (הוספת תיקייה נוספת). לאחר מכן מעתיקים/מדביקים את הנתיב הבא של Cloud Storage ומקצים אותו לקבוצה Test.
cloud-samples-data/documentai/codelabs/custom/extractor/test

docai-custom-codelab-25

  1. לוחצים על ייבוא וממתינים לייבוא המסמכים. התהליך יימשך יותר זמן מהפעם הקודמת כי יש יותר מסמכים לעיבוד. הפעולה תימשך כ-6 דקות. אפשר לצאת מהדף ולחזור מאוחר יותר.

docai-custom-codelab-26

  1. בסיום התהליך, המסמכים אמורים להופיע בדף הדרכה.

docai-custom-codelab-27

10. אימון המודל

עכשיו אנחנו מוכנים להתחיל באימון של הכלי לחילוץ מסמכים מותאמים אישית.

  1. לוחצים על אימון גרסה חדשה.

docai-custom-codelab-28

  1. נותנים לגרסה שם שתוכלו לזכור, למשל codelab-custom-1. בקטע 'שיטת אימון', בוחרים באפשרות 'אימון מאפס'.

docai-custom-codelab-29

  1. (אופציונלי) אפשר גם לבחור באפשרות הצגת נתונים סטטיסטיים של תוויות כדי לראות מדדים לגבי התוויות במערך הנתונים.

docai-custom-codelab-30

  1. לוחצים על התחלת ההדרכה כדי להתחיל את תהליך האימון. המערכת תפנה אתכם לדף הניהול של מערך הנתונים. סטטוס האימון מופיע בצד שמאל. ההדרכה תימשך כמה שעות. אפשר לצאת מהדף הזה ולחזור אליו מאוחר יותר.

docai-custom-codelab-31

  1. אם תלחצו על שם הגרסה, תופנו לדף ניהול גרסאות, שבו מוצגים מזהה הגרסה והסטטוס הנוכחי של משימת האימון.

docai-custom-codelab-32

11. בדיקה של גרסת המודל החדשה

לאחר השלמת משימת האימון (הבדיקות ארכה כשעה), עכשיו תוכלו לבדוק את גרסת המודל החדשה ולהתחיל להשתמש בה ליצירת חיזויים.

  1. עוברים לדף ניהול גרסאות. כאן ניתן לראות את הסטטוס הנוכחי ואת הציון של F1.

docai-custom-codelab-33

  1. נצטרך לפרוס את גרסת המודל הזו כדי שאפשר יהיה להשתמש בה. לוחצים על הנקודות האנכיות בצד ימין ובוחרים באפשרות Deploy Version (פריסת גרסה).

docai-custom-codelab-34

  1. בחלון הקופץ, בוחרים באפשרות Deploy (פריסה) וממתינים לפריסת הגרסה. הפעולה הזאת עשויה להימשך כמה דקות. לאחר הפריסה, תוכלו גם להגדיר את הגרסה הזו כגרסת ברירת המחדל.

docai-custom-codelab-35

  1. בסיום הפריסה, עוברים לכרטיסייה הערכה. בדף הזה אפשר להציג מדדי הערכה, כולל ציון F1, 'דיוק' ו'אחזור' עבור המסמך המלא וגם תוויות בודדות. מידע נוסף על המדדים האלה זמין במסמכי התיעוד של AutoML.

docai-custom-codelab-36

  1. אפשר להוריד את קובץ ה-PDF בקישור שלמטה. זוהי דוגמה W2 שלא נכללה בערכת האימון או הבדיקה.

  1. לוחצים על Upload Test Document (העלאת מסמך הבדיקה) ובוחרים את קובץ ה-PDF.
  2. הישויות שחולצו אמורות להיראות כך.

docai-custom-codelab-37

12. אופציונלי: הוספת תווית אוטומטית למסמכים שיובאו לאחרונה

לאחר פריסת גרסה של מעבד מידע שהוכשר לכך, אפשר להשתמש בתיוג אוטומטי כדי לחסוך את הזמן הנדרש להוספת תוויות לייבוא מסמכים חדשים.

  1. בדף רכבת, לוחצים על ייבוא מסמכים.
  2. מעתיקים ומדביקים את הנתיב הבא של . ספרייה זו מכילה 5 קובצי PDF ללא תווית W2. מהרשימה הנפתחת חלוקת נתונים, בוחרים באפשרות אימון.
    cloud-samples-data/documentai/Custom/W2/AutoLabel
    
  3. בקטע תיוג אוטומטי, מסמנים את התיבה ייבוא עם תיוג אוטומטי.
  4. בוחרים גרסה קיימת של מעבד כדי להוסיף תוויות למסמכים.
  • לדוגמה: 2af620b2fd4d1fcf
  1. לוחצים על ייבוא וממתינים לייבוא המסמכים. אפשר לצאת מהדף הזה ולחזור אליו מאוחר יותר.
  • בסיום, המסמכים יופיעו בדף רכבת בקטע תיוג אוטומטי.
  1. אי אפשר להשתמש במסמכים שתויגו באופן אוטומטי לאימון או לבדיקה בלי לסמן אותם בתווית. עוברים לקטע תיוג אוטומטי כדי לראות את המסמכים שתויגו באופן אוטומטי.
  2. בוחרים את המסמך הראשון כדי להיכנס למסוף התוויות.
  3. בודקים את התוויות, התיבות התוחמות והערכים כדי לוודא שהם נכונים. מוסיפים תוויות לערכים שהושמטו.
  4. כשמסיימים, בוחרים באפשרות סימון בתווית.
  5. חוזרים על אימות התווית לכל מסמך שתויג באופן אוטומטי, ואז חוזרים לדף אימון כדי להשתמש בנתונים לאימון.

13. סיכום

כל הכבוד, השתמשת בהצלחה ב-Document AI כדי לאמן מעבד מידע מותאם אישית לחילוץ מסמכים. עכשיו אפשר להשתמש במעבד הזה כדי לנתח מסמכים בפורמט הזה, בדיוק כמו בכל מעבד מידע מומחה אחר.

כדי להבין איך לטפל בתגובה לעיבוד של התגובה, אפשר לעיין ב-Specialized Processors Codelab.

ניקוי

כדי להימנע מצבירת חיובים בחשבון Google Cloud על המשאבים שבהם השתמשתם במדריך הזה:

  • במסוף Cloud, עוברים לדף Manage resources.
  • ברשימת הפרויקטים, בוחרים את הפרויקט הרלוונטי ולוחצים על 'מחיקה'.
  • כדי למחוק את הפרויקט, כותבים את מזהה הפרויקט בתיבת הדו-שיח ולוחצים על Shut down.

מקורות מידע

רישיון

היצירה הזו בשימוש ברישיון Creative Commons Attribution 2.0 גנרי.