שימוש במאגר של Document AI כדי להטמיע, לעבד ולחפש מסמכים

1. סקירה כללית

מה זה Document AI Warehouse?

Document AI Warehouse היא פלטפורמה לאחסון, לחיפוש, לארגון ולניתוח של מסמכים והמטא-נתונים המובְנים שלהם. מסמכים יכולים לכלול נתונים מובְנים כמו טפסים וחשבוניות, וגם נתונים לא מובְנים כמו חוזים ומאמרי מחקר. אפשר לחלץ את המטא-נתונים של מסמכים באופן אוטומטי באמצעות מעבדים ב-Document AI, או להזין אותם באופן ידני באמצעות שדות ותגים.

ב-codelab הזה תלמדו איך להטמיע, לעבד ולחפש מסמכים באמצעות ממשק המשתמש של Document AI Warehouse. ב-codelab הזה יש דוגמאות למסמכי PDF, כולל הסכם רישיון, טופס הלוואה וחשבונית הזמנה.

דרישות מוקדמות

ה-Codelab הזה מבוסס על תוכן שמוצג ב-Codelab אחרים של Document AI. לפני שממשיכים, מומלץ לקרוא את מאמרי העזרה ואת ה-Codelab הבאים:

מה תלמדו

  • איך מפעילים את Document AI Warehouse API
  • איך מגדירים מעבדי מסמכים ב-Document AI Warehouse
  • איך מעלים ומנתחים טקסט בסוגים שונים של מסמכי PDF
  • איך מחפשים מסמכים והמטא נתונים שלהם ב-Document AI Warehouse

הדרישות

  • פרויקט ב-Google Cloud
  • דפדפן, כמו Chrome או Firefox

2. הורדת מסמכים לדוגמה

ב-codelab הזה יש דוגמאות למסמכי PDF, כולל הסכם רישיון, טופס הלוואה וחשבונית הזמנה. אפשר להוריד את מסמכי הדוגמה הבאים כדי להשתמש בהם ב-Codelab הזה.

אפשר גם להוריד את מסמכי הדוגמה מהקטגוריה של Cloud Storage הציבורית שלנו ב-Google Cloud Storage באמצעות gsutil.

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

בשלב מאוחר יותר, תעלו את מסמכי הדוגמה האלה, תנתחו אותם באמצעות מעבדי מסמכים שונים ותשמרו את המסמכים ואת המטא-נתונים שיתקבלו ב-Document AI Warehouse.

3. הפעלת Document AI Warehouse API

כדי להתחיל להשתמש ב-Document AI Warehouse, צריך להפעיל את ה-API.

שימוש ב-Cloud Console

  1. פותחים את מסוף Google Cloud בדפדפן.
  2. במסוף Google Cloud, עוברים אל API Library כדי לעיין בממשקי ה-API ובשירותים שאפשר להפעיל.
  3. משתמשים בסרגל החיפוש בחלק העליון של הדף API Library (ספריית ממשקי API), מחפשים את Document AI Warehouse ולוחצים על השירות שמופיע בתוצאות.
  4. לוחצים על הלחצן Enable כדי להפעיל את Document AI Warehouse API בפרויקט בענן של Google Cloud.Document AI Warehouse API

חלופה: שימוש ב-CLI של gcloud

אפשר גם להפעיל את ה-API באמצעות הפקודה gcloud הבאה:

gcloud services enable contentwarehouse.googleapis.com

אם ה-API הופעל בהצלחה, תוצג הודעה דומה להודעה הבאה:

Operation "operations/..." finished successfully.

עכשיו אפשר להשתמש ב-Document AI Warehouse.

4. צפייה במסוף Document AI Warehouse

בדפדפן, עוברים למסוף Document AI Warehouse בכתובת https://documentwarehouse.cloud.google.com (זהו מסוף חיצוני למסוף Google Cloud). כדי להעלות, לעבד ולחפש מסמכים, תשתמשו במסוף Document AI Warehouse ובפרויקט בענן שלכם ב-Google Cloud כדי לבצע את השלבים שנותרו ב-Codelab הזה.

לוח הבקרה של Document AI Warehouse

אם זו הפעם הראשונה שאתם משתמשים ב-Document AI Warehouse, תוכלו לעיין במסמכי התיעוד של Document AI Warehouse כדי לקבל מידע נוסף על הגדרת הפרויקט וההגדרות בהתאם לצרכים שלכם.

5. יצירת סכימת מסמך

סכימות של מסמכים מגדירות את סוג המסמך ואת השדות של מסמכים שמאוחסנים ב-Document AI Warehouse. תצטרכו ליצור סכימה לפני שתעלו מסמכים חדשים.

  1. במסוף Document AI Warehouse, לוחצים על הלחצן Admin (אדמין) בפינה השמאלית העליונה של הדף.
  2. בסרגל הניווט הימני, לוחצים על הפריט סכימה ואז על הלחצן + הוספה.
  3. מזינים שם לסכימה, כמו Documents and Forms, ומוודאים שהאפשרות מסמך נבחרה בתור סוג הסכימה. אחר כך, לוחצים על הלחצן הבא כדי להמשיך.
  4. אפשר להשאיר את הגדרת סכימת ה-JSON כברירת מחדל, שמופיעה כך:
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. לאחר מכן לוחצים על הלחצן סיום כדי לסיים את יצירת סכימת המסמך.

אחרי שתשלימו את השלבים האלה בהצלחה, תופיע הודעה שסכימת המסמך נוצרה. אפשר ללחוץ על הלחצן View Document Schema (הצגת סכימת המסמך) ואז על הכרטיסייה JSON כדי לאשר את הסכימה, שצריכה להיראות בערך כך:

סכימת מסמך

6. יצירת מעבדי מסמכים

בשלב הזה תיצרו מעבדי מסמכים שבהם תוכלו להשתמש כדי לבצע חיפוש טקסט מלא בסוגים שונים של מסמכים ב-Document AI Warehouse.

  1. במסוף Google Cloud, עוברים אל דף הסקירה הכללית של Document AI Platform.
  2. לוחצים על Explore Processors (עיון במעבדים) ואז בוחרים באפשרות Document OCR (זיהוי תווים אופטי של מסמכים) כסוג המעבד שרוצים ליצור.
  3. מציינים שם למעבד המסמכים, כמו ocr, ואת האזור המועדף, ואז לוחצים על יצירה כדי ליצור את המעבד.
  4. בדף Processor Details, מעתיקים את Processor ID. נשתמש בו בהמשך כדי להגדיר מעבד ב-Document AI Warehouse.

חוזרים על השלבים האלה ובוחרים באפשרות Form Parser (כלי לניתוח טפסים) כסוג מעבד המסמכים כדי ליצור ולציין את form כשם המעבד.

חוזרים על השלבים האלה ובוחרים באפשרות Invoice Parser (כלי לניתוח חשבוניות) כסוג של מעבד המסמכים כדי ליצור ולציין את invoice כשם המעבד.

אחרי שתשלימו את השלבים האלה, תוכלו לראות רשימה של מעבדי מסמכים שנראית בערך כך:

מעבדים של מסמכים

7. הגדרת מעבדי מסמכים

בשלב הזה, תגדירו מעבדי מסמכים ב-Document AI Warehouse על סמך המעבדים שיצרתם בשלב הקודם.

  1. במסוף Document AI Warehouse, לוחצים על הלחצן Admin בסרגל הכלים העליון.
  2. בסרגל הניווט הימני, לוחצים על Doc AI Processors (מעבדי Doc AI) ואז על הלחצן + Add new (הוספת חדש).
  3. לוחצים על הלחצן + הוספת מעבד חדש, ואז מציינים שם ומזהה מעבד מהשלב הקודם.
  4. לוחצים על הלחצן שמירה כדי לשמור את השינויים.

חוזרים על השלבים האלה כדי להוסיף את שני המעבדים האחרים להגדרת Document AI Warehouse באמצעות הלחצן + Add New Processor (הוספת מעבד חדש), כולל מנתח הטפסים ומנתח החשבוניות. חשוב להוסיף את שני המעבדים הנוספים תחת אותו מזהה סכימת מסמך באמצעות הלחצן + הוספת מעבד חדש, ולא להוסיף סכימה נוספת באמצעות הלחצן + הוספה.

אחרי שתשלימו את השלבים האלה, תוצג רשימה של מעבדי מסמכים שהוגדרו, שתיראה בערך כך:

מעבדי מסמכים ב-Document AI Warehouse

8. העלאה ועיבוד של מסמכים לדוגמה

אחרי שהגדרתם סכימה ומעבדים למסמכים, אתם יכולים להעלות מסמכים למאגר Document AI.

  1. חוזרים למסוף Document AI Warehouse ולוחצים על הלחצן +הוספת מסמך חדש בסרגל הניווט השמאלי, ואז בוחרים באפשרות העלאת מסמך חדש.
  2. גוררים את המסמך license-agreement.pdf מהמחשב אל הווידג'ט של ההעלאה, או מעיינים במסמכים לדוגמה שהורדתם ובוחרים אחד מהם. אחר כך לוחצים על הלחצן הבא כדי להמשיך.
  3. בשדה סכימת מסמכים בוחרים את שם הסכימה שיצרתם קודם, כמו מסמכים וטפסים. בשדה מזהה מעבד Doc AI, בוחרים את מעבד המסמכים של ה-OCR שהגדרתם בשלב הקודם.
  4. בשדה שם לתצוגה, אפשר להשתמש בשם שמוגדר כברירת מחדל (כלומר, שם הקובץ) או בשם מסמך מותאם אישית.
  5. לוחצים על הלחצן יצירה כדי להעלות ולעבד את המסמך.

חוזרים אל מסוף Document AI Warehouse וחוזרים על השלבים האלה עם מסמך הדוגמה loan-form.pdf. בוחרים את form מעבד המסמכים שהגדרתם קודם.

חוזרים למסוף Document AI Warehouse וחוזרים על השלבים האלה עם מסמך הדוגמה invoice-sample.pdf. בוחרים את invoice מעבד המסמכים שהגדרתם קודם.

אם תבצעו את השלבים האלה בהצלחה ותחזרו למסוף של Document AI Warehouse, תופיע רשימה של מסמכים שעברו עיבוד, שדומה לרשימה הבאה:

מסמכים שעברו עיבוד ב-Document AI Warehouse

9. חיפוש מסמכים ועיון בהם

אחרי שמעלים מסמך ל-Document AI Warehouse ומעבדים אותו, אפשר לבצע חיפוש טקסט מלא במסמכים.

במסוף Document AI Warehouse, מזינים מונח חיפוש שמופיע במסמכים לדוגמה, כמו agreement, ואז מקישים על המקש Enter. אפשר לנסות שאילתות חיפוש אחרות, כמו mortgage ו-monitor, כדי לראות תוצאות של מסמכי הדוגמה השונים שהעליתם.

בתוצאות יופיעו כל המסמכים שמכילים את מונח החיפוש, יחד עם סיכום של טקסט המסמך שבו מונח החיפוש מודגש:

תוצאות חיפוש ב-Document AI Warehouse

כדי להציג מסמך, לוחצים על השם שלו.

לוחצים על המתג תצוגת AI כדי לראות את המסמך יחד עם השדות שזוהו והנתונים שמשויכים אליהם:

תצוגה מפורטת ב-Document AI Warehouse

10. מזל טוב

העליתם מסמכים, עיבדתם אותם וביצעתם חיפוש טקסט מלא באמצעות Document AI Warehouse ובעזרת מעבדים ב-Document AI. מומלץ להתנסות במסמכים אחרים ולבדוק את מעבדי המסמכים האחרים שזמינים בפלטפורמה.

הסרת המשאבים

כדי להימנע מחיובים בחשבון Google Cloud בגלל השימוש במשאבים שנעשה במסגרת מדריך זה, אפשר לבצע את פעולות הניקוי הבאות:

  • עוברים לדף Document Warehouse console ומוחקים את כל המסמכים לדוגמה שהעליתם.
  • במסוף Google Cloud, עוברים לדף Document AI processors ומוחקים את המעבדים לדוגמה שיצרתם.
  • במסוף Google Cloud, עוברים לדף APIs and Services ומשביתים את Document AI Warehouse API.

מידע נוסף

כדאי להמשיך ללמוד על Document AI באמצעות מדריכי Codelab נוספים.

משאבים

רישיון

עבודה זו מורשית תחת רישיון Creative Commons שמותנה בייחוס 2.0 כללי.