שימוש במאגר של Document AI כדי להטמיע, לעבד ולחפש מסמכים

1. סקירה כללית

מהו מחסן Document AI (מחסן)?

Document AI warehouse הוא פלטפורמה לאחסון, לחיפוש, לארגון ולניתוח של מסמכים ואת המטא-נתונים המובְנים שלהם. המסמכים יכולים לכלול נתונים מובְנים כמו טפסים וחשבוניות, וגם נתונים לא מובנים כמו חוזים ועבודות מחקר. ניתן לחלץ את המטא-נתונים של המסמכים באופן אוטומטי באמצעות מעבדים ב-Document AI או להזין באופן ידני באמצעות שדות ותגים.

ב-Codelab הזה תלמדו איך להטמיע, לעבד ולחפש מסמכים באמצעות ממשק המשתמש של Document AI Warehouse. סופקו מסמכי PDF לדוגמה עבור ה-Codelab הזה, כולל הסכם רישיון, טופס הלוואה וחשבונית הזמנה.

דרישות מוקדמות

ה-Codelab הזה מתבסס על תוכן שמוצג במעבדי קוד אחרים של Document AI. לפני שממשיכים, מומלץ לקרוא את המסמכים הבאים ואת Codelabs:

מה תלמדו

  • איך מפעילים את Document AI warehouse API
  • כיצד להגדיר מעבדי מסמכים ב-Document AI Warehouse
  • איך להעלות ולנתח טקסט בסוגים שונים של מסמכי PDF
  • איך לחפש במסמכים ובמטא-נתונים שלהם ב-Document AI warehouse

למה תזדקק?

  • פרויקט ב-Google Cloud
  • דפדפן כמו Chrome או Firefox

2. הורדת מסמכים לדוגמה

סופקו מסמכי PDF לדוגמה עבור ה-Codelab הזה, כולל הסכם רישיון, טופס הלוואה וחשבונית הזמנה. אפשר להוריד את המסמכים לדוגמה הבאים לשימוש ב-Codelab הזה.

לחלופין, אתם יכולים להוריד את המסמכים לדוגמה מהקטגוריה הציבורית של Google Cloud Storage באמצעות gsutil.

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

בשלב מאוחר יותר, תעלו את המסמכים לדוגמה, תנתחו אותם בעזרת מעבדי מסמכים שונים ותאחסנו את המסמכים והמטא-נתונים שייווצרו ב-Document AI warehouse.

3. הפעלת Document AI warehouse API

לפני שמתחילים להשתמש ב-Document AI warehouse, צריך להפעיל את ה-API.

שימוש במסוף Cloud

  1. פותחים את מסוף Google Cloud בדפדפן.
  2. במסוף Google Cloud, נכנסים אל API Library כדי לעיין בממשקי ה-API ובשירותים שאפשר להפעיל.
  3. בסרגל החיפוש שבחלק העליון של הדף של ספריית ה-API, מחפשים את Document AI Warehouse ולוחצים על השירות שמתקבל.
  4. לוחצים על הלחצן Enable כדי להפעיל את Document AI warehouse API בפרויקט Google Cloud.ממשק API של Document AI warehouse

חלופה: שימוש ב-CLI של gcloud

לחלופין, אפשר להפעיל את ה-API באמצעות הפקודה הבאה של gcloud:

gcloud services enable contentwarehouse.googleapis.com

אם ה-API הופעל בהצלחה, אמורה להופיע הודעה דומה לזו:

Operation "operations/..." finished successfully.

עכשיו, אתה מוכן להשתמש ב-Document AI warehouse!

4. הצגת מסוף Document AI warehouse

בדפדפן, נכנסים למסוף Document AI warehouse דרך https://documentwarehouse.cloud.google.com (שהוא חיצוני למסוף Google Cloud). כדי לבצע את השלבים הנותרים ב-Codelab הזה, צריך להשתמש במסוף Document AI Warehouse יחד עם הפרויקט ב-Google Cloud, כדי להעלות, לעבד ולחפש מסמכים.

מרכז הבקרה של מחסן AI של מסמכים

אם זו הפעם הראשונה שאתם משתמשים ב-Document AI warehouse, מומלץ לעיין במסמכי התיעוד של גלריית Docs AI כדי לקבל מידע נוסף על הגדרת הפרויקט וההגדרות בהתאם לצרכים שלכם.

5. יצירת סכימת מסמך

סכימות של מסמכים מגדירות את סוג המסמך ואת השדות עבור מסמכים שאתם מאחסנים ב-Document AI warehouse. יהיה עליכם ליצור סכימה לפני העלאת מסמכים חדשים.

  1. במסוף Document AI warehouse, לוחצים על הלחצן Admin (ניהול) בפינה הימנית העליונה של הדף.
  2. לוחצים על הפריט סכימה בסרגל הניווט הימני ואז על הלחצן + הוספת חדש.
  3. מזינים שם לסכימה, למשל Documents and Forms, ומוודאים שהאפשרות מסמך מסומנת בתור סוג הסכימה. לאחר מכן, לוחצים על הלחצן הבא כדי להמשיך.
  4. אפשר להשאיר את הגדרת ברירת המחדל של סכימת ה-JSON כפי שהיא, שאמורה להופיע כך:
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. לאחר מכן לוחצים על הלחצן סיום כדי לסיים את היצירה של סכימת המסמך.

לאחר השלמת השלבים האלה, אמורה להופיע הודעה על כך שסכימת המסמך נוצרה. אפשר ללחוץ על הלחצן הצגת סכימת המסמך ולאחר מכן על הכרטיסייה JSON כדי לאשר את הסכימה. היא אמורה להיראות כך:

סכימת מסמכים

6. יצירת מעבדי מסמכים

בשלב הזה יוצרים מעבדי מסמכים שבהם אפשר להשתמש כדי לבצע חיפוש טקסט מלא בסוגים שונים של מסמכים ב-Document AI Warehouse.

  1. במסוף Google Cloud, נכנסים לדף הסקירה הכללית של Document AI Platform.
  2. לוחצים על Explore מעבדים ובוחרים באפשרות Document OCR בתור סוג המעבד שרוצים ליצור.
  3. מציינים שם למעבד המסמכים, כמו ocr והאזור המועדף, ואז לוחצים על יצירה כדי ליצור את מעבד המסמכים.
  4. בדף פרטי מעבד (מעבד), מעתיקים את מזהה המעבד, שנשתמש בו מאוחר יותר כדי להגדיר מעבד ב-Document AI warehouse.

חוזרים על השלבים האלה ובוחרים באפשרות מנתח טפסים כסוג מעבד המסמכים כדי ליצור ולציין form כשם מעבד המידע.

חוזרים על השלבים האלה ובוחרים באפשרות מנתח חשבוניות בתור סוג מעבד המסמכים כדי ליצור ולציין invoice בתור שם מעבד המידע.

אחרי שתסיימו את השלבים האלה, אמורה להופיע רשימה של מעבדי מסמכים שנראית דומה לרשימה הבאה:

מעבדי מסמכים

7. הגדרת מעבדי מסמכים

בשלב הזה, תגדירו מעבדי מסמכים ב-Document AI warehouse לפי המעבדים שיצרתם בשלב הקודם.

  1. במסוף Document AI warehouse, לוחצים על הלחצן Admin (ניהול) בסרגל הכלים העליון.
  2. לוחצים על הפריט מעבדי Docs של מסמך בסרגל הניווט הימני, ואז לוחצים על הלחצן + הוספת חדש.
  3. לוחצים על הלחצן + הוספת מעבד חדש, ואז מציינים שם ואת מזהה המעבד מהשלב הקודם.
  4. לוחצים על הלחצן שמירה כדי לשמור את השינויים.

חוזרים על השלבים האלה כדי להוסיף את שני המעבדים הנוספים להגדרה של גלריית Docs AI באמצעות הלחצן + הוספת מעבד חדש, כולל מנתח הטפסים ומנתח החשבוניות. הקפידו להוסיף את שני מעבדי המעבדים באותו מזהה סכימת מסמכים באמצעות הלחצן + הוספת מעבד חדש, במקום להוסיף עוד סכימה באמצעות הלחצן + הוספת חדש.

לאחר השלמת השלבים האלה, אמורה להופיע רשימה של מעבדי מסמכים שהוגדרו באופן הבא:

מעבדי מסמכים במחסן Document AI

8. העלאה ועיבוד של מסמכים לדוגמה

עכשיו, אחרי שהגדרתם סכימה והגדרתם מעבדים למסמכים, תוכלו להעלות מסמכים לגלריית המסמכים ב-Document AI.

  1. חוזרים למסוף Document AI warehouse ולוחצים על הלחצן +Add new בסרגל הניווט הימני, ובוחרים באפשרות Upload a new document (העלאת מסמך חדש).
  2. גוררים את המסמך מסוג license-agreement.pdf מהמחשב אל ווידג'ט ההעלאה, או מדפדפים ובוחרים באחד מהמסמכים לדוגמה שהורדתם. לאחר מכן, לוחצים על הלחצן הבא כדי להמשיך.
  3. עבור סכימת מסמכים, בוחרים את שם הסכימה שיצרתם קודם, למשל מסמכים וטפסים. בשביל מזהה מעבד המידע של Doc AI, בוחרים את מעבד המסמכים OCR שהגדרתם בשלב הקודם.
  4. בשביל Display Name, תוכלו להשתמש בשם ברירת המחדל (כלומר שם הקובץ) או להשתמש בשם מותאם אישית של המסמך.
  5. לוחצים על הלחצן יצירה כדי להעלות את המסמך ולעבד אותו.

חוזרים למסוף Document AI Warehouse וחוזרים על השלבים האלה עם המסמך לדוגמה loan-form.pdf. בוחרים את מעבד המסמכים form שהגדרתם קודם.

חוזרים למסוף Document AI warehouse וחוזרים על השלבים האלה עם המסמך לדוגמה invoice-sample.pdf. בוחרים את מעבד המסמכים invoice שהגדרתם קודם.

אחרי שתסיימו את השלבים האלה, אם תחזרו למסוף Document AI warehouse, אמורה להופיע רשימה של מסמכים מעובדים שנראית דומה לזו:

מסמכים שעברו עיבוד במחסן Document AI

9. חיפוש ועיון במסמכים

עכשיו, אחרי שהעליתם ועיבדתם מסמך למחסן של Document AI, תוכלו לבצע חיפוש טקסט מלא במסמכים.

במסוף 'גלריית Docs AI', מזינים מונח חיפוש שמופיע במסמכים לדוגמה, כמו agreement, ומקישים על Enter. אפשר לנסות שאילתות חיפוש אחרות, כמו mortgage ו-monitor, כדי לראות תוצאות עבור המסמכים השונים לדוגמה שהעלית.

בתוצאות יופיעו כל המסמכים שמכילים את מונח החיפוש הזה, יחד עם סיכום של טקסט המסמך כאשר מונח החיפוש מודגש:

תוצאות חיפוש במאגר של Document AI

לוחצים על שם של מסמך כדי להציג אותו.

לוחצים על המתג AI View כדי להציג את המסמך עם השדות שזוהו והנתונים שמשויכים אליהם:

תצוגה מפורטת בגלריית Document AI

10. מזל טוב

העלית, עיבדת וביצעת בהצלחה חיפוש טקסט מלא במסמכים באמצעות מחסן AI של מסמכים ובאמצעות שימוש במעבדים ב-Document AI. מומלץ להתנסות במסמכים אחרים ולבדוק את המעבדים האחרים שזמינים בפלטפורמה.

הסרת המשאבים

אפשר לבצע את פעולות הניקוי הבאות כדי להימנע מצבירת חיובים בחשבון Google Cloud על המשאבים שבהם השתמשתם במדריך הזה:

  • עוברים אל הדף Document warehouse ומוחקים את כל המסמכים לדוגמה שהעליתם.
  • במסוף Google Cloud, נכנסים לדף Document AI Processings ומוחקים את המעבדים לדוגמה שיצרתם.
  • במסוף Google Cloud, נכנסים לדף APIs and Services ומשביתים את Document AI Warehouse.

מידע נוסף

בהמשך תוכלו להיעזר ב-Codelabs נוספים כדי ללמוד על Document AI.

משאבים

רישיון

היצירה הזו בשימוש ברישיון Creative Commons Attribution 2.0 גנרי.