1. مقدمة
Document AI هو حل لفهم المستندات يستخدم البيانات غير المنظَّمة، مثل المستندات والرسائل الإلكترونية وغيرها، ويسهِّل فهم البيانات وتحليلها واستخدامها.
باستخدام ميزة Document AI Workbench، يمكنك معالجة المستندات بدقة أعلى من خلال إنشاء نماذج مخصّصة بالكامل باستخدام بيانات التدريب الخاصة بك.
ستقوم في هذا التمرين المعملي بإنشاء معالج استخراج المستندات المخصص، واستيراد مجموعة بيانات، وتسمية نماذج المستندات، وتدريب المعالج.
مجموعة بيانات المستند المستخدمة في هذا التمرين المعملي مأخوذة من مجموعة بيانات زائفة W-2 (نموذج الضرائب الأمريكي) على Kaggle مع CC0: ترخيص المجال العام.
المتطلبات الأساسية
يعتمد هذا الدرس التطبيقي حول الترميز على المحتوى المقدَّم في الدروس التطبيقية الأخرى حول الترميز الخاص بالذكاء الاصطناعي للمستندات.
ننصحك بإكمال الدروس التطبيقية التالية حول الترميز قبل المتابعة.
- التعرّف البصري على الأحرف (OCR) باستخدام Document AI (Python)
- تحليل النماذج باستخدام الذكاء الاصطناعي للمستندات (Python)
- معالجات متخصّصة تستخدم الذكاء الاصطناعي للمستندات (Python)
- إدارة معالجات الذكاء الاصطناعي للمستندات باستخدام Python
- الذكاء الاصطناعي المستند إلى الذكاء الاصطناعي: Human in the Loop
- الذكاء الاصطناعي في المستندات: التدريب
المعلومات التي ستطّلع عليها
- إنشاء معالج استخراج المستندات المخصص.
- تصنيف بيانات التدريب على الذكاء الاصطناعي للمستندات باستخدام أداة التعليقات التوضيحية
- التدريب على إصدار نموذج جديد
- تقييم دقة إصدار النموذج الجديد
المتطلبات
2. بدء الإعداد
يفترض هذا الدرس التطبيقي حول الترميز أنّك أكملت خطوات إعداد Document AI الموضحة في الدرس التمهيدي حول الترميز.
يُرجى إكمال الخطوات التالية قبل المتابعة:
3- إنشاء معالج بيانات
يجب عليك أولاً إنشاء معالج استخراج المستندات المخصص لاستخدامه في هذا التمرين المعملي.
- في وحدة التحكّم، انتقِل إلى صفحة Document AI Overview (نظرة عامة على الذكاء الاصطناعي للمستندات).
- انقر على إنشاء معالج مُخصَّص واختَر أداة استخراج المستندات المخصَّصة.
- أدخِل الاسم
codelab-custom-extractor
(أو أي اسم آخر تتذكره) واختَر أقرب منطقة في القائمة.
- انقر على إنشاء لإنشاء المعالج. من المفترض بعد ذلك أن تظهر صفحة "نظرة عامة على معالج البيانات".
4. إنشاء مجموعة بيانات
لتدريب معالج البيانات، سيتعين علينا إنشاء مجموعة بيانات بها بيانات التدريب والاختبار لمساعدة المعالج في تحديد الكيانات التي نريد استخراجها.
- في صفحة "نظرة عامة على معالج البيانات"، انقر على ضبط مجموعة البيانات.
- من المفترض أن تكون الآن في صفحة إعداد مجموعة البيانات. إذا كنت تريد تحديد حزمتك الخاصة لتخزين مستندات التدريب والتصنيفات، انقر على إظهار الخيارات المتقدّمة. أو، انقر على متابعة.
- انتظر حتى يتم إنشاء مجموعة البيانات، ومن المفترض أن توجّهك إلى صفحة التدريب.
5- استيراد مستند اختبار
الآن، لنستورد نموذج W2 pdf إلى مجموعة البيانات الخاصة بنا.
- انقر على استيراد المستندات.
- نوفر لك نموذجًا بتنسيق PDF يمكنك استخدامه في هذا التمرين المعملي. انسخ الرابط التالي والصقه في مربّع مسار المصدر. التوقف عن استخدام "تقسيم البيانات" باسم "غير معيّن" في الوقت الحالي. اترك جميع المربعات الأخرى بدون علامة. انقر على استيراد.
cloud-samples-data/documentai/codelabs/custom/extractor/pdfs
- انتظر حتى يتم استيراد المستند. من المفترض أن يستغرق هذا الإجراء أقل من دقيقة واحدة.
- عند اكتمال عملية الاستيراد، من المفترض أن يظهر لك المستند في صفحة التدريب.
6- إنشاء التصنيفات
بما أنّنا بصدد إنشاء نوع معالج جديد، سنحتاج إلى إنشاء تصنيفات مخصّصة لإعلام Document AI بالحقول التي نريد استخراجها.
- انقر على تعديل المخطط في أسفل يمين الصفحة.
- من المفترض أن تكون الآن في وحدة تحكّم "إدارة المخطط".
- أنشئ التصنيفات التالية باستخدام الزر إنشاء تصنيف.
الاسم | نوع البيانات | موضع الورود |
| العدد | مطلوب عناصر متعددة |
| نص عادي | مطلوب عناصر متعددة |
| نص عادي | مطلوب عناصر متعددة |
| العنوان | مطلوب عناصر متعددة |
| المال | مطلوب عناصر متعددة |
| المال | مطلوب عناصر متعددة |
| المال | مطلوب عناصر متعددة |
| المال | مطلوب عناصر متعددة |
- من المفترض أن تظهر وحدة التحكم على النحو التالي عند اكتمالها. انقر على حفظ عند الانتهاء.
- انقر على سهم الرجوع للعودة إلى صفحة التدريب. لاحظ أن التسميات التي أنشأناها تظهر في الركن الأيمن السفلي.
7. تسمية مستند الاختبار
بعد ذلك، سنحدد عناصر النص وتسميات الكيانات التي نرغب في استخراجها. ستُستخدم هذه التصنيفات لتدريب النموذج على تحليل بنية المستند المحددة هذه وتحديد الأنواع الصحيحة.
- انقر نقرًا مزدوجًا فوق المستند الذي قمنا باستيراده سابقًا للدخول إلى وحدة تحكم التسمية. من المفترض أن يبدو مماثلاً لهذا.
- انقر على "الصندوق المحيط". أداة، ثم حدِّد النص "1173038" وتعيين التصنيف
CONTROL_NUMBER
. ويمكنك استخدام فلتر النصوص للبحث عن أسماء التصنيفات.
- إكمال للمثيل الآخر من
CONTROL_NUMBER
ومن المفترض أن يظهر هذا الرمز بعد تصنيفه على النحو التالي.
- قم بتمييز جميع مثيلات القيم النصية التالية وتعيين التصنيفات المناسبة.
اسم التصنيف | Text |
| 24-3188810 |
| 19127.2 |
| 5093.71 |
| 66584.46 |
| 56081.18 |
| 714-32-2105 |
| Adams, Chase and Gilbert Inc 972 Gonzalez Mad South Katherine NC 95869-5178 |
- من المفترض أن يظهر المستند المُصنَّف على النحو التالي عند اكتمال العملية. لاحظ أنه يمكنك إجراء تعديلات على هذه التصنيفات من خلال النقر على مربع الإحاطة في المستند أو اسم/قيمة التصنيف في القائمة الجانبية اليمنى. انقر على وضع علامة كمصنّف عند الانتهاء من التصنيف، ثم ارجع إلى وحدة تحكم إدارة مجموعة البيانات.
8. تعيين مستند لمجموعة التدريب
من المفترض أن تعود الآن إلى وحدة تحكم إدارة مجموعة البيانات. لاحظ أن عدد المستندات المصنّفة وغير المصنّفة قد تغيّر وعدد النُسخ الافتراضية لكل تصنيف.
- نحتاج إلى تعيين هذا المستند إلى "التدريب" أو "اختبار" تعيين. انقر على المستند، ثم انقر على تعيين لمجموعة، ثم انقر على التدريب.
- لاحِظ أنّ أرقام تقسيم البيانات قد تغيّرت.
9. استيراد البيانات المصنّفة مسبقًا
تتطلّب "المعالجات المخصّصة للذكاء الاصطناعي" 10 مستندات على الأقل في مجموعتَي التدريب والاختبار، إلى جانب 10 نُسخ من كل تصنيف في كل مجموعة.
لتحقيق أفضل أداء، يُوصى بأن يكون لديك 50 مستندًا على الأقل في كل مجموعة مع 50 نسخة من كل تصنيف. وبشكل عام، تتطلب المزيد من بيانات التدريب دقة أعلى.
سيستغرق تصنيف جميع المستندات يدويًا وقتًا طويلاً، لذا لدينا بعض المستندات المسماة مسبقًا التي يمكنك استيرادها لهذا التمرين.
يمكنك استيراد ملفات المستندات المصنّفة مسبقًا بتنسيق Document.json
. وقد يكون ذلك نتيجة استدعاء معالج بيانات والتحقُّق من الدقة باستخدام Human in the Loop (HITL).
سالب
ملاحظة: عند استيراد بيانات مصنَّفة مسبقًا، من المستحسن جدًا مراجعة التعليقات التوضيحية يدويًا قبل تدريب أي نموذج.
- انقر على استيراد المستندات.
- انسخ مسار Cloud Storage التالي وألصقه واضبطه على مجموعة التدريب.
cloud-samples-data/documentai/codelabs/custom/extractor/training
- انقر على إضافة مجلد آخر. بعد ذلك، انسخ مسار Cloud Storage التالي وألصقه واضبطه على مجموعة الاختبار.
cloud-samples-data/documentai/codelabs/custom/extractor/test
- انقر على استيراد وانتظر حتى يتم استيراد المستندات. ستستغرق هذه العملية وقتًا أطول من المرة السابقة نظرًا لوجود المزيد من المستندات التي يجب معالجتها. من المفترض أن تستغرق هذه العملية 6 دقائق تقريبًا. يمكنك مغادرة هذه الصفحة والرجوع إليها لاحقًا.
- بعد اكتمال العملية، من المفترض أن تظهر لك المستندات في صفحة التدريب.
10. تدريب النموذج
نحن الآن جاهزون لبدء تدريب استخراج المستندات المخصصة.
- انقر على تدريب الإصدار الجديد
- أدخِل اسمًا للنسخة يمكنك تذكُّره، مثل
codelab-custom-1
. بالنسبة إلى "طريقة التدريب"، اختَر "التدريب من البداية".
- (اختياري) يمكنك أيضًا اختيار عرض إحصاءات التصنيفات للاطّلاع على مقاييس حول التصنيفات في مجموعة بياناتك.
- انقر على بدء التدريب لبدء عملية "التدريب". من المفترض أن تتم إعادة توجيهك إلى صفحة إدارة مجموعة البيانات. يمكنك عرض حالة التدريب على الجانب الأيسر. سيستغرق إكمال التدريب بضع ساعات. يمكنك مغادرة هذه الصفحة والرجوع إليها لاحقًا.
- إذا نقرت على اسم النسخة، سيتم توجيهك إلى صفحة إدارة النُسخ التي تعرض رقم تعريف الإصدار والحالة الحالية لمهمة التدريب.
11. اختبار إصدار النموذج الجديد
بعد اكتمال مهمة التدريب (استغرقت اختباراتي حوالي ساعة)، يمكنك الآن اختبار إصدار النموذج الجديد وبدء استخدامه للتنبؤات.
- انتقِل إلى صفحة إدارة النُسخ. يمكنك هنا الاطّلاع على الحالة الحالية ونتيجة F1.
- سنحتاج إلى نشر إصدار النموذج هذا قبل استخدامه. انقر على النقاط الرأسية على يسار الشاشة واختَر نشر الإصدار.
- اختَر نشر من النافذة المنبثقة عند الانتظار حتى يتم نشر الإصدار. سيستغرق إكمال هذه الخطوة بضع دقائق. وبعد نشره، يمكنك أيضًا ضبط هذا الإصدار ليكون الإصدار التلقائي.
- بعد الانتهاء من النشر، انتقِل إلى علامة التبويب التقييم. في هذه الصفحة، يمكنك عرض مقاييس التقييم، بما في ذلك درجة دقة الاختبار ودرجة الدقة والتذكر للمستند الكامل بالإضافة إلى التصنيفات الفردية. يمكنك الاطّلاع على مزيد من المعلومات عن هذه المقاييس في مستندات AutoML.
- تنزيل ملف PDF من خلال الرابط أدناه هذا نموذج من W2 لم يتم تضمينه في مجموعة التدريب أو الاختبار.
- انقر على تحميل مستند الاختبار واختَر ملف PDF.
- من المفترض أن تظهر الكيانات المستخرَجة على النحو التالي.
12. اختياري: التصنيف التلقائي للمستندات التي تم استيرادها حديثًا
بعد نشر إصدار معالج بيانات مدرَّب، يمكنك استخدام التصنيف التلقائي لتوفير الوقت في التصنيف عند استيراد مستندات جديدة.
- في صفحة التدريب، انقر على استيراد المستندات.
- انسَخ مسار التالي والصِقه. يحتوي هذا الدليل على 5 ملفات PDF غير مصنفة W2. من القائمة المنسدلة تقسيم البيانات، اختَر التدريب.
cloud-samples-data/documentai/Custom/W2/AutoLabel
- في قسم التصنيف التلقائي، ضع علامة في مربّع الاختيار استيراد باستخدام تصنيف تلقائي.
- اختَر إصدارًا حاليًا للمعالج لتسمية المستندات.
- مثلاً:
2af620b2fd4d1fcf
- انقر على استيراد وانتظر حتى يتم استيراد المستندات. يمكنك مغادرة هذه الصفحة والرجوع إليها لاحقًا.
- عند اكتمال العملية، ستظهر المستندات في صفحة التدريب في القسم تصنيف تلقائي.
- لا يمكنك استخدام المستندات المصنّفة تلقائيًا للتدريب أو الاختبار بدون وضع علامة عليها باعتبارها مصنّفة. انتقِل إلى القسم مُصنَّفة تلقائيًا لعرض المستندات المصنّفة تلقائيًا.
- حدد المستند الأول للدخول إلى وحدة التحكم في التصنيف.
- تحقق من التسميات ومربعات الإحاطة والقيم للتأكد من صحتها. تسمية أي قيم تم حذفها.
- حدِّد وضع علامة على أنّه مُصنَّف عند الانتهاء.
- كرِّر عملية التحقق من التصنيف لكل مستند مصنَّف تلقائيًا، ثم ارجع إلى صفحة التدريب لاستخدام البيانات في التدريب.
13. الخاتمة
تهانينا، لقد تم استخدام Document AI بنجاح لتدريب أداة استخراج المستندات المخصَّصة. يمكنك الآن استخدام هذا المعالج لتحليل المستندات بهذا التنسيق تمامًا كما تفعل مع أيّ معالِج متخصص.
يمكنك الرجوع إلى الدرس التطبيقي حول الترميز الخاص بالمعالجات المتخصّصة لمراجعة كيفية التعامل مع استجابة المعالجة.
تنظيف
لتجنُّب تحمُّل الرسوم المفروضة على حسابك على Google Cloud مقابل الموارد المستخدَمة في هذا البرنامج التعليمي:
- في Cloud Console، انتقِل إلى صفحة إدارة الموارد.
- في قائمة المشاريع، اختَر مشروعك ثم انقر على "حذف".
- في مربع الحوار، اكتب معرّف المشروع ثم انقر على "إيقاف التشغيل" لحذف المشروع.
المراجع
- مستندات لوحة العمل الخاصة بالذكاء الاصطناعي
- مستقبل المستندات - قائمة تشغيل على YouTube
- مستندات الذكاء الاصطناعي للمستندات
- مكتبة برامج Python المستندة إلى الذكاء الاصطناعي (AI)
- نماذج الذكاء الاصطناعي للمستندات
الترخيص
هذا العمل مرخّص بموجب رخصة المشاع الإبداعي 2.0 مع نسب العمل إلى مؤلف عام.