المستخلص: |
تنقسم طرق إدراك النصوص المكتوبة باللغة العربية إلى نموذجين رئيسيين وهما نموذج الإدراك بناءا على مستوى الكلمة الكاملة ونموذج الإدراك على مستوى الأحرف المجزئة من كلمة. حيث يدرك النموذج الثاني الكلمات بعد تجزئتها إلى أحرف كامل أو إلى أجزاء الكلمة، عملية تقسيم هذه الكلمات تتأثر بالعديد من المشاكل، كمشكلة تتداخل الأحرف أو تقسيم الحرف إلى عدة أجزاء مما يؤثر بشكل واضح على عملية إدراك الكلمات. بينما نموذج الإدراك على مستوى الكلمة كاملة يتعامل مع الكلمات كوحدة واحدة فذلك يؤدي إلى تجنب مشاكل التجزئة التي تواجه تقسيم النصوص العربية. في هذا البحث، تم اقتراح وتطوير نظام شامل التعرف على النصوص العربية المكتوبة بخط اليد على مستوى الكلمات كاملة دون تقسيم باستخدام كل من Local Binary Pattern (LBP) وSupport Vector Machine اعتمادا على Radial Basis Function Kernel. يتكون النظام المقترح من ثلاث خطوات رئيسيه وهي مرحلة المعالجة القبلية ومرحلة استخلاص السمات وأخيرا مرحلة تصنيف الكلمات. في مرحلة المعالجة القبلية يتم إزالة كل من التشويش والنقاط وأدوات الترقيم وتحديد حواف الكلمة ثم تتم عملية ترقيق النص باستخدام الأسلوب المورفولوجي، وذلك لتقليل حجم البيانات المراد معالجتها، وأخيرا بهذه المرحلة يتم توحيد حجم الصور إلى حجم يناسب عملية استخلاص السمات والتصنيف. وذلك لاستخراج السمات الإحصائية باستخدام طريقة LBP، ليتم تصنيف هذه السمات المستخرجة من الكلمات باستخدام الـ.SVM RBF تم فحص النظام المقترح على قاعدة البيانات التونسية IFN/ENIT المحتوية على الكلمات العربية المكتوبة بخط يد، باستخدام أحجام مختلفة للصور وهي [(150*150) (125*125) (100*100) (80*80)]، بناءا على التجارب التي تمت أجرؤها تبين أن الحجم (125*125) هو الحجم الأنسب للنظام المقترح، حيث كانت دقة تعرف النظام المقترح هي 96.57% و83.02% بعده أن تم فحصه على كل من مجموعة "d" ومجموعة "e" من قاعدة البيانات المستخدمة تباعا. وتمت مقارنة نتائج النظام المقترح باستخدام الـ"LBP" مع النظام القائم على أساس منهجية الـDCT، وأثبتت الدراسة أن نتائج النظام المقترح أفضل من نتائج النظام القائم على أساس الـDCT والذي كانت نتائجه على كل من مجموعة "d" ومجموعة "e" 75.49% و57.92% تباعا. وأن النظام المقترح أسرع، وبناءا على ذلك فان هذا يحقق فعالية النظام المقترح للتعرف على الكلمات العربية المكتوبة بخط اليد. بالإضافة إلى ما سبق أن نتائج النظام المقترح تعتبر نتائج واعدة مقارنتا مع الأنظمة الأخرى المستخدمة لإدراك الكلمات العربية والمذكورة بالدراسات السابقة كالأنظمة المعتمدة على HMM وANN.
|