المستخلص: |
يمثل إدراك النصوص العربية المكتوبة بخط اليد تحديا، بسبب الاختلاف الكبير في طريقة الكتابة، وخصائص الأحرف بالإضافة إلى الكم الهائل من مفردات اللغة العربية. تنقسم طرق إدراك النصوص إلى نهجين رئيسين وهما: نموذج تجزئة الكلمات إلى أحرف أو أجزاء من الكلمة وهو خارج إطار البحث، أما النموذج الثاني فهو لإدراك الكلمة كوحدة واحدة. في هذا البحث، تم اقتراح وتطوير نظام شامل للتعرف على النصوص العربية المكتوبة بخط اليد على مستوى الكلمة باستخدام Wavelet Packet Decomposition بالاعتماد على مصنفين مختلفين وهما Support Vector Machine, K-NN. يحتوي النظام المقترح على ثلاث مراحل رئيسة تشمل مرحلة المعالجة القبلية، ومرحلة استخراج السمات، وأخيرا مرحلة التعرف أو التصنيف. في مرحلة المعالجة القبلية تتم إزالة علامات التشكيل والتشويش، ثم عملية ترقيق النص باستخدام النهج المورفولوجي، وأخيرا توحيد حجم الصور إلى حجم مناسب لعملية استخلاص السمات والتصنيف. في مرحلة استخراج السمات تم اقتراح (WPD) لاستخراج سمات الكلمات العربية المكتوبة بخط اليد وتصنيفها في المرحلة الأخيرة باستخدام كل من (SVM, K-NN). تم اختبار النظام المقترح لإدراك الكلمات العربية على قاعدة بيانات IFN/ENIT باستخدام أحجام مختلفة للصور، بناءا على التجارب التي تم اختبارها تبين أن الحجم (100×100) هو الحجم الأنسب عند استخدام SVM حيث كانت دقة تعرف النظام 93.7%، أما عند تطبيق K-NN فإن أفضل حجم للصورة 45×269 حيث حقق نسبة التعرف 88.4%. تمت مقارنة النظام المقترح مع النظام القائم على أساس منهجية DWT وDCT وأثبتت الدراسة أن نتائج النظام المقترح أفضل من نتائج النظام المذكور، وبناءا على ذلك فإن النظام المقترح للتعرف على الكلمات العربية المكتوبة بخط اليد يحقق فعالية عالية، ونتائج واعدة مقارنة مع الأنظمة الأخرى المذكورة في الدراسات السابقة.
|