المستخلص: |
في هذه الأطروحة اخترنا نظاما ممتازا للتعرف الضوئي على الحروف وهو نظام (JU-OCR2) الذي يعالج التعرف على مستوى الكلمة ثم أضفنا له نظام معالجة قبلية من أجل توسيع نطاقه لمستوى التعرف على صور الوثائق العربية. لقد قمنا بدراسة المشاكل التي يمكن أن يواجهها نظام المعالجة المسبقة من خلال دراسة مجموعة من الوثائق العربية المكتوبة بخط اليد وهي مجموعة MADCAT. وتشمل هذه المشاكل التشوش، والخطوط المسطرة، والانحراف والتقطيع لأسطر وكلمات ورشم النص وميلان النص والعناصر الرسومية الخارجية وأخطاء الكتابة وغيرها. لقد حددنا المشاكل الأكثر شيوعا التي سيتم مناقشتها في هذه الرسالة وتشمل هذه المشاكل إزالة الخطوط المسطرة وتقطيع السطر والكلمة والانحراف وإزالة التشوش. ثم بحثنا عن النهج المتبعة لحل هذه المشاكل من الأدبيات الموجودة. وأخضعنا هذه النهج لمجموعة من معايير الاختيار مصممة للتوافق مع JU-OCR2 وتحقيق أفضل النتائج. تم تقييم جميع النهج ذات الصلة في الأدبيات. ونتيجة لهذا التقييم تم اختيار خوارزمية لإزالة الخطوط المسطرة، وخوارزمية لتقطيع السطور، وخوارزمية لتقطيع الكلمات. حيث تحتوي خوارزميات إزالة الخطوط المسطرة وتقطيع السطور المختارة على إجراءات مدمجة لإزالة الانحراف. كما طورنا خوارزمية لإزالة التشوش وتوصلنا إلى تعديلات وتوصيات لإنشاء نظام المعالجة المسبق المطلوب الذي يناسب نظام التعرف JU-OCR2.
|