ارسل ملاحظاتك

ارسل ملاحظاتك لنا







Printed Arabic Text Recognition Using Affine Invariant Features

العنوان بلغة أخرى: تمييز النصوص العربية المطبوعة باستخدام خصائص التآلف الثابتة
المؤلف الرئيسي: الزعبي، رلى ماجد (مؤلف)
مؤلفين آخرين: الخطيب، فيصل (مشرف), بصول، عبدالرؤوف خالد (مشرف)
التاريخ الميلادي: 2018
موقع: اربد
الصفحات: 1 - 106
رقم MD: 954454
نوع المحتوى: رسائل جامعية
اللغة: الإنجليزية
الدرجة العلمية: رسالة ماجستير
الجامعة: جامعة اليرموك
الكلية: كلية الدراسات العليا
الدولة: الاردن
قواعد المعلومات: Dissertations
مواضيع:
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

11

حفظ في:
المستخلص: التمييز الضوئي للحروف (OCR) هو عملية التعرف على صورة ممسوحة لنص مطبوع أو مكتوب بخط اليد وتحويلها إلى نص قابل للتحرير. يمكن استخدام أنظمة التمييز الضوئي للحروف في البحث عن الكتب والوثائق الممسوحة ضوئيا وقراءتها كمكتبات رقمية، وترجمة آلية للصور النصية العربية والبحث عبر الإنترنت. على الرغم من أن أنظمة التمييز الضوئي للنصوص العربية المطبوعة (Arabic OCR) كان محورا للتركيز والبحث لأكثر من ثلاثة عقود، إلا أن (Arabic OCR) خالية من الأخطاء ما زالت تمثل تحديا وتحت البحث. تأتي التحديات من طبيعة الكتابة المتصلة للنص العربي بالإضافة إلى خصائص النصوص العربية. يهدف هذا البحث إلى المساهمة في البحث الحالي في مجال التمييز الضوئي للنصوص العربية المطبوعة (Arabic OCR) من خلال اقتراح تقنيات ومخططات جديدة للنهوض بأحدث أساليب التمييز الضوئي للنصوص العربية. في هذا البحث، تم تطبيق ثلاث من طرق تحويل الصور لصور ثنائية الأبعاد (Binariztion) وهي: طريقة Otsu وطريقة Nick وطريقة Sauvola وتمت مقارنتها على مجموعة من الصور النصية العربية. أظهرت النتائج التجريبية أن طريقة Nick تفوقت‏ على الاثنتين الأخريين. تم تقديم تقنية جديدة لتجزئة الكلمة إلى حروف. تعتمد التقنية المقترحة على اكتشاف خط الأساس واستخلاص المكونات المتصلة. تستفيد هذه التقنية من حقيقة أنه في الكلمات العربية المطبوعة، تحدث نقاط التجزيء عندما يبدأ رسم الحرف في الصعود أو الانخفاض في خط الأساس. المعلومات الوحيدة التي تستخدمها هذه التقنية هي معلومات خط الأساس، وهي لا تستخدم أي قيمة عتبة. أظهرت النتائج التجريبية كفاءة التقنية المقترحة بالإضافة إلى القدرة على التغلب على بعض المشكلات الشائعة في تجزئة الكلمات العربية مثل مشكلة التداخل (Overlapping). ‏ تم اقتراح تقنية جديدة لاستخلاص الخصائص. التقنية المقترحة تستخدم خصائص التآلف الثابتة لتمثيل الأحرف العربية. تم استخدام سبعة أنواع من الرسم البياني باستخدام سبع زوايا مختلفة لإنشاء مصفوفة خصائص بطول 56 لكل حرف عربي. الخصائص المقترحة من السهل استخراجها وتحتاج حسابات بسيطة كما أنها وكما أظهرت النتائج تحقق معدلات تمييز مرتفعة. أخيرا، تم دراسة ومقارنة ثلاث طرق تمييز مختلفة لتمييز النصوص العربية. الطرق الثلاثة هي: Cosine similarity measure، Euclidean similarity measure و random forest tree (RFT) classifier. لتقييم المنهج المقترح استخدمنا قاعدة بيانات Arabic Printed Text Image (APTI) بالإضافة إلى مجموعة من الصور لمستندات نصية عربية. أظهرت النتائج التجريبية أن المنهج المقترح قادر على تمييز النصوص العربية المطبوعة بخطوط مختلفة وأحجام متنوعة. أفضل دقة تم تحقيقها بواسطة المنهج المقترح هي 86%.

عناصر مشابهة