ارسل ملاحظاتك

ارسل ملاحظاتك لنا







Document Classification Method Based on Contents Using an Improved Multinomial Naïve Bayes Model

العنوان بلغة أخرى: طريقة تصنيف الوثيقة استنادا إلى محتوياتها باستخدام تحسين نموذج الحدود نيف بايز
المؤلف الرئيسي: Al Bayati, Junaina Jamil Najim (Author)
مؤلفين آخرين: Al Husainy, Mohammed A. F. (Advisor)
التاريخ الميلادي: 2015
موقع: عمان
الصفحات: 1 - 74
رقم MD: 725708
نوع المحتوى: رسائل جامعية
اللغة: الإنجليزية
الدرجة العلمية: رسالة ماجستير
الجامعة: جامعة الشرق الأوسط
الكلية: كلية تكنولوجيا المعلومات
الدولة: الاردن
قواعد المعلومات: Dissertations
مواضيع:
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

11

حفظ في:
المستخلص: في الوقت الحاضر، هناك الملايين من الوثائق التي تتوفر في معظم مجالات في حياتنا. يجب تنظيم هذه الوثائق وتصنيفها تحت موضوع معين ليكون أكثر وضوحا، وللاستفادة منها بشكل أفضل. تصنيف النصوص هي إحدى الأساليب التي تطبق بهدف تنظيم الوثائق، ويمكن تعريف تصنيف النصوص بأنه أسلوب يتم من خلاله اكتشاف المجموعة التي تنتمي إليها وثيقة معينة، لقد تم إجراء العديد من الأبحاث حول هذا العلم وما زالت تلك الأبحاث تجرى إلى الوقت الحالي بهدف التحسين من فعاليتها وخاصة عملية تصنيف الوثائق والنصوص العربية. وذلك لأن اللغة العربية غنية ومعقدة للغاية، فالعمليات التي تجرى على النصوص العربية تكون أكثر تعقيدا من غيرها. في هذا البحث نهدف إلى زيادة وتعزيز أداء متعددة الحدود نيف بايز باستخدام ثلاث طرق. أول طريقة بإضافة فقط N-gram، والثاني باستخدام (Term Frequency-Inverse Document Frequency) (TF-IDF)، وأخيرا عن طريق دمج (N-gram) و(TF-IDF)، ومن ثم تم تقييم هذه المصنفات اعتمادا على نتائج وقيم كل من Recall, Precision, and F-measure. تم تطبيق المصنفات المقترحة على قاعدة البيانات العربية والتي تحتوي على ستة مجموعات وعدد الوثائق في جميع المجموعات ما يقارب 1500 وثيقة عربيه مختلفة. وكان متوسط F-measure لجميع classes عند تطبيق bigram (81.46%)؛ في حين أن متوسط F-measure عند تطبيق (TF-IDF) (88.88%) ومتوسط F-measure عند تطبيق مزيج من كل bigram و(TF-IDF) كان (89.70%). هذه النتائج أثبتت أن المصنف الذي يطبق كل من (TF-IDF) و(bigram) هو أفضل مصنف بين المصنفات الثلاثة المقترحة.

عناصر مشابهة