Document Classification Method Based on Contents Using an Improved Multinomial Naïve Bayes Model

Al Bayati, Junaina Jamil Najim; Al Husainy, Mohammed A. F.

Document Classification Method Based on Contents Using an Improved Multinomial Naïve Bayes Model

العنوان بلغة أخرى:	طريقة تصنيف الوثيقة استنادا إلى محتوياتها باستخدام تحسين نموذج الحدود نيف بايز
المؤلف الرئيسي:	Al Bayati, Junaina Jamil Najim (Author)
مؤلفين آخرين:	Al Husainy, Mohammed A. F. (Advisor)
محكمة:	نعم
التاريخ الميلادي:	2015
موقع:	عمان
الصفحات:	1 - 74
رقم MD:	725708
نوع المحتوى:	رسائل جامعية
اللغة:	الإنجليزية
الدرجة العلمية:	رسالة ماجستير
الجامعة:	جامعة الشرق الأوسط
الكلية:	كلية تكنولوجيا المعلومات
الدولة:	الاردن
قواعد المعلومات:	Dissertations
مواضيع:	علوم الحاسوب \| تصنيف الوثائق \| النماذج الحاسوبية \| نموذج الحدود نيف بايز
رابط المحتوى:	صفحة العنوان المستخلص قائمة المحتويات 24 صفحة الأولى 1 الفصل 2 الفصل 3 الفصل 4 الفصل 5 الفصل 6 الفصل المصادر والمراجع الملاحق

عدد مرات التحميل

11

المستخلص:

في الوقت الحاضر، هناك الملايين من الوثائق التي تتوفر في معظم مجالات في حياتنا. يجب تنظيم هذه الوثائق وتصنيفها تحت موضوع معين ليكون أكثر وضوحا، وللاستفادة منها بشكل أفضل. تصنيف النصوص هي إحدى الأساليب التي تطبق بهدف تنظيم الوثائق، ويمكن تعريف تصنيف النصوص بأنه أسلوب يتم من خلاله اكتشاف المجموعة التي تنتمي إليها وثيقة معينة، لقد تم إجراء العديد من الأبحاث حول هذا العلم وما زالت تلك الأبحاث تجرى إلى الوقت الحالي بهدف التحسين من فعاليتها وخاصة عملية تصنيف الوثائق والنصوص العربية. وذلك لأن اللغة العربية غنية ومعقدة للغاية، فالعمليات التي تجرى على النصوص العربية تكون أكثر تعقيدا من غيرها. في هذا البحث نهدف إلى زيادة وتعزيز أداء متعددة الحدود نيف بايز باستخدام ثلاث طرق. أول طريقة بإضافة فقط N-gram، والثاني باستخدام (Term Frequency-Inverse Document Frequency) (TF-IDF)، وأخيرا عن طريق دمج (N-gram) و(TF-IDF)، ومن ثم تم تقييم هذه المصنفات اعتمادا على نتائج وقيم كل من Recall, Precision, and F-measure. تم تطبيق المصنفات المقترحة على قاعدة البيانات العربية والتي تحتوي على ستة مجموعات وعدد الوثائق في جميع المجموعات ما يقارب 1500 وثيقة عربيه مختلفة. وكان متوسط F-measure لجميع classes عند تطبيق bigram (81.46%)؛ في حين أن متوسط F-measure عند تطبيق (TF-IDF) (88.88%) ومتوسط F-measure عند تطبيق مزيج من كل bigram و(TF-IDF) كان (89.70%). هذه النتائج أثبتت أن المصنف الذي يطبق كل من (TF-IDF) و(bigram) هو أفضل مصنف بين المصنفات الثلاثة المقترحة.

عناصر مشابهة

Improving the Classification of Chronic Diseases Using the Naive Bayes Algorithm
بواسطة: Abdallah, Hoyam Omer Ali منشور: (2022)
Associative Classification Using Naïve Bayes Theorem
بواسطة: أبو جابر، فوزي علي منشور: (2014)
Concept Relation Extraction Using Naive Bayes Classifier for Ontology Based Question Answering Systems
بواسطة: kumar, G. Suresh منشور: (2015)
Naive Bayes Classifiers For Authorship Attribution of Arabic Texts
بواسطة: Altheneyan, Alaa Saleh منشور: (2014)
Gender Classification Based on Statistical Methods
بواسطة: Karim, Abdulamir Abbdullah منشور: (2018)

Document Classification Method Based on Contents Using an Improved Multinomial Naïve Bayes Model

عدد مرات التحميل

11

عناصر مشابهة

دليل المستخدم

دليل الفيديو