ارسل ملاحظاتك

ارسل ملاحظاتك لنا







Document Classification Method Based on Contents Using an Improved Multinomial Naïve Bayes Model

العنوان بلغة أخرى: طريقة تصنيف الوثيقة استنادا إلى محتوياتها باستخدام تحسين نموذج الحدود نيف بايز
المؤلف الرئيسي: Al Bayati, Junaina Jamil Najim (Author)
مؤلفين آخرين: Al Husainy, Mohammed A. F. (Advisor)
التاريخ الميلادي: 2015
موقع: عمان
الصفحات: 1 - 74
رقم MD: 725708
نوع المحتوى: رسائل جامعية
اللغة: الإنجليزية
الدرجة العلمية: رسالة ماجستير
الجامعة: جامعة الشرق الأوسط
الكلية: كلية تكنولوجيا المعلومات
الدولة: الاردن
قواعد المعلومات: Dissertations
مواضيع:
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

11

حفظ في:
LEADER 03906nam a22003497a 4500
001 0320978
041 |a eng 
100 |9 379808  |a Al Bayati, Junaina Jamil Najim  |e Author 
245 |a Document Classification Method Based on Contents Using an Improved Multinomial Naïve Bayes Model 
246 |a طريقة تصنيف الوثيقة استنادا إلى محتوياتها باستخدام تحسين نموذج الحدود نيف بايز 
260 |a عمان  |c 2015 
300 |a 1 - 74 
336 |a رسائل جامعية 
502 |b رسالة ماجستير  |c جامعة الشرق الأوسط  |f كلية تكنولوجيا المعلومات  |g الاردن  |o 0074 
520 |a في الوقت الحاضر، هناك الملايين من الوثائق التي تتوفر في معظم مجالات في حياتنا. يجب تنظيم هذه الوثائق وتصنيفها تحت موضوع معين ليكون أكثر وضوحا، وللاستفادة منها بشكل أفضل. تصنيف النصوص هي إحدى الأساليب التي تطبق بهدف تنظيم الوثائق، ويمكن تعريف تصنيف النصوص بأنه أسلوب يتم من خلاله اكتشاف المجموعة التي تنتمي إليها وثيقة معينة، لقد تم إجراء العديد من الأبحاث حول هذا العلم وما زالت تلك الأبحاث تجرى إلى الوقت الحالي بهدف التحسين من فعاليتها وخاصة عملية تصنيف الوثائق والنصوص العربية. وذلك لأن اللغة العربية غنية ومعقدة للغاية، فالعمليات التي تجرى على النصوص العربية تكون أكثر تعقيدا من غيرها. في هذا البحث نهدف إلى زيادة وتعزيز أداء متعددة الحدود نيف بايز باستخدام ثلاث طرق. أول طريقة بإضافة فقط N-gram، والثاني باستخدام (Term Frequency-Inverse Document Frequency) (TF-IDF)، وأخيرا عن طريق دمج (N-gram) و(TF-IDF)، ومن ثم تم تقييم هذه المصنفات اعتمادا على نتائج وقيم كل من Recall, Precision, and F-measure. تم تطبيق المصنفات المقترحة على قاعدة البيانات العربية والتي تحتوي على ستة مجموعات وعدد الوثائق في جميع المجموعات ما يقارب 1500 وثيقة عربيه مختلفة. وكان متوسط F-measure لجميع classes عند تطبيق bigram (81.46%)؛ في حين أن متوسط F-measure عند تطبيق (TF-IDF) (88.88%) ومتوسط F-measure عند تطبيق مزيج من كل bigram و(TF-IDF) كان (89.70%). هذه النتائج أثبتت أن المصنف الذي يطبق كل من (TF-IDF) و(bigram) هو أفضل مصنف بين المصنفات الثلاثة المقترحة. 
653 |a علوم الحاسوب  |a تصنيف الوثائق  |a النماذج الحاسوبية  |a نموذج الحدود نيف بايز 
700 |9 379812  |a Al Husainy, Mohammed A. F.  |e Advisor 
856 |u 9802-015-008-0074-T.pdf  |y صفحة العنوان 
856 |u 9802-015-008-0074-A.pdf  |y المستخلص 
856 |u 9802-015-008-0074-C.pdf  |y قائمة المحتويات 
856 |u 9802-015-008-0074-F.pdf  |y 24 صفحة الأولى 
856 |u 9802-015-008-0074-1.pdf  |y 1 الفصل 
856 |u 9802-015-008-0074-2.pdf  |y 2 الفصل 
856 |u 9802-015-008-0074-3.pdf  |y 3 الفصل 
856 |u 9802-015-008-0074-4.pdf  |y 4 الفصل 
856 |u 9802-015-008-0074-5.pdf  |y 5 الفصل 
856 |u 9802-015-008-0074-6.pdf  |y 6 الفصل 
856 |u 9802-015-008-0074-R.pdf  |y المصادر والمراجع 
856 |u 9802-015-008-0074-S.pdf  |y الملاحق 
930 |d y 
995 |a Dissertations 
999 |c 725708  |d 725708 

عناصر مشابهة