العنوان بلغة أخرى: |
طريقة تصنيف الوثيقة استنادا إلى محتوياتها باستخدام تحسين نموذج الحدود نيف بايز |
---|---|
المؤلف الرئيسي: | Al Bayati, Junaina Jamil Najim (Author) |
مؤلفين آخرين: | Al Husainy, Mohammed A. F. (Advisor) |
التاريخ الميلادي: |
2015
|
موقع: | عمان |
الصفحات: | 1 - 74 |
رقم MD: | 725708 |
نوع المحتوى: | رسائل جامعية |
اللغة: | الإنجليزية |
الدرجة العلمية: | رسالة ماجستير |
الجامعة: | جامعة الشرق الأوسط |
الكلية: | كلية تكنولوجيا المعلومات |
الدولة: | الاردن |
قواعد المعلومات: | Dissertations |
مواضيع: | |
رابط المحتوى: |
المستخلص: |
في الوقت الحاضر، هناك الملايين من الوثائق التي تتوفر في معظم مجالات في حياتنا. يجب تنظيم هذه الوثائق وتصنيفها تحت موضوع معين ليكون أكثر وضوحا، وللاستفادة منها بشكل أفضل. تصنيف النصوص هي إحدى الأساليب التي تطبق بهدف تنظيم الوثائق، ويمكن تعريف تصنيف النصوص بأنه أسلوب يتم من خلاله اكتشاف المجموعة التي تنتمي إليها وثيقة معينة، لقد تم إجراء العديد من الأبحاث حول هذا العلم وما زالت تلك الأبحاث تجرى إلى الوقت الحالي بهدف التحسين من فعاليتها وخاصة عملية تصنيف الوثائق والنصوص العربية. وذلك لأن اللغة العربية غنية ومعقدة للغاية، فالعمليات التي تجرى على النصوص العربية تكون أكثر تعقيدا من غيرها. في هذا البحث نهدف إلى زيادة وتعزيز أداء متعددة الحدود نيف بايز باستخدام ثلاث طرق. أول طريقة بإضافة فقط N-gram، والثاني باستخدام (Term Frequency-Inverse Document Frequency) (TF-IDF)، وأخيرا عن طريق دمج (N-gram) و(TF-IDF)، ومن ثم تم تقييم هذه المصنفات اعتمادا على نتائج وقيم كل من Recall, Precision, and F-measure. تم تطبيق المصنفات المقترحة على قاعدة البيانات العربية والتي تحتوي على ستة مجموعات وعدد الوثائق في جميع المجموعات ما يقارب 1500 وثيقة عربيه مختلفة. وكان متوسط F-measure لجميع classes عند تطبيق bigram (81.46%)؛ في حين أن متوسط F-measure عند تطبيق (TF-IDF) (88.88%) ومتوسط F-measure عند تطبيق مزيج من كل bigram و(TF-IDF) كان (89.70%). هذه النتائج أثبتت أن المصنف الذي يطبق كل من (TF-IDF) و(bigram) هو أفضل مصنف بين المصنفات الثلاثة المقترحة. |
---|