ارسل ملاحظاتك

ارسل ملاحظاتك لنا







A Comparative Study for Arabic Language Stemming and Classification in Different Approaches

العنوان بلغة أخرى: دراسة مقارنة لاستخراج جذور الكلمات وتصنيفها بمناهج مختلفة باللغة العربية
المؤلف الرئيسي: العمري، ربى اسماعيل (مؤلف)
مؤلفين آخرين: كنعان، غسان غازى (مشرف)
التاريخ الميلادي: 2018
موقع: عمان
الصفحات: 1 - 66
رقم MD: 990679
نوع المحتوى: رسائل جامعية
اللغة: الإنجليزية
الدرجة العلمية: رسالة ماجستير
الجامعة: جامعة عمان العربية
الكلية: كلية العلوم الحاسوبية والمعلوماتية
الدولة: الاردن
قواعد المعلومات: Dissertations
مواضيع:
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

25

حفظ في:
المستخلص: يدرس هذا البحث التصنيف التلقائي للنص العربي باستخدام تقنيات ومناهج مختلفة من المعالجة المسبقة للنصوص. يمكن تحليل المقالات الإخبارية إلى البيانات التي تمت معالجتها عن طريق تطبيق معالجة اللغة العربية الطبيعية (NLP) بطرق مختلفة. لتحليل المستندات، استخدمنا أربعة خوارزميات تصنيف شعبية مختلفة (RF, NB, SVM, KNN) تتضمن تقنيات المعالجة المسبقة للنصوص دراسة تأثير إزالة كلمات التوقف، وتطبيع النص معا، ثم تطبيق stemming. استخدمنا ثلاثة أنواع مختلفة من الجذوع (P-Stemmer، Snowball Stemmer، وخوجا Stemmer). كما تبحث الدراسة في دقة استخدام خطوات المعالجة المسبقة بتقنيات تصنيف مختلفة بالنسبة للفئات. عينة الدراسة تتألف من ٣٧٥٠ مقال إخباري مقسم على خمس فئات وقد تم تجميع البيانات من اثنا عشر جريدة إخبارية. أظهرت النتائج أن SVM متفوق على المصنفات الأخرى، كما أعطى p-stemmer نتائج جيده على كل من (SVM,RF and NB) في حين أظهر خوجا تقدما على KNN. تتمتع فئة الرياضة بأفضل نتيجة على جميع الفئات الأخرى وأعطت snowball أعلى النتائج على فئة الرياضة بدقة 98.3%

عناصر مشابهة