المستخلص: |
يدرس هذا البحث التصنيف التلقائي للنص العربي باستخدام تقنيات ومناهج مختلفة من المعالجة المسبقة للنصوص. يمكن تحليل المقالات الإخبارية إلى البيانات التي تمت معالجتها عن طريق تطبيق معالجة اللغة العربية الطبيعية (NLP) بطرق مختلفة. لتحليل المستندات، استخدمنا أربعة خوارزميات تصنيف شعبية مختلفة (RF, NB, SVM, KNN) تتضمن تقنيات المعالجة المسبقة للنصوص دراسة تأثير إزالة كلمات التوقف، وتطبيع النص معا، ثم تطبيق stemming. استخدمنا ثلاثة أنواع مختلفة من الجذوع (P-Stemmer، Snowball Stemmer، وخوجا Stemmer). كما تبحث الدراسة في دقة استخدام خطوات المعالجة المسبقة بتقنيات تصنيف مختلفة بالنسبة للفئات. عينة الدراسة تتألف من ٣٧٥٠ مقال إخباري مقسم على خمس فئات وقد تم تجميع البيانات من اثنا عشر جريدة إخبارية. أظهرت النتائج أن SVM متفوق على المصنفات الأخرى، كما أعطى p-stemmer نتائج جيده على كل من (SVM,RF and NB) في حين أظهر خوجا تقدما على KNN. تتمتع فئة الرياضة بأفضل نتيجة على جميع الفئات الأخرى وأعطت snowball أعلى النتائج على فئة الرياضة بدقة 98.3%
|