ارسل ملاحظاتك

ارسل ملاحظاتك لنا







Arabic Text Classification Based on Term Distribution

العنوان بلغة أخرى: تصنيف النصوص العربية بالاعتماد على توزيع المصطلحات
المؤلف الرئيسي: الشريقي، حمزة سليمان سلام (مؤلف)
مؤلفين آخرين: البشير، محمد سعيد منصور (مشرف)
التاريخ الميلادي: 2018
موقع: المفرق
الصفحات: 1 - 47
رقم MD: 902686
نوع المحتوى: رسائل جامعية
اللغة: الإنجليزية
الدرجة العلمية: رسالة ماجستير
الجامعة: جامعة آل البيت
الكلية: كلية تكنولوجيا المعلومات
الدولة: الاردن
قواعد المعلومات: Dissertations
مواضيع:
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

23

حفظ في:
المستخلص: في هذا البحث، تم اقتراح نظام لتصنيف نصوص العربية يعتمد على آلة دعم المتجهات (SVM)، واثنين من طرق الاختيار المحسنة للمميزات (ITFIDF وTF-IDF-CF)، وهما عبارة عن تطوير لخوارزمية (TF-IDF). النظام يتكون من ثلاث مراحل رئيسية: المعالجة المسبقة، واختيار الكلمات المميزة، والتصنيف. في مرحلة المعالجة المسبقة، يتم تحويل سلسلة مستندات الإدخال إلى كلمات. ثم تتم إزالة كلمات التوقف ويتم حذف الأرقام والرموز الخاصة. بعد ذلك، يتم تطبيق التجذير الخفيف لإزالة اللواحق والبادئات من الأحرف. بعد ذلك، يتم تحديد الميزات باستخدام TF-IDF المحسن (ITFIDF)‏ وTF-IDF-CF، ليكون بمثابة مدخلات SVM‏ لتصنيف النص. تستخدم الخوارزميات المقترحة توزيع المصطلح لتحسين خوارزمية TF-IDF. تم تطبيق نظام تصنيف النصوص العربية والتحقق منه على مجموعة بيانات من ‎20230‏ وثيقة عربية. بالإضافة إلى ذلك، تم اختبار ومقارنة نتائج الخوارزميات المقترحة بالخوارزمية (TF-IDF) باستخدام نفس مجموعة البيانات من حيث الدقة والاستدعاء ومعايير قياس F1‏. بلغت قيم معايير الأداء هذه التي تم الحصول عليها مع نظام التصنيف المقترح ‎٨٧%‏ و ‎85%‏ و86% على التوالي. للتحقق من صحة أداء النظام وخطوات المعالجة المسبقة، تم مقارنة نتائج النظام مع أبحاث سابقة بنفس الظروف.

عناصر مشابهة