المستخلص: |
لقد أصبحت عملية تصنيف البيانات تزداد خلال السنوات الماضية نتيجة الطلب المتزايد على المعلومات من خلال المواضيع والتطبيقات المختلفة. ولذلك يمكن تعريف عملية تصنيف البيانات بأنها طريقة تصنيف أو ترتيب البيانات بطرق مختلفة مع الأخذ بعين الاعتبار محاور واعتبارات مختلفة بناء على البيانات المراد تصنيفها. في هذا الرسالة، سيتم فحص أداء خوارزميات متعددة وتطبيقها على قاعدتين بيانات، الأولى: بيانات الموظفين الذين يغادرون العمل قبل انتهاء ساعات العمل الرسمية، والثانية، حركات الاحتيال على البطاقات الائتمانية الصادرة من أملي البطاقات الأوروبيون في عام 2013، وسوف يتم عرض النتائج بناء على أدوات قياس مختلفة وباستخدام أداة (WEKA) لتصنيف البيانات. وخلال إجراء عملية التصنيف، تم استخدام مرشح أو منقي (Filter) يسمى (Filter Nominal to Binary) وتطبيق الخوارزميات التالية، (Bagging) و(AdaBoostM) و(Ensemble Selection). وتمت عملية المقارنة بين هذه الخوارزميات استنادا على أدوات القياس الموجودة في الأداة المستخدمة، ولقد أظهرت النتائج أنه عند تطبيق مرشحات بغير إشراف (Unsupervised Filtering)، تبين أن جميع الخوارزميات المستخدمة لها نفس النتائج عند التطبيق على كل من مجموعات البيانات. أما عند تطبيق مرشحات مع الأشراف (Supervised Filtering)، فإن النتائج أصبحت مختلفة ولقد تم ترتيبها تصاعديا من الأقل إلى الأعلى كالتالي: (Bagging)، ومن ثم (Ensemble Selection)، وأخيرا (AdaBoostM). أما الترتيب التنازلي فهو، (AdaBoostM)، ومن ثم (Ensemble Selection)، وأخيرا (Bagging). وفي النهاية، نستعرض الملخص للبحث والنتائج النهائية التي تبين من الأفضل في هذه الخوارزميات بناء على الأدوات القياسية المستخدمة.
|