العنوان بلغة أخرى: |
طريقة هجينة "Undersampling-SMOTE" لتصنيف البيانات الضخمة غير المتوازنة |
---|---|
المصدر: | مجلة التربية والعلم |
الناشر: | جامعة الموصل - كلية التربية |
المؤلف الرئيسي: | رزوقي، شيماء أحمد (مؤلف) |
المؤلف الرئيسي (الإنجليزية): | Razoqi, Shaymaa Ahmed |
مؤلفين آخرين: | الطالب، غيداء عبدالعزيز (م. مشارك) |
المجلد/العدد: | مج32, ع4 |
محكمة: | نعم |
الدولة: |
العراق |
التاريخ الميلادي: |
2023
|
الصفحات: | 81 - 90 |
ISSN: |
1812-125X |
رقم MD: | 1468664 |
نوع المحتوى: | بحوث ومقالات |
اللغة: | الإنجليزية |
قواعد المعلومات: | EduSearch |
مواضيع: | |
كلمات المؤلف المفتاحية: |
Big Data | Classification | Imbalanced Problem | Resampling | Clustering
|
رابط المحتوى: |
الناشر لهذه المادة لم يسمح بإتاحتها. |
LEADER | 04418nam a22002417a 4500 | ||
---|---|---|---|
001 | 2212933 | ||
041 | |a eng | ||
044 | |b العراق | ||
100 | |a رزوقي، شيماء أحمد |g Razoqi, Shaymaa Ahmed |e مؤلف |9 643097 | ||
245 | |a A Hybrid Undersampling-SMOTE Method for Imbalanced Big Data Classification | ||
246 | |a طريقة هجينة "Undersampling-SMOTE" لتصنيف البيانات الضخمة غير المتوازنة | ||
260 | |b جامعة الموصل - كلية التربية |c 2023 | ||
300 | |a 81 - 90 | ||
336 | |a بحوث ومقالات |b Article | ||
520 | |a بعد اختلال توازن البيانات من أهم المشاكل والتحديات التي تواجه تصنيف البيانات. وهذا من شأنه أن يؤدي إلى ضعف أداء المصنفات الثنائية، وذلك بسبب انحياز التصنيف نحو فئة الأغلبية وتجاهل تأثير فئة الأقلية، في حين أن فئة الأقلية غالبا ما تكون هي الأكثر أهمية عند التصنيف من أجل إيجاد حل وسط بين فقدان المعلومات وموازنة مجموعة البيانات قبل تطبيق التصنيف، اقترح البحث خوارزمية هجينة تعتمد على استخدام طرق التجميع لتقسيم فئة الأغلبية إلى مجموعات فرعية في المرحلة الأولى، واستخدام أسلوب ترميز فئة الأغلبية. تستخدم الخوارزمية الرموز لتجميع العينات المتشابهة مع بعضها البعض وتقليل عدد عينات فئة الأغلبية. بينما تم استخدام تقنية الإفراط في أخذ عينات الأقليات الاصطناعية (SMOTE) لزيادة عدد عينات فئة الأقليات في المرحلة التالية. يدرس البحث تأثيرات الخوارزمية المقترحة على خمسة مصنفات اعتمادا على مقاييس الأداء AUC وF-score بعد تطبيق التصنيف باستخدام مجموعات البيانات المعيارية ذات أبعاد ونسب عدم توازن مختلفة. أظهرت النتائج أن الخوارزمية المقترحة أعطت نتائج جيدة في تحسين أداء المصنفات عند تطبيقها على البيانات بعد إعادة التوزيع. |b Imbalanced data is an important issues and challenges faced in data classification. This will lead to poor performance of binary classifiers, this is due to bias in classification in favour of the majority class and lack of understanding of the influence of the minority class, while the minority class is usually the most important in the classification process. In order to find a compromise between the information loss and balance the data set before applying the classification, the research proposed a hybrid algorithm based on the use of clustering methods to divide the majority class into subgroups in the first phase, and using a method to encode the majority class. The Algorithm used the code to group samples that are similar to each other and reduce the majority class count. At the same time, the Synthetic Minority Oversampling Technique (SMOTE) was used to increase the number of minority class samples in the next phase. The study examined the impact of the proposed algorithm on five classifiers based on the AUC and F-score post-classification performance parameters using benchmark datasets with different sizes and imbalance factors. The results showed that the proposed algorithm significantly improved the performance of the classifiers when applied to the resampled data. | ||
653 | |a الخوارزميات الهجينة |a البيانات الضخمة |a المصنفات الثنائية |a الأقليات الاصطناعية | ||
692 | |b Big Data |b Classification |b Imbalanced Problem |b Resampling |b Clustering | ||
700 | |9 134828 |a الطالب، غيداء عبدالعزيز |e م. مشارك |g Al-Talib, Ghayda A. A. | ||
773 | |4 التربية والتعليم |6 Education & Educational Research |c 008 |e Journal of Education and Science |f Mağallaẗ al-tarbiyaẗ wa-al-ʻilm |l 004 |m مج32, ع4 |o 0168 |s مجلة التربية والعلم |v 032 |x 1812-125X | ||
856 | |u 0168-032-004-008.pdf | ||
930 | |d n |p y |q n | ||
995 | |a EduSearch | ||
999 | |c 1468664 |d 1468664 |