ارسل ملاحظاتك

ارسل ملاحظاتك لنا









A Comparative Study between Linear Discriminant Analysis and Multinomial Logistic Regression

العنوان بلغة أخرى: دراسة مقارنة بين التحليل التمييزي الخطي و الانحدار اللوجستي المتعدد
المصدر: مجلة جامعة النجاح للأبحاث - العلوم الإنسانية
الناشر: جامعة النجاح الوطنية
المؤلف الرئيسي: El Habil, Abd Allah (Author)
مؤلفين آخرين: El Jazzar, Majed (Co-auth.)
المجلد/العدد: مج28, ع6
محكمة: نعم
الدولة: فلسطين
التاريخ الميلادي: 2014
الصفحات: 1525 - 1548
ISSN: 1727-8449
رقم MD: 625570
نوع المحتوى: بحوث ومقالات
اللغة: الإنجليزية
قواعد المعلومات: HumanIndex
مواضيع:
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

121

حفظ في:
المستخلص: هدفت هذه الدراسة إلى إجراء مقارنة بين أسلوبين من أساليب التصنيف و التنبؤ، و هي التحليل التمييزي الخطي وأسلوب الانحدار اللوجستي المتعدد وذلك لفهم كيفية عمل كلا النموذجين في التصنيف والتنبؤ تحت تأثير الخصائص والصفات المختلفة للبيانات. تم في هذه الدراسة تقييم كلا الأسلوبين من خلال استخدام مجموعة بيانات حقيقية حيث كان المعيار المستخدم للمقارنة بين هذين النموذجين هو دقة التصنيف التي تم حسابها بطريقتين مختلفتين والمساحة تحت المنحنى AUC لتحليل الـROC ، كما تم توليد بيانات باستخدام برامج الحاسوب بحيث تحقق هذه البيانات الافتراضات الأساسية لنموذج التحليل التمييزي الخطي في أنها تتبع التوزيع الطبيعي المتعدد وتتساوى فيها مصفوفة التباينات المشتركة، وذلك بهدف مقارنة قدرة كل من النموذجين على التصنيف والتنبؤ تحت تأثير الاختلاف في حجم البيانات وعدد فئات المتغير التابع والمسافة بين متوسطات المجموعات التي تحتاج إلى تصنيف والارتباط الداخلي بين المتغيرات المستقلة. عند تطبيق كلا النموذجين على البيانات الحقيقية، فقد وجد أن النتائج كانت متشابهة لكلا النموذجين من حيث المعاملات التي تم تقديرها والتي يمكن استخدامها للتنبؤ بالإصابة أو عدم الإصابة بمرض السكري، ورغم أن دقة التصنيف لأسلوب الانحدار اللوجستي كانت أعلى بقليل من دقة التصنيف لأسلوب التحليل التمييزي، إلا أنه عند أخذ معيار sensitivity و specificity والمساحة تحت المنحنى AUC لتحليل الـROC فقد وجد أن الفرق بين كلا النموذجين في التصنيف كان ضئيلا. وفي حالة البيانات المولدة فقد أكدت النتائج أن تأثير الاختلاف في حجم البيانات والاختلاف في عدد فئات المتغير التابع والمسافة بين متوسطات المجموعات كان لها نفس الأثر على أداء كل من النموذجين، وكلا النموذجين كان أداؤهما في التصنيف أفضل في ظل عدم وجود ارتباط داخلي بين المتغيرات المستقلة.

This paper aimed to compare between the two different methods of classification: linear discriminant analysis (LDA) and multinomial logistic regression (MLR) using the overall classification accuracy, investigating their quality of prediction in terms of sensitivity and specificity, and examining area under the ROC curve (AUC) in order to make the choice between the two methods easier, and to understand how the two models behave under different data and group characteristics. Model performance had been assessed from two special cases of the kfold partitioning technique, the ‘leave-one-out’ and ‘hold out’ procedures. The performance evaluation for the two methods was carried out using real data and also by simulation. Results show that logistic regression slightly exceeds linear discriminant analysis in the correct classification rate, but when taking into account sensitivity, specificity and AUC, the differences in the AUC were negligible. By simulation, we examined the impact of changes regarding the sample size, distance between group means, categorization, and correlation matrices between the predictors on the performance of each method. Results indicate that the variation in sample size, values of Euclidean distance, different number of categories have similar impact on the result for the two methods, and both methods LDA and MLR show a significant improvement in classification accuracy in the absence of multicollinearity among the explanatory variables.

ISSN: 1727-8449

عناصر مشابهة