ارسل ملاحظاتك

ارسل ملاحظاتك لنا







The Effect of the Number of Clusters on K-Means Performance

العنوان بلغة أخرى: تأثير عدد العناقيد على أداء خوارزمية العنقدة
المؤلف الرئيسي: الأخرس، طه محمد عثمان (مؤلف)
مؤلفين آخرين: عطير، محمد عبدالله عارف (مشرف)
التاريخ الميلادي: 2021
موقع: عمان
الصفحات: 1 - 109
رقم MD: 1257408
نوع المحتوى: رسائل جامعية
اللغة: الإنجليزية
الدرجة العلمية: رسالة ماجستير
الجامعة: جامعة عمان العربية
الكلية: كلية العلوم الحاسوبية والمعلوماتية
الدولة: الاردن
قواعد المعلومات: Dissertations
مواضيع:
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

11

حفظ في:
المستخلص: الخوارزمية الأكثر استخداما في التجميع هي خوارزمية ال (K-Means)، تاريخيا تعد خوارزمية ال (K-Means) أفضل وأسرع خوارزمية تجميع بين الخوارزميات الأخرى ولديها القدرة على التعامل مع البيانات الضخمة في وقت قصير ووقت حوسبة فعال (Umargono et al, 2020). وتستخدم خوارزمية ال (K-Means) على نطاق واسع في مختلف المجالات، في التنقيب عن البيانات والتعلم الآلي ومعالجة الصور، لكن لا تزال هناك نقاط ضعف في هذه الخوارزمية أولا: يعتمد تحديد عدد المجموعات مسبقا على افتراضيات، ثانيا يكون الاختيار الأولي لعدد العناقيد عشوائيا، ومن اجل التعامل مع نقاط الضعف هذه هناك المئات من الأبحاث والكثير من الطرق لتحديد عدد العناقيد مسبقا، في هذه الدراسة سوف نوضح تأثير عدد العناقيد على أداء خوارزمية العنقدة وسوف نقترح تقنية لاستخدامها لتحديد عدد المجموعات الأمثل مسبقا ، وسنقارن نتائج التقنية المقترحة مع طريقة ال (elbow) وطريقة ال (gap) بالإضافة إلى 26 طريقة أخرى متوفرة في حزمة ال (noblest) والنسبة بين مجموع المربعات بين المجموعات(between-ss) إلى مجموع المربعات الكلى(total_ss) والتي كلما اقتربت من الواحد كلما زادة دقة العنقدة، كما سيتم استخدام ثلاثة أنواع مختلفة من مجموعة البيانات التي خضعت لدراسات سابقة على الخوارزميات العنقودية (iris dataset, wine dataset, yeast dataset)، وتشير نتائج هذه الدراسة إلى انه وبالتأكيد لا يوجد خيار بالإجماع فيما يتعلق بالعدد الأمثل للعناقيد بين جميع الطرق السابقة، وكانت نتائج التقنية المقترحة ناجحة إلى حد كبير في تحديد عدد المجموعات حيث كانت النتائج (between_SS / total_SS = 90.2%) مع مجموعة البيانات (wine) و (71.5%) مع مجموعة البيانات (iris ) و ( 81.8%) مع مجموعة البيانات (yeast) وهى نسب جيدة جدا، كما انه حاولنا إعطاء مراكز العناقيد مسبقا، كانت ناجحة مع مجموعة البيانات (wine) و (iris) و لم تنجح مع مجموعة البيانات (yeast).

عناصر مشابهة