The Effect of the Number of Clusters on K-Means Performance

الأخرس، طه محمد عثمان; عطير، محمد عبدالله عارف

The Effect of the Number of Clusters on K-Means Performance

العنوان بلغة أخرى:	تأثير عدد العناقيد على أداء خوارزمية العنقدة
المؤلف الرئيسي:	الأخرس، طه محمد عثمان (مؤلف)
المؤلف الرئيسي (الإنجليزية):	Alakhras, Taha Mohammad Othman
مؤلفين آخرين:	عطير، محمد عبدالله عارف (مشرف)
محكمة:	نعم
التاريخ الميلادي:	2021
موقع:	عمان
الصفحات:	1 - 109
رقم MD:	1257408
نوع المحتوى:	رسائل جامعية
اللغة:	الإنجليزية
الدرجة العلمية:	رسالة ماجستير
الجامعة:	جامعة عمان العربية
الكلية:	كلية العلوم الحاسوبية والمعلوماتية
الدولة:	الاردن
قواعد المعلومات:	Dissertations
مواضيع:	التعلم الآلي \| الخوارزميات العنقودية \| الخوارزميات البيانية \| معالجة الصور \| الصور الرقمية
رابط المحتوى:	صفحة العنوان المستخلص قائمة المحتويات 24 صفحة الأولى 1 الفصل 2 الفصل 3 الفصل 4 الفصل 5 الفصل المصادر والمراجع الملاحق

عدد مرات التحميل

15

المستخلص:

الخوارزمية الأكثر استخداما في التجميع هي خوارزمية ال (K-Means)، تاريخيا تعد خوارزمية ال (K-Means) أفضل وأسرع خوارزمية تجميع بين الخوارزميات الأخرى ولديها القدرة على التعامل مع البيانات الضخمة في وقت قصير ووقت حوسبة فعال (Umargono et al, 2020). وتستخدم خوارزمية ال (K-Means) على نطاق واسع في مختلف المجالات، في التنقيب عن البيانات والتعلم الآلي ومعالجة الصور، لكن لا تزال هناك نقاط ضعف في هذه الخوارزمية أولا: يعتمد تحديد عدد المجموعات مسبقا على افتراضيات، ثانيا يكون الاختيار الأولي لعدد العناقيد عشوائيا، ومن اجل التعامل مع نقاط الضعف هذه هناك المئات من الأبحاث والكثير من الطرق لتحديد عدد العناقيد مسبقا، في هذه الدراسة سوف نوضح تأثير عدد العناقيد على أداء خوارزمية العنقدة وسوف نقترح تقنية لاستخدامها لتحديد عدد المجموعات الأمثل مسبقا ، وسنقارن نتائج التقنية المقترحة مع طريقة ال (elbow) وطريقة ال (gap) بالإضافة إلى 26 طريقة أخرى متوفرة في حزمة ال (noblest) والنسبة بين مجموع المربعات بين المجموعات(between-ss) إلى مجموع المربعات الكلى(total_ss) والتي كلما اقتربت من الواحد كلما زادة دقة العنقدة، كما سيتم استخدام ثلاثة أنواع مختلفة من مجموعة البيانات التي خضعت لدراسات سابقة على الخوارزميات العنقودية (iris dataset, wine dataset, yeast dataset)، وتشير نتائج هذه الدراسة إلى انه وبالتأكيد لا يوجد خيار بالإجماع فيما يتعلق بالعدد الأمثل للعناقيد بين جميع الطرق السابقة، وكانت نتائج التقنية المقترحة ناجحة إلى حد كبير في تحديد عدد المجموعات حيث كانت النتائج (between_SS / total_SS = 90.2%) مع مجموعة البيانات (wine) و (71.5%) مع مجموعة البيانات (iris ) و ( 81.8%) مع مجموعة البيانات (yeast) وهى نسب جيدة جدا، كما انه حاولنا إعطاء مراكز العناقيد مسبقا، كانت ناجحة مع مجموعة البيانات (wine) و (iris) و لم تنجح مع مجموعة البيانات (yeast).

عناصر مشابهة

An Algorithm to Recognize Number in Image Based on Statistical Image Analysis
بواسطة: Elnjar, Amna Mohamed Younis منشور: (2013)
Content-Based Image Retrieval (CBIR) System Based on the Clustering and Genetic Algorithm
بواسطة: Mikhraq, Ahmed K. منشور: (2013)
Using Machine Learning Algorithms to Detect Smile in Pictures Based on Geometric Features
بواسطة: محمد، دعاء احمد جبريل منشور: (2018)
Query Sensitive Similarity Measure For Content Based Image Retrieval Using Meta Heuristic Algorithm
بواسطة: Alsmadi, Mutasem K. منشور: (2018)
Big Data Analysis Using Hybrid Harris Hawks Optimizer and Mapreduce Framework
بواسطة: البشابشه، محمد قاسم منشور: (2021)

The Effect of the Number of Clusters on K-Means Performance

عدد مرات التحميل

15

عناصر مشابهة

دليل المستخدم

دليل الفيديو