المستخلص: |
الخوارزمية الأكثر استخداما في التجميع هي خوارزمية ال (K-Means)، تاريخيا تعد خوارزمية ال (K-Means) أفضل وأسرع خوارزمية تجميع بين الخوارزميات الأخرى ولديها القدرة على التعامل مع البيانات الضخمة في وقت قصير ووقت حوسبة فعال (Umargono et al, 2020). وتستخدم خوارزمية ال (K-Means) على نطاق واسع في مختلف المجالات، في التنقيب عن البيانات والتعلم الآلي ومعالجة الصور، لكن لا تزال هناك نقاط ضعف في هذه الخوارزمية أولا: يعتمد تحديد عدد المجموعات مسبقا على افتراضيات، ثانيا يكون الاختيار الأولي لعدد العناقيد عشوائيا، ومن اجل التعامل مع نقاط الضعف هذه هناك المئات من الأبحاث والكثير من الطرق لتحديد عدد العناقيد مسبقا، في هذه الدراسة سوف نوضح تأثير عدد العناقيد على أداء خوارزمية العنقدة وسوف نقترح تقنية لاستخدامها لتحديد عدد المجموعات الأمثل مسبقا ، وسنقارن نتائج التقنية المقترحة مع طريقة ال (elbow) وطريقة ال (gap) بالإضافة إلى 26 طريقة أخرى متوفرة في حزمة ال (noblest) والنسبة بين مجموع المربعات بين المجموعات(between-ss) إلى مجموع المربعات الكلى(total_ss) والتي كلما اقتربت من الواحد كلما زادة دقة العنقدة، كما سيتم استخدام ثلاثة أنواع مختلفة من مجموعة البيانات التي خضعت لدراسات سابقة على الخوارزميات العنقودية (iris dataset, wine dataset, yeast dataset)، وتشير نتائج هذه الدراسة إلى انه وبالتأكيد لا يوجد خيار بالإجماع فيما يتعلق بالعدد الأمثل للعناقيد بين جميع الطرق السابقة، وكانت نتائج التقنية المقترحة ناجحة إلى حد كبير في تحديد عدد المجموعات حيث كانت النتائج (between_SS / total_SS = 90.2%) مع مجموعة البيانات (wine) و (71.5%) مع مجموعة البيانات (iris ) و ( 81.8%) مع مجموعة البيانات (yeast) وهى نسب جيدة جدا، كما انه حاولنا إعطاء مراكز العناقيد مسبقا، كانت ناجحة مع مجموعة البيانات (wine) و (iris) و لم تنجح مع مجموعة البيانات (yeast).
|