المستخلص: |
تحديد المنشورات العلمية باستخدام محركات البحث والمكتبات الرقمية هي عملية تستغرق وقتا طويلا. يقضي العديد من الباحثين وطلاب الدراسات العليا وقتا طويلا في البحث عن منشورات باستخدام محركات بحث مختلفة ومكتبات رقمية دون أن يتمكنوا من العثور على العديد من المنشورات الهامة التي تتعلق باستفساراتهم. ويحتاج الباحثون إلى إجراء مراجعة منهجية للأدبيات لموضوع معين، ويحتاجون إلى قضاء أوقات طويلة جدا لتحليل وتصنيف الأدب في نماذج وتقنيات مختلفة. كشف الاتجاه وتحليل المنشورات العلمية أصبحت قضايا مهمة جدا. قد لا تكون تحليلات البيانات التقليدية قادرة على التعامل مع كميات كبيرة من البيانات خلال فترة محددة. لذلك، هناك حاجة إلى استخدام منصات البيانات الكبيرة والتقنيات العالية الأداء لتحليل كفاءة المقالات العلمية واستخدام خوارزميات استخراج البيانات المناسبة لتحليل وتصنيف المقالات المختارة. لهذا الغرض، أجرينا دراسة استقصائية لمعرفة كيفية تحديد الباحثين للمواد البحثية وتصنيفها لتلبية احتياجاتهم. ونتيجة لذلك، أظهرت نتائج الاستطلاع أن الباحث العلمي من (Google) هو محرك البحث الأكثر استخداما للعثور على منشورات علمية ذات صلة بموضوع البحث، كما أن معظم الباحثين قد واجهوا صعوبات في استرجاع المقالات العلمية ذات الصلة، وقضى العديد من الباحثين أكثر من شهرين للحصول على المنشورات المطلوبة لموضوعات بحثهم وتحليلها. يهدف المشروع إلى مساعدة الباحثين من خلال توفير نموذج تصنيف تلقائي للمقالات العلمية في موضوع بحث معين. يستخدم النظام المقترح حلول البيانات الضخمة (Hadoop و Mahout) لتحميل وتحليل المقالات لموضوع بحث معين من محركات البحث المختلفة والمكتبات الرقمية. يحتاج النظام المقترح إلى استخدام خوارزميات وتقنيات استخراج البيانات مثل التعلم الخاضع للإشراف (نموذج VSM، تجميع الكلمات الرئيسية أو التحديدات المميزة) والتعلم غير الخاضع للإشراف (خوارزمية k-means) لتصنيف المقالات البحثية إلى نماذج مختلفة، ومجالات المعرفة والاتجاهات البحثية. لقد طورنا نظاما أوليا للنهج المقترح وقيمنا أدائه باستخدام مقاييس مختلفة. لقد قمنا باختبار وتقييم النظام باستخدام أحجام مختلفة للبيانات وموضوعات مختلفة في مجال البحث. تم الحصول على أعلى أداء عند تصنيف مجموعة البيانات إلى مجموعتين تجميعيتين (k= 2) باستخدام خوارزمية (k-means) بدقة (91.04%) وPrecision بمعدل (0.5241) وRecall بمعدل (0.9112) وF-Measure بمعدل (0.9104). في الختام، يمكن تحسين النظام المقترح في المستقبل من خلال توسيع مجموعة البيانات للحصول على نتائج أعلى دقة باستخدام تقنيات مختلفة لاستخراج البيانات (مثل التعلم شبه الخاضع للإشراف)، ذلك باستخدام المزيد من العناصر من المنشورات (على سبيل المثال، الكلمات المفتاحية، والملخصات والاستشهاديات، والمراجع) وتركيباتها لتحسين قابلية تطوير النظام وكفاءته.
|