ارسل ملاحظاتك

ارسل ملاحظاتك لنا







A New Approach Based on Soft Frequent Pattern Mining for Detecting Significant Events in Arabic Microblogs

العنوان بلغة أخرى: تطوير منهجية تعتمد على تنقيب الأنماط المتكررة المرنة للكشف عن الأحداث الهامة فى المدونلا العربية المصغرة
المؤلف الرئيسي: زانداح، جهاد حسام صالح (مؤلف)
مؤلفين آخرين: مغارى، أشرف يونس (مشرف)
التاريخ الميلادي: 2018
موقع: غزة
الصفحات: 1 - 76
رقم MD: 1013820
نوع المحتوى: رسائل جامعية
اللغة: الإنجليزية
الدرجة العلمية: رسالة ماجستير
الجامعة: الجامعة الإسلامية (غزة)
الكلية: كلية تكنولوجيا المعلومات
الدولة: فلسطين
قواعد المعلومات: Dissertations
مواضيع:
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

15

حفظ في:
المستخلص: حديثا، أصبحت المدونات الصغيرة وسيلة اتصال جديدة بين المستخدمين. فقد سمحت لملايين المستخدمين من نشر ومشاركة محتويات متعلقة بأنشطتهم وأراءهم عن مواضيع مختلفة. إن نشر المحتوى المتعلق بالأحداث الجارية في العالم الحقيقي قد جذب الناس لمتابعة الأحداث من خلال المدونات الصغيرة بدلا من وسائل الإعلام الرئيسية. نتيجة لذلك، أصبحت هناك حاجة طارئة لكشف الأحداث من المدونات الصغيرة حتى يتمكن المستخدمون من تحديد الأحداث الجارية بشكل أسرع، أيضا والأهم من ذلك، مساعدة السلطات العليا للاستجابة بشكل سريع في عمل اللازم عند حدوث حدثا ما. في حين أنه أجريت العديد من الأبحاث على كشف الأحداث باللغة الإنجليزية، إلا أن السياق العربي لم يأخذ نصيبا وفيرا في هذا المجال، على الرغم من وجود الملايين من المستخدمين العرب. أيضا، العديد من المناهج الموجودة حاليا تعتمد على خصائص معتمدة على المنصة المستخدمة في البحث مثل وسم الهاشتاق، وتأشيرة المستخدم، وإعادة التغريد، إلخ. مما يجعل النهج المستخدم يتأثر سلبا في حال لم تكن هذه الخصائص موجودة أثناء عملية الكشف عن الأحداث. بالإضافة إلى ذلك، المناهج التي تعتمد فقط على وجود الكلمات الأكثر استخداما لا تكشف الأحداث الحقيقية دائما لأنها لا تستطيع التفرقة بين الحدث والمواضيع العامة الشائعة. في هذه الأطروحة، نقترح نهج لكشف الأحداث العربية من المدونات الصغيرة. أولا نقوم بجمع البيانات، ثم نقوم بتجهيزها من خلال تحسينها وتقليل الشوائب فيها. يتم تحليل نص الجملة لاستخراج الأوسمة الخاصة بأجزاء الكلام. بعدها نقوم بتطبيق مجموعة من القواعد لاستخراج الكلمات الدلالية التي تشير إلى الأحداث وتسمى مشغلات الأحداث. يتم حساب عدد تكرار كل مشغل حدث، بحيث يتم الاحتفاظ على المشغلات التي لها عدد تكرار أكبر من المتوسط ويتم حذف عكس ذلك. يتم الكشف عن الحدث من خلال تجميع مشغلات الأحداث المتشابهة مع بعضها. حيث نقوم بتطبيق إصدار ملائم من خوارزمية "التنقيب الناعم عن الأنماط المتكررة" على مشغلات الأحداث التي تبقت لكي يتم تجميع المتشابه منها. قمنا باستخدام قاعدة بيانات تسمى "Evetar" لتقييم النهج المقترح. حيث تحتوي قاعدة البيانات على تغريدات تغطي عدة أنواع من الأحداث العربية التي حدثت خلال فترة شهر. لكي نقوم بمحاكاة طريقة تدفق البيانات في المدونات الصغيرة، قمنا بتقسيم البيانات إلى عدة مجموعات بناء على فترات زمنية مختلفة. تم استخدام كل من "Precision"، "Recall"، "F-Measure" كمقياس للتقييم، حيث كانت أعلى متوسط قيمة لل "F-Measure" تم الحصول عليها هي 0.717. تعتبر النتائج التي حصلنا عليها مقبولة مقارنة مع ثلاث مناهج مشهورة تم تطبيقها على نفس قاعدة البيانات.