ارسل ملاحظاتك

ارسل ملاحظاتك لنا







Feature Extraction to Detect Arabic Tweets Spam Using Support Vector Machine Algorithm

العنوان بلغة أخرى: استخراج الخصائص لكشف التغاريد غير المرغوب فيها باللغة العربية باستخدام خوارزمية متجه الدعم الآلى
المؤلف الرئيسي: إسماعيل، عمر إياد (مؤلف)
مؤلفين آخرين: الشلبي، رياض فرحان (مشرف)
التاريخ الميلادي: 2018
موقع: عمان
الصفحات: 1 - 78
رقم MD: 916703
نوع المحتوى: رسائل جامعية
اللغة: الإنجليزية
الدرجة العلمية: رسالة ماجستير
الجامعة: جامعة عمان العربية
الكلية: كلية العلوم الحاسوبية والمعلوماتية
الدولة: الاردن
قواعد المعلومات: Dissertations
مواضيع:
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

44

حفظ في:
المستخلص: أدى الانتشار الواسع للشبكات الاجتماعية في الآونة الأخيرة إلى النظر في مخاطر استخدام الإنترنت من الذين يهدفون إلى توزيع محتويات ضارة مثل الرسائل غير مرغوب بها. تلك الرسائل غير المرغوب بها تتم من خلال إنشاء حسابات وهمية على خدمات الشبكات الاجتماعية المختلفة لإرسال رسائل ضارة (SPAMS) إلى المستخدمين الشرعيين. قد يستخدم مجرمي الإنترنت أيضا ملفات شخصية مسروقة للمستخدمين الشرعيين لإرسال رسائلهم العشوائية والرسائل الضارة. تركز معظم البحوث الموجودة في الكشف عن الرسائل غير المرغوب فيها على تويتر على تعريف مرسلي الرسائل غير المرغوب فيما لحجب الحسابات. هذه الألية لا تعمل بشكل جيد مع مرسلي الرسائل غير المرغوب فيها الذين قد ينشرون محتوى غير مرغوب فيه بشكل منتظم لكي يعملوا كمستخدمين قانونيين. قد تؤدي هذه الآلية إلى إلحاق الضرر بالمستخدم القانوني الذي يمنح الإذن لطرف ثالث يستخدم اسم المستخدم لإرسال مشاركات غير مرغوب فيها. ويهدف هذا البحث إلى تقديم مراجعة شاملة لوسائل التواصل الاجتماعي، والرسائل القصيرة وتقنياتها، والتقنيات السابقة التي تستخدم للكشف عن الرسائل الضارة في تويتر، تصفية مجموعات التغاريد الضارة على أساس الاستدلال، وتصنيف مجموعات التغاريد التي هي غير مرغوبة. وبناء خوارزمية التنبؤ من أجل تصنيف مجموعة التغاريد التي تم التغريد إلى ضارة أو غير ضارة. وتظهر النتيجة نسبة عالية من الدقة تقدر ب (95) % عندما قمنا بتقييم الأداة المقترحة على أساس 1000 تويت (كمجموعة بيانات لبناء الخوارزمية)، و100، 500، 1000، 2000 تغريده (كمجموعة بيانات للاختبار) حيث تمت مقارنة مع خوارزميات أخرى، التقنية المقترحة تفوقت على (Naïve Bayes وRandom Forest). متوسط دقة للنظام المقترح هو (0.9525) متبوعا بتقنية Random Forest، وNaïve Bayes بـ (0.70)، (0.50) على التوالي.

عناصر مشابهة