العنوان بلغة أخرى: |
Measure Effectiveness of SMS Spam Detection Model Based on Machine Learning Techniques |
---|---|
المصدر: | مجلة العلوم الهندسية وتكنولوجيا المعلومات |
الناشر: | المركز القومي للبحوث |
المؤلف الرئيسي: | عثمان، أحمد حامد (مؤلف) |
المؤلف الرئيسي (الإنجليزية): | Osman, Ahmed Hamed |
مؤلفين آخرين: | الخليفة، محمد بدوي (م. مشارك) |
المجلد/العدد: | مج7, ع1 |
محكمة: | نعم |
الدولة: |
فلسطين |
التاريخ الميلادي: |
2023
|
الشهر: | مارس |
الصفحات: | 58 - 68 |
ISSN: |
2522-3321 |
رقم MD: | 1372257 |
نوع المحتوى: | بحوث ومقالات |
اللغة: | العربية |
قواعد المعلومات: | HumanIndex |
مواضيع: | |
كلمات المؤلف المفتاحية: |
الدقة | التصنيف | تعلم الآلة | مجموعات البيانات | عشوائية | معالجة اللغة الطبيعية | Accuracy | Classification | Confusion Matrix | Dataset | Ham | Natural Language Processing
|
رابط المحتوى: |
المستخلص: |
مع زيادة استخدام الهواتف المحمولة، زاد استخدام خدمة الرسائل القصيرة بشكل هائل أدى إلى انخفاض تكلفة الرسائل النصية. بدأ الناس في استخدامها لأغراض ترويجية وأنشطة غير أخلاقية. مما أدى ذلك أيضا إل زيادة هائلة في الرسائل العشوائية (Spam) وبالتالي يحصل فقدان البيانات الشخصية والمالية. ولمنع فقدان البيانات من الضروري اكتشاف الرسائل العشوائية في أسرع وقت ممكن. تهدف هذه الورقة إلى تصنيف الرسائل العشوائية ليس فقط بشكل فعال، ولكن أيضا في وقت قصير، كما إنه يعد هذا البحث قابل للتطبيق في الدول الناطقة باللغة الإنجليزية أو يتم إرسال الرسائل النصية فيها للمستخدمين باللغة الإنجليزية حتى يومنا هذا. تم استخدام مجموعة بيانات تحتوي على آلاف الرسائل النصية التي تحتوي على رسائل نصية (Ham) ورسائل نصية عشوائية (Spam). تم استخدام تقنيات معالجة اللغة الطبيعية وخوارزميات تعلم الآلة (مصنف بايز الساذج (Naive Bayes) وشجرة القرار Decision Tre)) والغابة العشوائية (Random Forest) التي يمكننا من خلالها تصنيف نوع الرسالة. بعد تطبيق هذه الخوارزميات، حصلت خوارزمية Random Forest على أفضل دقة %0.99 في 0.15 ثواني. With the increase in the use of mobile phones, the use of Short Message Service has increased exponentially. With the cost of text messages dropping, people started using them for promotional purposes and unethical activities. This led to a massive increase in spam and consequently the loss of personal and financial data. To prevent data loss, it is essential that spam is detected as quickly as possible. Thus, this paper aims to classify spam not only effectively but also in a short time using python. A dataset containing thousands of text messages containing natural messages (ham) and spam messages was used. Natural language processing techniques were used Multiomail Naive Bayes, Decision Tree and Random Forest are used through which we can classify the message type. After applying these algorithms, Random Forest algorithm got the best accuracy 0.99% in 0.15 second. |
---|---|
ISSN: |
2522-3321 |