المستخلص: |
في الفترة الأخيرة، تم انتشار العديد من التطبيقات والبرامج التي تعبر عن آراء ومشاعر المستخدمين حول وجهات نظر معينه ومتوفرة من خلال الشبكة العنكبوتية ومثل هذه التطبيقات تويتر، فيس بوك وانستجرام. حيث هذه التطبيقات أتاحت الفرصة للباحثين لتطوير الكثير من الأبحاث في مجال تحليل المشاعر وبالذات في اللغة العربية بالاعتماد على تقنيات تصنيف البيانات المتوافرة. لتساعد المستخدمين في اتخاذ القرار لشراء منتج معين وتساعد شركات الإنتاج لتحسين منتجاتهم بالاعتماد على هذه الآراء. واجه الباحثين الكثير من التحديات والعقبات مع استخدام اللغة العربية في مجال تحليل المشاعر. من هذه التحديات طبيعة اللغة العربية المعقدة في مصطلحاتها ونحوها ومن ناحية أخرى قلة المصادر المتوفرة والأدوات التي من الممكن استخدامها في هذا المجال. هذه الدراسة تقدم نظرة شامله ومكثفه عن المراحل التي يجب اتباعها وتطبيقها على مجموعات البيانات التجريبية المتوفرة لتحسين ورفع كفاءتها في تحليل المشاعر خصوصا في مجال اللغة العربية، سيتم ذلك عن طريق تقديم نموذج عام يحتوي على المراحل الأساسية التي يجب اتباعها في مجال تحليل المشاعر. تبدأ هذه المراحل بتجهيز البيانات، يتضمن تجهيز البيانات ثلاثة خطوات: أولا: تقسيم قواعد البيانات بالاعتماد على قطبية النص سالبا أم موجبا، ثانيا: تجهيزها من خلال التخلص من الكلمات أحرف الجر وأدوات الترقيم واستخلاص الجذر، ثالثا استخلاص خصائص الكلمة والممثلة بوزنها ونسبة تكرارها وذلك باستخدام ثلاث طرق وهي: 1-استخلاص وزن الكلمة ونسبة تكرارها في الملف كامل (TF). 2-استخلاص وزن الكلمة ونسبة تكرارها في نص معين وعدم تكرارها في نص أخر (TF-IDF). 3-استخلاص وزن الكلمة ونسبة تكرارها في المجلد المصنف إلى قطبيه سالبه أم موجبه (TF-IDF-CF). هذه الدراسة تهدف إلى اقتراح استخدام خوارزميات تصنيف البيانات المناسبة والتي تعطي نتائج وكفاءه عالية في مجال تحليل المشاعر في اللغة العربية ومن ثم فحص هذه الخوارزميات وعمل مقارنه بينها، وقد تمت هذه المقارنة على عدة أوجه وهي كالتالي: 1-تم المقارنة بين الخوارزميات التالية KNN, SVM, DT, NB بتطبيقها على الطرق الثلاثة لاستخلاص الخصائص وهي: (TF,TF-IDF,TF-IDF-CF)، وكانت النتيجة الأفضل باستخدام خوارزمية SVM مع TF-IDF-CF. 2-تم المقارنة بين الخوارزميات التالية KNN, SVM, DT, NB ولكن بعمل تعديلات على معاملات الخوارزميات السابقة وتطبيقها أيضا على الطرق الثلاثة التالية: (TF,TF-IDF,TF-IDF-CF) وكانت النتيجة الأفضل بتعديل معامل البذرة (seed) لخوارزمية DTمع TF-IDF-CF. 3-تم تطبيق الخوارزميات التالية Stacking وBagging، وBoosting، وكانت النتيجة الأفضل استخدام خوارزمية ال bagging مع TF-IDF-CF. 4-تم تطبيق المقارنة عن طريق دمج خوارزميتين مع بعضهم البعض، وكانت النتيجة الأفضل دمج خوارزمية الSVM مع KNN أو DT باستخدام TF-IDF-CF.
|