العنوان بلغة أخرى: |
اقتراح أوسمة للنصوص العربية القصيرة باستخدام تحليل الدلالات الكامنة على الويكيبيديا العربية |
---|---|
المؤلف الرئيسي: | أبو سمرة، يوسف خميس (مؤلف) |
مؤلفين آخرين: | Alagha, Iyad M. (Advisor) |
التاريخ الميلادي: |
2017
|
موقع: | غزة |
الصفحات: | 1 - 85 |
رقم MD: | 875369 |
نوع المحتوى: | رسائل جامعية |
اللغة: | الإنجليزية |
الدرجة العلمية: | رسالة ماجستير |
الجامعة: | الجامعة الإسلامية (غزة) |
الكلية: | كلية تكنولوجيا المعلومات |
الدولة: | فلسطين |
قواعد المعلومات: | Dissertations |
مواضيع: | |
رابط المحتوى: |
المستخلص: |
تتيح المواقع الاجتماعية للمستخدمين مشاركة المواد كالنصوص والصور، وتتيح حرية إضافة كلمات رئيسية لها تسمى أوسمة. ولكن الحرية لها مساوئ منها: التكرار الناتج عن عدم ضبط الكلمات، الغموض، التشتت، الأخطاء الإملائية، والتفرد، مما يعيق عمليات تنظيم واسترجاع البيانات في هذه الأنظمة. نهدف في هذا العمل إلى عرض نظام اقتراح أوسمة للنصوص العربية القصيرة بالاستفادة من الويكيبيديا العربية كمصدر للمعلومات، بحيث يتم توظيف تحليل الدلالات الكامنة لاكتشاف التشابه بين النص القصير ومقالات الويكيبيديا. وقد استخدم "أباتشي سبارك" للتعامل مع الحجم الضخم لمحتويات الويكيبيديا والعمليات الحسابية المعقدة لتحليل الدلالات الكامنة المستخدم لتحليل محتوى مقالات الويكيبيديا إلى ثلاث مصفوفات، وعند إدخال نص عربي قصير، يقوم النظام بمقارنته مع محتوى المقالات ويعطي كل مقالة وزنا حسب علاقتها وتشابهها مع النص المدخل، ثم يتم اختيار الأوسمة المرشحة من عناوين وتصنيفات المقالات الأكثر شبهاً بالنص. تم تقييم النظام المقترح اعتماداً على مجموعة من 100 نص قصير تم جمعها من موقع تويتر في ثلاثة مجالات مختلفة وقام خبيران في كل مجال بتقييم الأوسمة التي أنتجها النظام. وقد حقق النظام المقترح mean average precision 84.39%، و mean reciprocal rank 96.53%، مما يظهر مناسبة النظام ودقته لتوسيم النصوص العربية في حين أنه يواجه صعوبات تتعلق باللغة العربية وبتكرارات الكلمات النادرة. كما تم عرض تحليل دقيق ومناقشة لنتائج التقييم تتناول نقاط القوة والقصور في النظام إضافة إلى توصيات لتطوير العمل مستقبلا. |
---|