ارسل ملاحظاتك

ارسل ملاحظاتك لنا







Exploiting Semantic and Statistical Features to Summarize Arabic Wikipedia Articles

العنوان بلغة أخرى: استغلال الخصائص الاحصائية والدلالية لتلخيص مقالات الويكيبيديا العربية
المؤلف الرئيسي: سمارة، شادى فايز محمود (مؤلف)
مؤلفين آخرين: الأغا، إياد محمد (مشرف)
التاريخ الميلادي: 2018
موقع: غزة
الصفحات: 1 - 77
رقم MD: 1013938
نوع المحتوى: رسائل جامعية
اللغة: الإنجليزية
الدرجة العلمية: رسالة ماجستير
الجامعة: الجامعة الإسلامية (غزة)
الكلية: كلية تكنولوجيا المعلومات
الدولة: فلسطين
قواعد المعلومات: Dissertations
مواضيع:
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

4

حفظ في:
المستخلص: ويكيبيديا هي واحدة من أغنى قواعد المعرفة وأكثرها استخداما على الويب، لذا يرجع إليه مستخدمي الإنترنت في الكثير من الأحيان للبحث عن المعلومات والمواضيع التي يحتاجونها، لكن عملية القراءة والبحث في الويكيبيديا قد تستهلك وقت كبير خاصة عندما تكون المواضيع طويلة، بالإضافة إلى الصعوبة التي من الممكن أن يواجهها المستخدم عندما يقرأ مثل هذه المواضيع الطويلة على شاشات صغيرة مثل شاشات الجوال، ومن هنا ظهرت فكرة تلخيص محتوى صفحات الويكيبيديا كحل للمشاكل التي قد تظهر نتيجة طول المواضيع، فتلخيص مثل هذه المقالات سوف يسهل على المستخدم قراءتها والاستفادة من المعلومات التي تحتويها بسرعة وبسهولة، كما أنه سيجعل قراءة هذه المواضيع سهلة على الأجهزة ذات الشاشات صغيرة الحجم مثل الجوالات. في العقد الماضي ازداد حجم الأبحاث التي ركزت على تلخيص النص العربي، إلا أن قليل من هذه الجهود والأبحاث قامت باستغلال العلاقات الدلالية بين الكلمات الموجودة في موضوع معين وبين جمله، هذه العلاقات من الممكن أن تساعد بشكل كبير في تحسين التلخيص واستخراج الجمل المهمة من الموضوع. هذا البحث يقترح منهجية جديدة لتلخيص المواضيع العربية للويكيبيديا باستخراج الجمل المهمة وإهمال الجمل الغير مهمة، تمزج المنهجية المقترحة بين ميزات الخصائص الإحصائية للكلمات والجمل الموجودة في الموضوع وبين العلاقات الدلالية بين هذه الجمل وعناوين الويكيبيديا التي تحتويها لتحديد أهمية الجملة، تم استخدام العديد من الخصائص الإحصائية التي من الممكن أن تدل على أهمية الجملة مثل موقع الجملة في الموضوع، طول الجملة وتشابه الجملة مع عنوان الموضوع. بينما استخدمت خوارزمية تحليل الدلالات الكامنة لاستخراج العلاقات الدلالية بين الجمل، كما استخدمت عدد عناوين الويكيبيديا التي تحتويها كل جملة لتحسين جودة التلخيص. بناءً على قراءتنا لم نجد أي بحث لحتي الآن استخدم هذا المزيج من الخصائص في تلخيص مواضيع اللغة العربية، كما أننا قمنا بدراسة مدى تأثير كل خاصية في جودة التلخيص، وبناءً على النتائج قمنا بإعطاء كل خاصية وزن يتناسب مع أهميتها للحصول على أفضل جودة للتلخيص. في هذا البحث قمنا باستخدام مجموعة من النصوص تدعى (اسكس) لتقييم عملنا، تحتوي هذه المجموعة على أكثر من 100 موضوع ويكبيديا مع تلاخيصهم التي تم إنتاجها بواسطة بشر. كما استخدمنا أداة تدعى روف للمقارنة ما بين التلاخيص التي أنتجتها منهجيتنا والتلاخيص التي أنتجتها أداة أخرى تدعى tools4noob، حيث قمنا باختبار جودة تلخيص كل منهجية بمقارنته مع التلاخيص الموجودة في مجموعة اسكس التي تم إنتاجها بواسطة خبراء بشر. النتائج أظهرت تفوق منهجيتنا على منهجية ال tools4noob التي تعتبر من أكثر الأدوات استخداما في الإنترنت لتلخيص النصوص العربية، حيث حصلت منهجيتنا على F-Mesure= 0.519723 بينما حصلت أداة ال tools4noob على F-Mesure= 0.394842، منهجيتنا أظهرت تفوقا ملحوظا في مقياس ال Recall، لكن كلتا المنهجيتان حصلتا على نتائج متقاربة في مقياس الـ precision.

عناصر مشابهة