العنوان بلغة أخرى: |
التلخيص التلقائي للنصوص العربية المتعددة كبيرة الحجم باستخدام الخوارزمية الجينية و MapReduce |
---|---|
المؤلف الرئيسي: | Al Breem, Sulaiman Nasr Allah (Author) |
مؤلفين آخرين: | Baraka, Rebhi Soliman (Advisor) |
التاريخ الميلادي: |
2016
|
موقع: | غزة |
الصفحات: | 1 - 81 |
رقم MD: | 775036 |
نوع المحتوى: | رسائل جامعية |
اللغة: | الإنجليزية |
الدرجة العلمية: | رسالة ماجستير |
الجامعة: | الجامعة الإسلامية (غزة) |
الكلية: | كلية تكنولوجيا المعلومات |
الدولة: | فلسطين |
قواعد المعلومات: | Dissertations |
مواضيع: | |
رابط المحتوى: |
المستخلص: |
تعتبر عملية التلخيص التلقائي للنصوص من أهم المهام المتعلقة بمجال التنقيب عن البيانات واسترجاع المعلومات. تكمن أهمية التلخيص التلقائي للنصوص بأنها قادرة على استخراج أكثر المعلومات أهمية من مجموعة كبيرة من المستندات النصية. أما مجال تلخيص المستندات المتعددة فهو يركز على استخراج أهم المعلومات الموجودة في مجموعة من المستندات النصية المتعددة. أغلب تقنيات تلخيص النصوص تتطلب أن تكون البيانات المطلوب تلخيصها موجودة في مكان مركزي واحد، لكن في عدة حالات من الصعب تحقيق هذا الشرط بسبب محدودية التخزين والمعالجة. وهذا بسبب التطور الكبير في مجال تكنولوجيا المعلومات والبيانات الكبيرة التي نتجت من خلال أنشطة البشر. لذلك أصبحت عملية التلخيص التلقائي للنصوص المتعددة كبيرة الحجم عملية تحدي وذلك بسبب الزيادة المطردة والمتواصلة لأنشطة البشر والمصادر المختلفة للبيانات. قمنا باقتراح طريقة لعمل التلخيص التلقائي للنصوص العربية المتعددة وكبيرة الحجم باستخدام الخوارزمية الجينية و MapReduce وهو عبارة عن نموذج للبرمجة المتوازية. هذه الطريقة تحقق الدقة في استخراج الجمل المهمة من النصوص والسرعة في عملية التلخيص وقابلة للتوسع في حال تم إضافة المزيد من البيانات النصية والموارد اللازمة للعمليات الحسابية. تمت عملية تقييم الطريقة المقترحة باستخدام عدة قياسات مشهورة مثل الدقة (Precision)، التذكر (Recall)، سرعة عملية التلخيص (Speedup)، كفاءة استخدام الموارد المستخدمة في المعالجة (Efficiency)، قابلية النظام للتعامل مع الزيادة في البيانات النصية والموارد (Scalability). لقد أظهرت النتائج بعد تطبيق الطريقة وجود مؤشر جيد بالنسبة للدقة والتذكر، وهذا يشير إلى أن النظام قام باستخراج الجمل المهمة من هذا العدد الكبير من النصوص. بالإضافة لذلك أظهرت النتائج المتعلقة بسرعة عملية التلخيص أن النظام المقترح كان أسرع 10 مرات عند استخدام مجموعة من الأجهزة عنه عند استخدام جهاز واحد. أخيرا تبين بعد عملية التلخيص أن النظام المقترح قام باستغلال الموارد المتاحة بكفاءة تصل إلى 62% وهي نتيجة جيدة إلى حدا ما عند الأخذ بعين الاعتبار حجم البيانات المتوفرة. |
---|