ارسل ملاحظاتك

ارسل ملاحظاتك لنا







Semantic Word Clustering from Large Arabic Text

العنوان بلغة أخرى: العنقدة الدلالية لكلمات النص العربى الكبير
المؤلف الرئيسي: ابو فياض، طارق عيسى جبريل (مؤلف)
مؤلفين آخرين: بركة، ربحى سليمان (مشرف)
التاريخ الميلادي: 2018
موقع: غزة
الصفحات: 1 - 56
رقم MD: 1014021
نوع المحتوى: رسائل جامعية
اللغة: الإنجليزية
الدرجة العلمية: رسالة ماجستير
الجامعة: الجامعة الإسلامية (غزة)
الكلية: كلية تكنولوجيا المعلومات
الدولة: فلسطين
قواعد المعلومات: Dissertations
مواضيع:
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

23

حفظ في:
المستخلص: مع الزيادة السريعة في حجم النص على الويب حيث أصبحت البيانات النصية عالية الأبعاد (الآلاف من آلاف الكلمات في كل مجال) وتحمل معلومات دلالية. هذه الزيادة تطلبت إلى تقنيات تجميع الكلمات التي يمكنها أن تجمع الكلمات إلى مجموعات ذات معني وعلي أساس تشابهها، والتي يمكن استخدامها في العديد من مهام استرجاع المعلومات في محركات البحث وخورازميات التصنيف وتوسيع استعلام البحث. في هذه الرسالة نقترح استخدام أداة أو نموذج "word2vec" لبناء المتجه التمثيلي لكلمات النص العربي الكبير والتي سوف تعطي معاني ومميزات دلالية للمساعدة في بناء مجموعات دلالية من كلمات النص العربي الكبير. وهذا يتضمن المعالجة المسبقة للنص، بناء المتجه التمثيلي باستخدام نموذج "word2vec"، بناء نموذج التصنيف والمجموعات الدلالية باستخدام طريقة "Pipeline" وخورازمية التصنيف "Extra tree classifier" . تم قمنا بأخذ النص الذي تم معالجته ومصفوفة تردد المصطلحات لبناء مصنف المتجهات باستخدام خورازمية التصنيف "Extra tree classifier" واستخدامه في تصنيف وتنبؤ الكلمات إلى الفئات المحددة مسبقا. قمنا بتطبيق نموذج التصنيف وإجراء تجارب عديدة باستخدام النموذج، حيث أن النتائج أظهرت إلى فعالية النموذج لإنشاء مجموعات دلالية من النص العربي الكبير. وتظهر نتائج التصنيف إلى أن السمات المستخرجة من كلمات المتجهات قد مكنت نموذج التصنيف من تحقيق دقة عالية وصحة بأكثر من 85%. كما أن النتائج تشير إلى أن نموذج التصنيف لا يخضع إلى حالة "under fitting" (أي أن النموذج لا يؤدي أداء ضعيفا على بيانات التدريب)، وأيضا لا يخضع إلى حالة "Over fitting" (أي أن النموذج يؤدي أدا ء جيدا على كل من بيانات التدريب والاختبار).

عناصر مشابهة