Semantic Word Clustering from Large Arabic Text

ابو فياض، طارق عيسى جبريل; بركة، ربحى سليمان

Semantic Word Clustering from Large Arabic Text

العنوان بلغة أخرى:	العنقدة الدلالية لكلمات النص العربى الكبير
المؤلف الرئيسي:	ابو فياض، طارق عيسى جبريل (مؤلف)
مؤلفين آخرين:	بركة، ربحى سليمان (مشرف)
محكمة:	نعم
التاريخ الميلادي:	2018
موقع:	غزة
الصفحات:	1 - 56
رقم MD:	1014021
نوع المحتوى:	رسائل جامعية
اللغة:	الإنجليزية
الدرجة العلمية:	رسالة ماجستير
الجامعة:	الجامعة الإسلامية (غزة)
الكلية:	كلية تكنولوجيا المعلومات
الدولة:	فلسطين
قواعد المعلومات:	Dissertations
مواضيع:	العنقدة الدلالية \| النص العربى الكبير \| الخورزميات
رابط المحتوى:	صفحة العنوان المستخلص قائمة المحتويات 24 صفحة الأولى 1 الفصل 2 الفصل 3 الفصل 4 الفصل 5 الفصل الخاتمة المصادر والمراجع الملاحق

عدد مرات التحميل

26

المستخلص:

مع الزيادة السريعة في حجم النص على الويب حيث أصبحت البيانات النصية عالية الأبعاد (الآلاف من آلاف الكلمات في كل مجال) وتحمل معلومات دلالية. هذه الزيادة تطلبت إلى تقنيات تجميع الكلمات التي يمكنها أن تجمع الكلمات إلى مجموعات ذات معني وعلي أساس تشابهها، والتي يمكن استخدامها في العديد من مهام استرجاع المعلومات في محركات البحث وخورازميات التصنيف وتوسيع استعلام البحث. في هذه الرسالة نقترح استخدام أداة أو نموذج "word2vec" لبناء المتجه التمثيلي لكلمات النص العربي الكبير والتي سوف تعطي معاني ومميزات دلالية للمساعدة في بناء مجموعات دلالية من كلمات النص العربي الكبير. وهذا يتضمن المعالجة المسبقة للنص، بناء المتجه التمثيلي باستخدام نموذج "word2vec"، بناء نموذج التصنيف والمجموعات الدلالية باستخدام طريقة "Pipeline" وخورازمية التصنيف "Extra tree classifier" . تم قمنا بأخذ النص الذي تم معالجته ومصفوفة تردد المصطلحات لبناء مصنف المتجهات باستخدام خورازمية التصنيف "Extra tree classifier" واستخدامه في تصنيف وتنبؤ الكلمات إلى الفئات المحددة مسبقا. قمنا بتطبيق نموذج التصنيف وإجراء تجارب عديدة باستخدام النموذج، حيث أن النتائج أظهرت إلى فعالية النموذج لإنشاء مجموعات دلالية من النص العربي الكبير. وتظهر نتائج التصنيف إلى أن السمات المستخرجة من كلمات المتجهات قد مكنت نموذج التصنيف من تحقيق دقة عالية وصحة بأكثر من 85%. كما أن النتائج تشير إلى أن نموذج التصنيف لا يخضع إلى حالة "under fitting" (أي أن النموذج لا يؤدي أداء ضعيفا على بيانات التدريب)، وأيضا لا يخضع إلى حالة "Over fitting" (أي أن النموذج يؤدي أدا ء جيدا على كل من بيانات التدريب والاختبار).

عناصر مشابهة

Proposed Method To Enhance Text Document Clustering Using Improved Fuzzy C Mean Algorithm With Named Entity Tag
بواسطة: هادي، رغد محمد منشور: (2017)
TEXT CLASSIFICATION IMPROVEMENT BY COMBINING MULTILEVEL CLUSTERING INTO k NN
بواسطة: عبيدات، رشا محمد منشور: (2009)
Satellite Images Multiple Data Using Clustering Techniques
بواسطة: Naji, Ghaidaa Waleed منشور: (2018)
Evaluating the Effect of Preprocessing in Arabic Documents Clustering
بواسطة: Ghanem, Osama Abd Alfattah منشور: (2014)
Medium-Term Forecasting for Municipal Water Demand and Revenue KhanYounis City as A Case Study
بواسطة: مخيرز، حسام حسن عبدالله منشور: (2018)

Semantic Word Clustering from Large Arabic Text

عدد مرات التحميل

26

عناصر مشابهة

دليل المستخدم

دليل الفيديو