Investigating approaches to enhance document chustering by exploiting background knowledge in word net and wikipedia

Nafee, Rami Hassouna; Al Agha, Iyad Mohammed

Investigating approaches to enhance document chustering by exploiting background knowledge in word net and wikipedia

العنوان بلغة أخرى:	التحقيق في طرق لتحسين تصنيف الملفات عن طريق استغلال المعرفة الخلفية في وردنت وويكيبيديا
المؤلف الرئيسي:	Nafee, Rami Hassouna (Author)
مؤلفين آخرين:	Al Agha, Iyad Mohammed (Advisor)
محكمة:	نعم
التاريخ الميلادي:	2015
موقع:	غزة
الصفحات:	1 - 85
رقم MD:	696639
نوع المحتوى:	رسائل جامعية
اللغة:	الإنجليزية
الدرجة العلمية:	رسالة ماجستير
الجامعة:	الجامعة الإسلامية (غزة)
الكلية:	كلية تكنولوجيا المعلومات
الدولة:	فلسطين
قواعد المعلومات:	Dissertations
مواضيع:	تكنولوجيا المعلومات \| تصنيف الملفات \| تحليل البيانات
رابط المحتوى:	صفحة العنوان المستخلص قائمة المحتويات 24 صفحة الأولى 1 الفصل 2 الفصل 3 الفصل 4 الفصل 5 الفصل 6 الفصل المصادر والمراجع

عدد مرات التحميل

9

المستخلص:

التصنيف هي واحدة من تقنيات تحليل البيانات الرئيسية وتصنيف المستندات يولد مجموعات من مجموعة كبيرة من المستندات ويتم استخدامه في تطبيقات عديدة بما في ذلك أبحاث السوق، والتعرف على الأنماط، وتحليل البيانات، ومعالجة الصور. التقنيات التقليدية لتصنيف المستندات في مجموعات بحيث تكون كل مجموعة تحتوي على المستندات المتشابهة لا تستغل العلاقات الدلالية بين الكلمات في المستندات. على سبيل المثال، إذا وثيقتين تتحدث عن نفس الموضوع ولكن باستخدام كلمات مختلفة (ربما تكون مترادفات أو مترابطة في المعنى) هذه التقنيات تقوم بوضع هذه المستندات في مجموعات مختلفة. الأبحاث السابقة تعاملت مع هذه المشكلة عن طريق استخدام المعرفة الخلفية من الأنطولوجيا أو قاموس مثل وردنت، ويستند هذا البحث على الجهود السابقة بإجراء تحقق شامل في استخدام قاعدة بيانات معجمية مثل وردنت والموسوعة المعرفية مثل ويكيبيديا لتحسين تصنيف المستندات ومساهمة هذا البحث في شقين: أولا، إجراء تحقيق شامل حول قيمة استخدام وردنت لتحسين تصنيف المستندات: البحوث السابقة التي استخدمت وردنت لتصنيف المستندات غالبا ما أظهرت نتائج متضاربة، بعض الجهود وجدت أن وردنت لديه القدرة على تحسين أداء التصنيف عن طريق المساعدة على تحديد المترادفات والكلمات ذات الصلة لغويا وأبحاث أخرى وجدت أن وردنت يوفر تحسين ضئيل أو معدوم على نتائج تصنيف المستندات في مجموعات. في هذا البحث، سوف نحاول بتجربة لحل هذا الاختلاف بين الفريقين، وتوضيح لماذا الوردنت هي مفيدة في بعض الحالات وغير مفيدة في حالات أخرى وما هي العوامل التي تؤثر على قيمة وردنت. لقد أجريت العديد من التجارب باستخدام وردنت لتصنيف المستندات في مجموعات بظروف مختلفة مثل مجموعات مختلفة من المستندات واستخدام مقاييس التشابه المختلفة وإعدادات مختلفة وقد أظهرت النتائج أن إعدادات التجربة المختلفة سوف تؤدي إلى نتائج مختلفة، وأن تأثير وردنت على النتائج تختلف تبعا للإعدادات المستخدمة. أهمية هذه النتائج هي أنها يمكن أن تعلم من هم على استعداد لاستخدام وردنت في تصنيف المستندات إلى مجموعات لأفضل الإعدادات التي يجب استخدامها من أجل الحصول على الاستفادة القصوى من وردنت. على سبيل المثال، وذلك باستخدام مجموعة بيانات رويترز، أعطى التصنيف مع المترادفات أفضل النتائج (F-score=0.77 and purity=0.64)، يليه تصنيف مع مقاييس التشابه (F-score=0.70 Purity=0.59)، يليه تصنيف دون أي دلالات (F-score=0.64, Purity=0.57). ثانيا، تقدم هذه الأطروحة نهجا جديدا لتحسين تصنيف المستندات المتشابهة من خلال استغلال المعرفة الدلالية الواردة في ويكيبيديا. ويستخدم بنية الارتباط من ويكيبيديا لقياس الصلة الدلالية بين المصطلحات واستخدام عشرات التشابه لتحسين تمثيل المستندات. النهج المقترح يختلف عن الجهود السابقة ذات الصلة والتي تستخدم أيضا ويكيبيديا في تصنيف المستندات في جانبين هما: أولا، فإنه يستخدم مقياس التشابه Normalized Google Distance وهو معروف ومنخفض التكلفة لقياس التشابه بين الكلمات. ثانيا، لاستغلال الوقت بفعالية سنطبق خوارزمية لاستخراج العبارة من المستند قبل استخدام الويكيبيديا. تم تقييم طريقتنا باستخدام مجموعتين من المستندات تم استخدامهم في أبحاث سابقة وأظهرت النتائج التجريبية أن نهجنا حسنت نتائج التصنيف بالمقارنة مع الطرق الأخرى المماثلة. وفقا لمقياس F-score، لمجموعة البيانات رويترز، لدينا وسيلة (ويكيبيديا) وطريقة Hotho (وردنت) تحقق 31% و9% على التوالي، لمجموعة البيانات OHSUMed، أسلوبنا وطريقة Hotho لتحقق ٢٧% و٤% على التوالي.

عناصر مشابهة

Mining Approach for Commercial Data Classification and Migration in Hybrid Storage System
بواسطة: قاسم، ميس الحاج منشور: (2015)
Arabic Document Retrieval Based on Word Rooting
بواسطة: Al Sarhan, Hind Hmood منشور: (2013)
Feature Extraction Approach to Enhance Information Retrieval for Musical Media
بواسطة: دللي، أحمد ماهر منشور: (2013)
Enhance the Security of Cloud Computing Environment Using Semantic Segregation Techniques
بواسطة: Matarneh, Rami Yaser منشور: (2015)
Exploiting Wikipedia to Support Exploratory Arabic Search on the Web
بواسطة: Abed, Ahmad Mohammad Abd Alaziz منشور: (2016)

Investigating approaches to enhance document chustering by exploiting background knowledge in word net and wikipedia

عدد مرات التحميل

9

عناصر مشابهة

دليل المستخدم

دليل الفيديو