ارسل ملاحظاتك

ارسل ملاحظاتك لنا







Investigating approaches to enhance document chustering by exploiting background knowledge in word net and wikipedia

العنوان بلغة أخرى: التحقيق في طرق لتحسين تصنيف الملفات عن طريق استغلال المعرفة الخلفية في وردنت وويكيبيديا
المؤلف الرئيسي: Nafee, Rami Hassouna (Author)
مؤلفين آخرين: Al Agha, Iyad Mohammed (Advisor)
التاريخ الميلادي: 2015
موقع: غزة
الصفحات: 1 - 85
رقم MD: 696639
نوع المحتوى: رسائل جامعية
اللغة: الإنجليزية
الدرجة العلمية: رسالة ماجستير
الجامعة: الجامعة الإسلامية (غزة)
الكلية: كلية تكنولوجيا المعلومات
الدولة: فلسطين
قواعد المعلومات: Dissertations
مواضيع:
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

9

حفظ في:
المستخلص: التصنيف هي واحدة من تقنيات تحليل البيانات الرئيسية وتصنيف المستندات يولد مجموعات من مجموعة كبيرة من المستندات ويتم استخدامه في تطبيقات عديدة بما في ذلك أبحاث السوق، والتعرف على الأنماط، وتحليل البيانات، ومعالجة الصور. التقنيات التقليدية لتصنيف المستندات في مجموعات بحيث تكون كل مجموعة تحتوي على المستندات المتشابهة لا تستغل العلاقات الدلالية بين الكلمات في المستندات. على سبيل المثال، إذا وثيقتين تتحدث عن نفس الموضوع ولكن باستخدام كلمات مختلفة (ربما تكون مترادفات أو مترابطة في المعنى) هذه التقنيات تقوم بوضع هذه المستندات في مجموعات مختلفة. الأبحاث السابقة تعاملت مع هذه المشكلة عن طريق استخدام المعرفة الخلفية من الأنطولوجيا أو قاموس مثل وردنت، ويستند هذا البحث على الجهود السابقة بإجراء تحقق شامل في استخدام قاعدة بيانات معجمية مثل وردنت والموسوعة المعرفية مثل ويكيبيديا لتحسين تصنيف المستندات ومساهمة هذا البحث في شقين: أولا، إجراء تحقيق شامل حول قيمة استخدام وردنت لتحسين تصنيف المستندات: البحوث السابقة التي استخدمت وردنت لتصنيف المستندات غالبا ما أظهرت نتائج متضاربة، بعض الجهود وجدت أن وردنت لديه القدرة على تحسين أداء التصنيف عن طريق المساعدة على تحديد المترادفات والكلمات ذات الصلة لغويا وأبحاث أخرى وجدت أن وردنت يوفر تحسين ضئيل أو معدوم على نتائج تصنيف المستندات في مجموعات. في هذا البحث، سوف نحاول بتجربة لحل هذا الاختلاف بين الفريقين، وتوضيح لماذا الوردنت هي مفيدة في بعض الحالات وغير مفيدة في حالات أخرى وما هي العوامل التي تؤثر على قيمة وردنت. لقد أجريت العديد من التجارب باستخدام وردنت لتصنيف المستندات في مجموعات بظروف مختلفة مثل مجموعات مختلفة من المستندات واستخدام مقاييس التشابه المختلفة وإعدادات مختلفة وقد أظهرت النتائج أن إعدادات التجربة المختلفة سوف تؤدي إلى نتائج مختلفة، وأن تأثير وردنت على النتائج تختلف تبعا للإعدادات المستخدمة. أهمية هذه النتائج هي أنها يمكن أن تعلم من هم على استعداد لاستخدام وردنت في تصنيف المستندات إلى مجموعات لأفضل الإعدادات التي يجب استخدامها من أجل الحصول على الاستفادة القصوى من وردنت. على سبيل المثال، وذلك باستخدام مجموعة بيانات رويترز، أعطى التصنيف مع المترادفات أفضل النتائج (F-score=0.77 and purity=0.64)، يليه تصنيف مع مقاييس التشابه (F-score=0.70 Purity=0.59)، يليه تصنيف دون أي دلالات (F-score=0.64, Purity=0.57). ثانيا، تقدم هذه الأطروحة نهجا جديدا لتحسين تصنيف المستندات المتشابهة من خلال استغلال المعرفة الدلالية الواردة في ويكيبيديا. ويستخدم بنية الارتباط من ويكيبيديا لقياس الصلة الدلالية بين المصطلحات واستخدام عشرات التشابه لتحسين تمثيل المستندات. النهج المقترح يختلف عن الجهود السابقة ذات الصلة والتي تستخدم أيضا ويكيبيديا في تصنيف المستندات في جانبين هما: أولا، فإنه يستخدم مقياس التشابه Normalized Google Distance وهو معروف ومنخفض التكلفة لقياس التشابه بين الكلمات. ثانيا، لاستغلال الوقت بفعالية سنطبق خوارزمية لاستخراج العبارة من المستند قبل استخدام الويكيبيديا. تم تقييم طريقتنا باستخدام مجموعتين من المستندات تم استخدامهم في أبحاث سابقة وأظهرت النتائج التجريبية أن نهجنا حسنت نتائج التصنيف بالمقارنة مع الطرق الأخرى المماثلة. وفقا لمقياس F-score، لمجموعة البيانات رويترز، لدينا وسيلة (ويكيبيديا) وطريقة Hotho (وردنت) تحقق 31% و9% على التوالي، لمجموعة البيانات OHSUMed، أسلوبنا وطريقة Hotho لتحقق ٢٧% و٤% على التوالي.

وصف العنصر: ملخص باللغة العربية

عناصر مشابهة