المؤلف الرئيسي: | العمري، لما علي (مؤلف) |
---|---|
مؤلفين آخرين: | أبو عطا، بلال مصطفى (مشرف) |
التاريخ الميلادي: |
2018
|
موقع: | اربد |
الصفحات: | 1 - 76 |
رقم MD: | 954421 |
نوع المحتوى: | رسائل جامعية |
اللغة: | الإنجليزية |
الدرجة العلمية: | رسالة ماجستير |
الجامعة: | جامعة اليرموك |
الكلية: | كلية تكنولوجيا المعلومات وعلوم الحاسوب |
الدولة: | الاردن |
قواعد المعلومات: | Dissertations |
مواضيع: | |
رابط المحتوى: |
المستخلص: |
استرجاع المعلومات عملية مهمة في الوقت الحالي، ونموذج vector space للاسترجاع يستخدم وزن لأهمية الكلمات كأساس في عملية مطابقة استعلام المستخدم مع الوثائق المسترجعة. تعتبر طريقة Term frequency-Inverse document frequency لحساب الأوزان للكلمات من أشهر الطرق وأكثرها استخداما وكثير من الدراسات أثبتت فعاليتها في أنظمة استرجاع المعلومات. ولكن هنالك بعض العيوب مثل استرجاع وثائق غير ذات صلة مما يقلل من الفعالية. لذلك فقد تم تقديم طريقة جديدة تسمى Term Frequency With Average Term Occurrence واستخدامها للغة الإنجليزية لتقليل أعدد الوثائق الغير ضرورية المسترجعة. في هذا البحث تم بناء نظام استرجاع للمعلومات للغة العربية واستخدام مجموعة من الوثائق المفتوحة المصدر من أجل الاختبارات اللازمة. هذا وقد تمت الحسابات باستخدام طريقتين هما: الطريق التقليدية Term frequency-Inverse Document Frequency والطريقة المقترحة المسماة Term Frequency With Average Term Occurrence. ثم تم مقارنة النتائج باستخدام معايير التقييم. هذا وتم استخدام أربعة حالات للدراسة مع طريقتين (حذف الكلمات الغير فعالة وإرجاع الكلمات لجذورها) لكل الاستعلامات المستخدمة. في تجارب اللغة الإنجليزية تم استخدام طريقة حذف الكلمات الغير فعالة مع طريقة أخرى هي discriminative التي يتم فيها حساب النقطة الوسطى للوثائق. بعد تحليل النتائج تبين إمكانية تطبيق الطريقة المقترحة علة اللغة العربية واستخدام (حذف الكلمات الغير فعالة وإرجاع الكلمات لجذورها) ساعد في زيادة الفاعلية لنظام الاسترجاع. أيضا تم تبيان أن استخدام طريقة حذف الكلمات الغير فعالة له تأثير ملحوظ على الطريقتين كما هو موجود أيضا للغة الإنجليزية. |
---|