المستخلص: |
نظم استرجاع المعلومات المفهرسة مهمة جدا لملاءمتها لفرز المستندات، وتعتبر طريقة اختيار الكلمات المفتاحية من أكثر الخطوات تأثيرا في كفاءة فرز المستندات. تقترح هذه الأطروحة نهجا ذا كفاءة في اختيار الكلمات المفتاحية لفرز المستندات، وذلك عن طريق استثناء كلمات معينة تتصف بقدرة منخفضة في الفرز بين المستندات. حيث استخدم توزيع تكرار المستندات لتقرير مدى قدرة الكلمة على الفرز. تم استخدام مجموعة البيانات رويترز 21758، حيث تم تجريبيا استثناء الكلمات ذات التكرار الأكثر وكذلك الكلمات ذات التكرار الأقل، حيث تم التأكد في كل مرة أن ما تبقى من الكلمات يتوافق مع قانون Zipf، ومن حيث العدد مع قانون Heap، ثم تطبيق فرز الوثائق باستخدام ما تبقى من الكلمات. جرى تقييم هذا النهج المقترح باستخدام مقياس النقاء وحقق نسبة النقاء 0.71 وهي قيمة مقبولة بالمقارنة مع نتائج الباحثين الآخرين على نفس مجموعة البيانات.
|