المستخلص: |
هذا البحث يطرح خوارزميات جديدة للبحث عن كلمة في نص بأستخدام عدة خوارزميات سابقة وهي Horspool, Boyeer-More, First Last Character-Rami and Jehad and Markov model. مطابقة النصوص تعنى بالبحث عن كلمة داخل نص و تنقسم الى قسمين 1- البحث عن الكلمة المطابقة وفيه يتم البحث عن الكلمة التي يبحث عنها دون زيادة أو نقصان, 2-البحث التقريبي وهو البحث عن الكملة أو كلمة قريبة منها. في هذا البحث تم أضافة وزن ال 3 أحرف ووزن لكل حرف بالأعتماد على تكرار ظهور الحرف في النصوص التي تم تجريب المرحلة القبلية عليها. التحسين الذي أحدثته الخوارزميات مقارنة بخوارزمية بوير مور هي كالتالي, الخوارمية الأولى والتي تبحث عن أقل حرف تكرارا ثم الأقل ثم الأقل حسب وزن الحروف في قاعدة البيانات كان بين النسبة 38.92% الى 65.43% , الخوارزمية الثانية والتي تبحث عن أقل حرف تكرارا ثم أول وأخر حرف من 36.07% الى 55.52% والخوارزمية الثالثة التي تبحث عن عن أقل حرف تكرارا ثم أقل ثلاث حروف تكرارا كان التحسين فيها بين 71.94% الى 80.01%, النتائج تظهر تفاوتا بين كلمة ألى اخرى ونص الى أخر ويرجع سبب ذلك لأختلاف أوزانها في اللغة الأنجليزية. واعتمادا على النتائج أظهرت خوارزمية التي تبحث عن عن أقل حرف تكرارا ثم أقل ثلاث حروف تكرارا أفضل أدائا بين الخوارزميات ثم الخوارزمية التي تبحث عن عن أقل حرف تكرارا ثم أقل ثلاث حروف تكرارا ثم الخوارزمية التي تبحث عن أقل حرف تكرارا ثم أول وأخر حرف. الباينات التي تم أستخدامها هي مقالات في علم الحاسوب وتم تحليل اكثر من 1100666 حرف وتم تخزينهم في قاعدة بيانات, تم أستخدام نوذج ماركوف لمعرفة الحرف الأقل تكرارا الذي يأتي بعد الحرف الحالي. هذا البحث قام بتطبيق ثلاثة خوارزميات التي تم ذكرهم سابقا اعتمادا على خصائص اللغة الأنجليزية بشكل خاص. تم عمل برنامج سمي برنامج مصطفى وجهاد للبحث وتم تجريب الخوارزميات على عدة مقالات وعدة كلمات يتراوح طولها بين 4-22 حرف وتم تجريب هذا البرنامج 800 مرة وتم حفظ النتائج في ملفات نصية.
|