المستخلص: |
تتزايد البيانات البيولوجية وبيانات تويتر كل عام، لذلك من المهم دراسة هذه الأنواع من البيانات لأهميتها في مختلف المجالات، يهدف هذا البحث إلى تطوير أداة ذكية تسهل عملية البحث من خلال دراسة سبع فئات من خوارزميات النصوص على قاعدة بيانات نصوص سلاسل الحمض النووي وبيانات تويتر وفقا إلى المعالجة المسبقة للنصوص بالإضافة إلى لذلك طورنا تصنيفا جديدا لخوارزميات مطابقة النصوص والتي تحتوي على عاملين أساسين وفقا لطول النص المستخدم والكلمة المراد البحث فيها. حيث تم إضافة تصنيف جديد للنص وللكلمة المراد البحث عنها وتوفير أداة ذكية تختار الخوارزمية الأنسب وفقا للطول النص المستخدم والكلمة المراد البحث فيها. ثم اقترحنا خوارزمية نصوص جديدة لتقليل وقت البحث والعدد الإجمالي للمقارنات والمحاولات بناء على خوارزمية Hybrid Boyer- Moore Horspool. وأخيرا، تم تطبيق سيناريوهات مختلفة لاختبار جميع القياسات لكل من هذه الخوارزميات المستخدمة في البحث (NSB، BF، HBMH، FS) بالإضافة إلى الخوارزمية المقترحة (PA) وبناء على النتائج تبين أن الخوارزمية المقترحة تميزت بالمقارنة ب الخوارزمية الأصلية في النص الطبيعي "تويتر" وبيانات الحمض النووي. أظهرت الخوارزمية المقترحة "PA" التمييز على الخوارزمية الأصلية "Hybrid_BMH" من حيث وقت التشغيل في كلتا الحالتين (الكلمة المراد البحث عنها: طويل) و(نص: طويل) و(الكلمة المراد البحث عنها: طويل) و(نص: قصير) في النص الطبيعي وبيانات الحمض النووي. وكذلك أظهرت الخوارزمية المقترحة التمييز على الخوارزمية الأصلية في عدد المقارنات فقط في الحالة الأولى في النص الطبيعي بينما في كلتا الحالتين في بيانات الحمض النووي. وأخيرا، في عدد المحاولات أظهرت التميزي على الخوارزمية الأصلية في كلتا الحالتين في النص الطبيعي وبيانات الحمض النووي.
|