المستخلص: |
اللغة العربية هي لغة معقدة وتحتاج إلى معاملة خاصة. لهذا، فإن معظم الدراسات السابقة استخدمت الأساليب الإحصائية في تصنيف النصوص العربية، وهذه الأساليب تهمل معنى المصطلح. أولا، قمنا ببناء قاعدة بيانات تماثلية للغة العربية، بحيث تكون متاحة مجان الأغراض البحث العلمي في اللغة العربية، ثم صممنا برنامج المعالجة النص العربي، والذي يتكون من مجموعة من الخطوات وتقنيات النمذجة، مثل إزالة كلمة التوقف وتقليم الجذور لتحسين نتائج تصنيف النصوص العربية. وتركز هذه الأطروحة على تقنية دلالات الكلمات، وتقترح طريقة مهجنة لتقليم كلمات اللغة العربية. وتستخدم العديد من تقنيات لأغراض تصنيف النص العربي، وعرض نتائج الطريقة المهجنة. وتشمل هذه التقنيات على التحليل الدلالي الكامن (LSA) بالإضافة إلى خمسة من مناهج تعلم الآلة. حيث يستخدم LSA للحد من التشتت الذي من شانه تحسين دقة أنظمة التصنيف. وأظهرت نتائج التجربة فعالية طريقة تقليم الجذور المقترحة من حيث دقة التصنيف والسرعة. وقد تحقق أفضل أداء من خلال استخدام طريقة تحليل القيمة المنفردة (SVD) مع مقياس جيب التمام ومسافة مانهاتن. وأخيرا، فإننا أجرينا مقارنة تجريبية على مسافة الحسنات، والمسافة الإقليدية، ومسافة مانهاتن ومسافة جيب التمام، لاختيار أفضل طريقة لحساب التشابه بين ناقلات مع خمسة من طرق تمثيل النص.
|