المستخلص: |
تعد اللغة العربية لغة صرفية معقدة تختلف عن باقي اللغات اللاتينية، وكونها من اللغات الأكثر استخداما وتحدثا في وقتنا الحالي فإنها بحاجة إلى مزيد من الجهود من قبل الباحثين لزيادة أعداد الأنظمة والبرامج المصممة خصيصا لها. تكثر الأبحاث التي تكتب بالعربية حيث أنها تستهدف مواضيع ومجالات عربية وإسلامية مختلفة، ومع ذلك فإن التوجه في تحسين الأدوات التي تستهدف اللغة العربية قليل مقارنة مع اللغات الأخرى. لذلك هذه الأطروحة تعرض نظام هجين لكشف السرقة الأدبية في النصوص العربية HYPLAG وهو نهج يستهدف النصوص العربية لكشف السرقات الأدبية بدمج آلياتان أحداهما تعتمد على المجموعات البيانية وأخرى تعتمد على مصادر المعرفة باستخدام مصدر دلالي عربي. يتسم النهج المعروض بقابليته على كشف النصوص المنتحلة بطرق معقدة تستخدم مرادفات ومصادر الكلمات لإخفاء المصادر الأصلية للنصوص، حيث أن الأنظمة المعروضة سابقا تعتمد في عمليات كشف الانتحالات على الكلمات نفسها بدون التوجه للمرادفات وقياس التشابه الدلالي للمصطلحات. وهكذا فإن الهدف الرئيسي من هذا البحث هو كشف تأثير عملية دمج الآليتين على أداء عملية كشف النصوص المسروقة في اللغة العربية. أجريت دراسة أولية على طلاب جامعيين لفهم سلوكهم في عملية السرقة الأدبية، وأظهرت نتائج هذه الدراسة أن الطلاب يقومون بتطبيق طرق متعددة لسرقة النصوص في عمليات الانتحال. وأيضا أوضحت الدراسة أن من هذه الطرق هي تعديلات في أنواع الكلمات مثل الأفعال، الأسماء والصفات. بناء على نتائج هذه الدراسة تم بناء نظام HYPLAG آخذين بعين الإعتبار كل الأنماط التي تستخدم في عمليات السرقات الأدبية. HYPLAG يقوم بمقارنة الملفات المدخلة المشبوهة مع مجموعة كبيرة من الملفات الأخرى بطريقة فعالة حيث أنه يستغل هيكلية محركات البحث في عملية استرجاع المصادر الأصلية للملفات المشبوهة. وللتأكد من صحة النصوص المدخلة، يقوم النظام بتطبيق مجموعة من العمليات الأولية التي تقوم بتجهيز النص وإزالة كل مصادر التشويش على عملية الكشف. ومن أهم هذه العمليات هي استخراج مصادر الكلمات (Stemming). ولاستخدام أكثر أداة فعالية في عملية استخراج مصادر الكلمات من الأدوات المطروحة حاليا للغة العربية، قمنا باقتراح نهج جديد يستخدم مصدر لغوي لمقارنة فعالية هذه الأدوات. تمت مقارنة HYPLAG مع عدة أنظمة أخرى وأظهر دقة عالية وسرعة في المعالجة باستخدام نفس البيانات التي استخدمت في الأنظمة الأخرى، حيث أن هذه البيانات طرحت سابقا في مسابقة لكشف السرقة الأدبية للنصوص العربية (ExAraPlagDet-2015)، وأظهر النظام المعروض نتائج أفضل من الأنظمة الأخرى.
|