العنوان بلغة أخرى: |
تصنيف محسن لنصوص اللغة العربية باستخدام خوارزمية آلة التدرج المعزز السريعة |
---|---|
المؤلف الرئيسي: | البطاينة، عدي زياد فيصل (مؤلف) |
مؤلفين آخرين: | بطيحة، خالد محمد (مشرف) |
التاريخ الميلادي: |
2021
|
موقع: | المفرق |
الصفحات: | 1 - 53 |
رقم MD: | 1171670 |
نوع المحتوى: | رسائل جامعية |
اللغة: | الإنجليزية |
الدرجة العلمية: | رسالة ماجستير |
الجامعة: | جامعة آل البيت |
الكلية: | كلية الأمير الحسين بن عبد الله لتكنولوجيا المعلومات |
الدولة: | الاردن |
قواعد المعلومات: | Dissertations |
مواضيع: | |
رابط المحتوى: |
المستخلص: |
يتحرك العالم هذه الأيام بسرعة نحو تقنية الذكاء الاصطناعي (AI) حيث أن الذكاء الاصطناعي هو تقنية قوية للغاية للتعرف على أنماط احتياجات المستخدم وتحديدها وفي العديد من المجالات الرئيسية في الوقت الحاضر. كانت النصوص العربية أحد الفروع التي يجب تصنيفها واكتشافها في الوقت الحاضر حيث يتزايد توفر السياق العربي على السحابة بشكل كبير خلال العقد الماضي. وهذا يثير مطالب جديدة لمعالجة السياق العربي وأتمتة تجربة المستخدم المتعلقة بالنصوص العربية. لسوء الحظ، هناك القليل من الجهود لتصنيف واكتشاف السياق العربي الذي تحتاجه الحلول الذكية مثل أنظمة التوصية وحلول بناء الملف الشخصي لذلك، اقترح هذا البحث نهجا جديدا لغرض اكتشاف والتعرف على السياق العربي الموجود على الإنترنت. يعتمد النهج الجديد على منهجية التحسين التي تعد جزءا من خوارزمية شجرة الغابة العشوائية المسماة LIGHTGBM جنبا إلى جنب مع مرحلة ما قبل المعالجة واستخراج الميزات من السياق العربي. تم استخدام خوارزمية LIGHTGBM في هذا البحث بسبب ثباتها ودقتها العالية المكتسبة من التدريب. يستخدم LIGHTGBMدعما متوازيا فعالا للتعليمات. تستخدم الخوارزمية الأشجار الثابتة الجزئية ووظائف الخسارة المقدرة. تلعب مرحلة ما قبل المعالجة في نهجنا دورا مهما هنا لتصفية البيانات وإخراج البيانات المصفاة بدون تشوهات من أجل استخراج ميزات فعالة للغاية لزيادة الدقة في مرحلتي التدريب والاختبار، وتحتوي مراحل ما قبل المعالجة التصفية والتطبيع والترميز وإزالة كلمات التوقف، كل هذه الخطوات تعمل على تحسين مجموعة البيانات لاكتساب دقة عالية أثناء التدريب والاختبار. بعد مرحلة ما قبل المعالجة، يتم استخراج الميزة لاستخراج الميزات الفعالة. تسمى الميزة المستخرجة في هذه المرحلة N-grams التي تتمتع بميزة تقديم مزيد من المعلومات حول كلمة واحدة حتى يتمكن LIGHTGBM من التدريب ومعرفة المزيد حول الكلمات المدخلة. تم اختبار نهجنا الجديد في هذا البحث ومقارنته بالعديد من الخوارزميات الأخرى باستخدام نفس مجموعة البيانات. حصل LIGHTGBM على دقة أعلى من بين جميع طرق التصنيف الأخرى حيث حصل LIGHTGBM على دقة 81.31% مع 3984 سجل، %87.5Precision، %89.9Recall وحصل على دقة 94.03% مع 300 سجل. |
---|