العنوان بلغة أخرى: |
نظام تصنيف الوثائق الزكي |
---|---|
المصدر: | مجلة المنصور |
الناشر: | كلية المنصور الجامعة |
المؤلف الرئيسي: | عبدالله، حسنين سمير (مؤلف) |
مؤلفين آخرين: | حسن، هالة ضياء (م. مشارك) |
المجلد/العدد: | ع31 |
محكمة: | نعم |
الدولة: |
العراق |
التاريخ الميلادي: |
2019
|
الصفحات: | 134 - 151 |
DOI: |
10.36541/0231-000-031-010 |
ISSN: |
1819-6489 |
رقم MD: | 1030392 |
نوع المحتوى: | بحوث ومقالات |
اللغة: | الإنجليزية |
قواعد المعلومات: | EcoLink, HumanIndex |
مواضيع: | |
كلمات المؤلف المفتاحية: |
تصنيف المستندات | الخلجان الساذجة | استخراج الميزات | اختيار الميزات | Documents Classification | Naive Bays | Features Extraction | Features Selection | TF-IDF
|
رابط المحتوى: |
الناشر لهذه المادة لم يسمح بإتاحتها. |
المستخلص: |
هناك عدد هائل من الوثائق المتاحة في العديد من المصادر المختلفة في شكل غير منظم، ولذلك فإن هذه الوثائق الغير مهيكلة تحتاج إلى تصنيف. في هذا البحث، تم اقتراح نظام يسمى "نظام تصنيف الوثائق الذكي" الذي يمثل نظام لتصنيف الوثائق إلى الفئة الصحيحة استنادا إلى المعلومات النصية. هذا النظام يحتوي على أربع خطوات وهي المعالجة المسبقة، الاستخراج الميزات، طريقة مقترحة لاختيار الميزات وتحديث المصنف Naïve Bayes. في هذا النظام تم استخدام مجموعتي بيانات، مجموعة البيانات الأولى هي مجموعة البيانات القياسية والتي يحتوي على وثائق البحوث التقنية الموزعة على خمس فئات والتي تتوفر على شبكة الإنترنت، ومجموعة البيانات الثانية هي عبارة عن مجموعة تم تجميعها أثناء عمل هذا البحث والتي تحتوي على وثائق الكتب والموزعة على ستة فئات. حقق نظام إدك نتائج قوية. لمجموعة البيانات القياسية accuracy هي 95.1٪، وprecision هي 95٪، وrecall هي 95.8٪، و f1-measure هو 95.39٪ في حين أن accuracy لمجموعة البيانات التي تم جمعها هي 95.3 ٪، و precision هي 95.16٪، و recall هي 95.83٪، و f1-measure هو 95.49٪. There are a huge number of documents that available in many various sources in unorganized format, therefore these unstructured documents needs to be classified. In this paper, a proposed system called "Intelligent Documents Classification System" which represents the system for classifying the documents to the correct class based on its textual information. This system contain through four steps which are preprocessing, features extraction, proposed method for features selection, and finally, modify model of naïve bays. Two datasets are used to evaluate the proposed system, the first dataset its name as "bbc from ucd repository" is standard that contains technical research documents distributed over five classes which available on the internet and the second dataset is collected dataset contains books documents distributed over six classes which collected during this work. The IDC system achieved the powerful results. For the standard dataset the accuracy is 95.1%, precision is 95%, recall is 95.8%, and f1-measure is 95.39% while the accuracy for the collected dataset is 95.3%, precision is 95.16%, recall is 95.83%, and f1-measure is 95.49%. |
---|---|
ISSN: |
1819-6489 |