ارسل ملاحظاتك

ارسل ملاحظاتك لنا







Proposed Method To Enhance Text Document Clustering Using Improved Fuzzy C Mean Algorithm With Named Entity Tag

العنوان بلغة أخرى: طريقة مقترحة لتحسين عنقدة الوثائق النصية باستخدام خوارزمية العنقدة المضببة المحسنة مع علامات أسماء الكيانات
المصدر: مجلة المنصور
الناشر: كلية المنصور الجامعة
المؤلف الرئيسي: هادي، رغد محمد (مؤلف)
مؤلفين آخرين: محمود، عبير طارق (م. مشارك), هاشم، سكينة حسن (م. مشارك)
المجلد/العدد: ع28
محكمة: نعم
الدولة: العراق
التاريخ الميلادي: 2017
الصفحات: 43 - 62
DOI: 10.36541/0231-000-028-006
ISSN: 1819-6489
رقم MD: 823866
نوع المحتوى: بحوث ومقالات
اللغة: الإنجليزية
قواعد المعلومات: EcoLink, HumanIndex
مواضيع:
كلمات المؤلف المفتاحية:
Fuzzy clustering | documents datasets | information extraction | named entity
رابط المحتوى:
صورة الغلاف QR قانون
حفظ في:
المستخلص: Text document clustering denotes to the clustering of correlated text documents into groups for unsupervised document society, text data mining, and involuntary theme extraction. The most common document representation model is vector space model (VSM) which embodies a set of documents as vectors of vital terms, outmoded document clustering methods collection related documents lacking at all user contact. The proposed method in this paper is an attempt to discover how clustering might be better-quality with user direction by selecting features to separate documents. These features are the tag appear in documents, like Named Entity tag which denote to important information for cluster names in text, through introducing a design system for documents representation model which takes into account create combined features of named entity tag and use improvement Fuzzy clustering algorithms. The proposed method is tested in two levels, first level uses only vector space model with traditional Fuzzy c mean, and the second level uses vector space model with combined features of named entity tag and use improvement fuzzy c mean algorithm, through uses a subset of Reuters 21578 datasets that contains 1150 documents of ten topics (150) document for each topic. The results show that using second level as clustering techniques for text documents clustering achieves good performance with an average categorization accuracy of 90%.

عنقدة الوثائق النصية يعني تجميع الوثائق والنصوص المتشابهة إلى عناقيد وهذا التجميع للوثائق غير خاضع للرقابة، عند استخراج البيانات المهمة من النص واستخراج موضوع غير الطوعي. النموذج الأكثر شيوعا لتمثيل الوثائق هو نموذج متجه الفضاء(VSM) الذي يجسد مجموعة من الكلمات المهمة الموجودة في الوثائق، والأساليب القديمة في تجميع الوثائق المتعلقة كانت تفتقر إلى اتصال المستخدم. النظام المقترح في هذا البحث حاول اكتشاف كيفية تجميع هذه الوثائق كي تعطي جودة أفضل مع تدخل المستخدم عن طريق تحديد ملامح لفصل هذه الوثائق. هذه الميزات تظهر كالعلامات في الوثائق، مثل علامات الكيان المسماة التي تدل على معلومات هامة عن أسماء تستخدم للتصنيف في النص، من خلال تصميم نظام يستخدم لتمثيل الوثائق والذي يأخذ في نظر الاعتبار إنشاء نموذج الفضاء ناقلات (VSM) مع ميزات مشتركة من كيان مسمى بالعلامات ويستخدم خوارزمية تحسين العنقدة المضببة. تم اختبار النظام في مستويين، يستخدم المستوى الأول الوحيد VSM مع FCM التقليدي، ويستخدم المستوى الثاني VSM مع ميزات مشتركة من الكيان مسمى مع استخدام تحسين FCM الخوارزمية، من خلال استخدام مجموعة فرعية من بيانات رويترز 21578 قاعدة البيانات التي تحتوي على 1150 وثيقة متكونة من عشرة مواضيع و(150) وثيقة لكل موضوع. وأظهرت النتائج أن استخدام المستوى الثاني قد حقق أداء جيدا مع متوسط دقة تصنيف 90% مقارنة مع تقنيات تجميع الوثائق النصية الأخرى.

ISSN: 1819-6489

عناصر مشابهة