ارسل ملاحظاتك

ارسل ملاحظاتك لنا







Improving the Performance of the Image Captioning Systems Using a Pre-Classification Stage

العنوان بلغة أخرى: تحسين أداء أنظمة وصف الصور باستخدام مرحلة التصنيف المسبق للصور
المصدر: مجلة العلوم الهندسية وتكنولوجيا المعلومات
الناشر: المركز القومي للبحوث
المؤلف الرئيسي: معلا، رشا محمد (مؤلف)
المؤلف الرئيسي (الإنجليزية): Mualla, Rasha Mohammed
مؤلفين آخرين: الخير، جعفر (م. مشارك) , سليمان، سامر (م. مشارك)
المجلد/العدد: مج6, ع1
محكمة: نعم
الدولة: فلسطين
التاريخ الميلادي: 2022
الشهر: مارس
الصفحات: 150 - 164
ISSN: 2522-3321
رقم MD: 1267082
نوع المحتوى: بحوث ومقالات
اللغة: الإنجليزية
قواعد المعلومات: HumanIndex
مواضيع:
كلمات المؤلف المفتاحية:
التعلم العميق | معالجة اللغات الطبيعية | وصف الصور باللغة الإنكليزية | تصنيف الصور | وصف الصور بتسميات توضيحية | Deep Learning | Natural Language Processing | Arabic Language Image Captioning | English Language Image Captioning | Image Classification | Image Captioning
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

8

حفظ في:
LEADER 05339nam a2200253 4500
001 2020142
041 |a eng 
044 |b فلسطين 
100 |9 675292  |a معلا، رشا محمد  |e مؤلف  |g Mualla, Rasha Mohammed 
245 |a Improving the Performance of the Image Captioning Systems Using a Pre-Classification Stage 
246 |a تحسين أداء أنظمة وصف الصور باستخدام مرحلة التصنيف المسبق للصور 
260 |b المركز القومي للبحوث  |c 2022  |g مارس 
300 |a 150 - 164 
336 |a بحوث ومقالات  |b Article 
520 |a في هذا البحث قدمنا نظاما جديدا لتصنيف الصور ووصفها عن طريق إضافة طبقة تصنيف قبل نماذج وصف الصور بالتسميات التوضيحية. يتكون النهج المقترح من ثلاث خطوات رئيسية ومستوحاة من أحدث التقنيات التي تعتبر توليد تسميات توضيحية للصور ضمن مجموعات الصور الفرعية الصغيرة المصنفة أفضل منه في مجموعة البيانات الكبيرة غير المصنفة. في الخطوة الأولى، قمنا بتجميع مجموعة بيانات صور من مجموعتي بيانات معياريتين (MS- COCO و Flickr2k) وتتضمن هذه المجموعة 10778 صورة تم تقسيمها إلى 80% للتدريب و20% للتحقق من الصحة. في الخطوة التالية، تم تصنيف صور مجموعة البيانات إلى 11 فئة (10 فئات من الفئات الداخلية والخارجية وفئة واحدة من فئة Null) وتم إدخالها في مصنف يعتمد مبدأ التعلم العميق. يتم إعادة تدريب المصنف مرة أخرى باستخدام أصناف الصور العشرة التي تم تشكيلها، بحيث يتعلم تصنيف كل صورة إلى الفئة المقابلة لها. في الخطوة الأخيرة، يتم استخدام كل صورة مصنفة كمدخلات ل 11 نموذج مصنف ومدرب مسبقا لوصف الصور، بحيث يتم إنشاء جملة التسمية التوضيحية النهائية للصورة. أظهرت التجارب أن إضافة خطوة التصنيف المسبق قبل مرحلة توليد التسميات التوضيحية للصورة تحسن الأداء بشكل ملحوظ بنسبة (8.15% و 8.44%) و (12.7407% و 16.7048%) من حيث معياري Top-1وTop-5 لأنظمة الوصف التي تعتمد اللغة الإنجليزية والعربية على التوالي. حققت خطوة التصنيف معدلات تصنيف حقيقية بلغت 71.32% و73.09% للأنظمة الإنجليزية والعربية على التوالي.  |b In this research, we introduce a novel image classification and captioning system by adding a classification layer before the image captioning models. The suggested approach consists of three main steps and inspired by the state- of- art that generating image captioning inside small sub- classes categories is better than the unclassified large dataset. In the first one, we have collected a dataset of two international datasets (MS- COCO and Flickr2k) including 10778 images in which 80% is used for training and 20% for validation. In the next step, dataset images have been classified into 11 classes (10 classes of indoor and outdoor categories and one class of "Null" category) and fed into a deep learning classifier. The classifier is re- trained again using our classes and learned to classify each image to the corresponding category. At the final step, each classified image is used as input of 11 pre-trained classified image captioning models, and the final captioning sentence is generated. The experiments show that adding the pre- classification step before the image captioning stage improves the performance significantly by (8.15% and 8.44%) and (12.7407% and 16.7048%) for Top- 1 and Top- 5 of English and Arabic systems respectively. The classification step achieves a true classification rate of 71.32% and 73.09% for English and Arabic systems respectively. 
653 |a الشبكات العصبية للتعلم  |a السمات المرئية  |a الذاكرة الطويلة 
692 |a التعلم العميق  |a معالجة اللغات الطبيعية  |a وصف الصور باللغة الإنكليزية  |a تصنيف الصور  |a وصف الصور بتسميات توضيحية  |b Deep Learning  |b Natural Language Processing  |b Arabic Language Image Captioning  |b English Language Image Captioning  |b Image Classification  |b Image Captioning 
700 |9 104761  |a الخير، جعفر  |e م. مشارك  |g Alkheir, Jafar 
700 |9 240860  |a سليمان، سامر  |e م. مشارك  |g Sulaiman, Samer 
773 |4 العلوم الإنسانية ، متعددة التخصصات  |6 Humanities, Multidisciplinary  |c 007  |f Mağallaẗ al-ʿulūm al-handasiyyaẗ wa-al-tiknūlūğiyā al-maʿlūmāt  |l 001  |m مج6, ع1  |o 1746  |s مجلة العلوم الهندسية وتكنولوجيا المعلومات  |t Journal of Engineering Sciences and Information Technology  |v 006  |x 2522-3321 
856 |u 1746-006-001-007.pdf 
930 |d y  |p y  |q n 
995 |a HumanIndex 
999 |c 1267082  |d 1267082 

عناصر مشابهة