العنوان بلغة أخرى: |
Intelligence System for Multi-Language Recognition |
---|---|
المصدر: | مجلة التربية والعلم |
الناشر: | جامعة الموصل - كلية التربية |
المؤلف الرئيسي: | رمو، فوزية محمود (مؤلف) |
المؤلف الرئيسي (الإنجليزية): | .Ramo, Fawziya M |
مؤلفين آخرين: | الحمداني، محمد نايف (م. مشارك) |
المجلد/العدد: | مج31, ع1 |
محكمة: | نعم |
الدولة: |
العراق |
التاريخ الميلادي: |
2022
|
الصفحات: | 93 - 110 |
ISSN: |
1812-125X |
رقم MD: | 1265002 |
نوع المحتوى: | بحوث ومقالات |
اللغة: | العربية |
قواعد المعلومات: | EduSearch |
مواضيع: | |
كلمات المؤلف المفتاحية: |
تصنيف اللغة | معاملات درجة النغم | الشبكات العصبية الالتفافية | التعلم العميق | Language Classification | Mel-Frequency Cepstral Coefficients (MFCC) | Convolutional Neural Networks | Deep Learning
|
رابط المحتوى: |
الناشر لهذه المادة لم يسمح بإتاحتها. |
المستخلص: |
تستعمل أنظمة تصنيف اللغة لتصنيف اللغة المنطوقة من عينة صوتية معينة وهي عادة الخطوة الأولى للعديد من مهام معالجة اللغة المنطوقة، مثل أنظمة التعرف التلقائي على الكلام ومن دون الاكتشاف التلقائي للغة لا يمكن تحليل الكلام المنطوق بشكل صحيح ولا يمكن تطبيق القواعد النحوية، مما يتسبب في فشل خطوات التعرف على الكلام اللاحقة. نقترح نظام تصنيف اللغة الذي يحل المشكلة في مجال الصورة بدلا من مجال الصوت. حدد هذا البحث ونفذ العديد من الميزات منخفضة المستوى باستخدام معاملات درجة النغم (Mel Frequency Cepstral Coefficients)، والتي تستخلص الصفات من ملفات الكلام لأربع لغات (العربية، الإنجليزية، الفرنسية، الكردية) من قاعدة البيانات (M2L_Dataset) هي مصدر البيانات المستخدمة في هذا البحث. تستخدم الشبكة العصبية الالتفافية (Convolutional Neuron Network) بحيث تعمل على صور المخطط الطيفي للمقتطفات الصوتية المتوفرة. أظهرنا في تجارب مكثفة أن نموذجنا قابل للتطبيق على مجموعة من السيناريوهات الصاخبة ويمكن بسهولة توسيعه ليشمل لغات غير معروفة سابقا، مع الحفاظ على دقة التصنيف. أصدرنا الكود الخاص بنا ومجموعة تدريب واسعة النطاق لأنظمة تصنيف اللغة للمجتمع. تم تطبيق خوارزمية الشبكات العصبية الالتفافية (CNN) في هذا البحث للتصنيف وكانت النتيجة مثالية، إذ بلغت دقة التصنيف 97% بين لغتين إذا كان طول العينة ثانية واحدة فقط، أما إذا كان طول العينة ثانيتين فقد بلغت دقة التصنيف 98%. في حين التصنيف بين ثلاث لغات فقد بلغت دقة التصنيف 95% إذا كان طول العينة ثانية واحدة فقط، أما إذا كان طول العينة ثانيتين فقد بلغت دقة التصنيف 96 %. Language classification systems are used to classify spoken language from a particular phoneme sample and are usually the first step of many spoken language processing tasks, such as automatic speech recognition (ASR) systems Without automatic language detection, spoken speech cannot be properly analyzed and grammar rules cannot be applied, causing failures Subsequent speech recognition steps. We propose a language classification system that solves the problem in the image field, rather than the sound field. This research identified and implemented several low-level features using Mel Frequency Cepstral Coefficients, which extract traits from speech files of four languages (Arabic, English, French, Kurdish) from the database (M2L_Dataset) as the data source used in this research. A Convolutional Neuron Network is used to operate on spectrogram images of the available audio snippets. In extensive experiments, we showed that our model is applicable to a range of noisy scenarios and can easily be extended to previously unknown languages, while maintaining classification accuracy. We released our own code and extensive training package for language classification systems for the community. CNN algorithm was applied in this research to classify and the result was perfect, as the classification accuracy reached 97% between two languages if the sample length was only one second, but if the sample length was two seconds, the classification accuracy reached 98%. While the classification among three languages, the classification accuracy reached 95% if the sample length was only one second, but if the sample length was two seconds, the classification accuracy reached 96%. |
---|---|
ISSN: |
1812-125X |