العنوان بلغة أخرى: |
دمج تقنية CNN-LSTM لتحسين التعرف على الكلام النظيف والصاخب Combinaison CNN-LSTM Combiné pour Améliorer la Reconnaissance Vocale Propre et Bruyante |
---|---|
المصدر: | اللسانيات |
الناشر: | مركز البحث العلمى والتقنى لتطوير اللغة العربية |
المؤلف الرئيسي: | Djeffal, Noussaiba (Author) |
مؤلفين آخرين: | Kheddar, Hamza (Co-Author) , Addou, Djamel (Co-Author) , Selouani, Sid Ahmed (Co-Author) |
المجلد/العدد: | مج30, ع2 |
محكمة: | نعم |
الدولة: |
الجزائر |
التاريخ الميلادي: |
2024
|
الشهر: | ديسمبر |
الصفحات: | 5 - 26 |
DOI: |
10.38169/0661-030-002-001 |
ISSN: |
1112-4393 |
رقم MD: | 1541866 |
نوع المحتوى: | بحوث ومقالات |
اللغة: | الإنجليزية |
قواعد المعلومات: | AraBase |
مواضيع: | |
كلمات المؤلف المفتاحية: |
التعرف الآلي على الكلام | الكلام النظيف | الكلام الصاخب | ASR | CNN | LSTM | Clean Speech | Noisy Speech | CNN-LSTM | DNN | SNR
|
رابط المحتوى: |
الناشر لهذه المادة لم يسمح بإتاحتها. |
المستخلص: |
تخص هذه الورقة البحثية نهجا هجينا للشبكة العصبية التلافيفية والذاكرة طويلة المدى القصيرة (CNN-LSTM) للتعرف الآلي على الكلام (ASR) باستخدام تقنيات التعلم العميق على قاعدة بيانات Aurora-2. تتضمن قاعدة البيانات كلا من الوضعين النظيف ومتعدد الشروط، وتشمل أربعة سيناريوهات للضوضاء: مترو الأنفاق، والثرثرة، والسيارة، وقاعة المعرض، يتم تقييم كل منها عند نسب إشارة إلى ضوضاء (SNRS) مختلفة، وحالة نظيفة لا تحتوي على ضوضاء، ويتم مقارنة النتائج بتلك الموجودة في قاعدة البيانات ASC-10 وقاعدة البيانات ESC-10. المشكلة التي تمت معالجتها في هذه الدراسة هي الحاجة إلى نماذج قوية للتعرف الآلي على الكلام التي تعمل بشكل جيد في كل من البيئات النظيفة والصاخبة (التي تحتوي على ضوضاء). والهدف من استخدام بنية CNN-LSTM هو تحسين أداء التعرف من خلال الجمع بين نقاط القوة في كل من النماذج CNNs وLSTMS، بدلاً من الاعتماد على CNNs أو LSTMS وحدها. تظهر النتائج التجريبية أن نموذج CNN-LSTM المدمج يحقق أداء تصنيف مرتفع جدا، في البيئات النظيفة على قاعدة البيانات Aurora2، حيث حقق نسبة 97.96% من الدقة، متجاوزا نماذج CNN وLSTM عندما تأخذ فرديا، والتي حققت 97.21% و96.06% على التوالي. في الظروف الصاخبة، يتفوق النموذج الهجين أيضا على النماذج المستقلة، بدقة 90.72%، مقارنة بـ 90.12% لـ CNN و86.12% لـ LSTM في النهاية، تشير هذه النتائج إلى أن نموذج CNN-LSTM أكثر فعالية في التعامل مع ظروف الضوضاء المختلفة وتحسين دقة التعرف على الكلام بشكل عام. This paper presents a hybrid Convolutional Neural Network-Long Short-Term Memory (CNN-LSTM) approach for Automatic Speech Recognition (ASR) using deep learning techniques on the Aurora-2 dataset. The dataset includes both clean and multi-condition modes, encompassing four noise scenarios: subway, babble, car, and exhibition hall, each evaluated at different signal-to-noise ratios (SNRs) , and clean condition, and the results are compared with those from the ASC-10 dataset and the ESC-10 dataset. The problem addressed is the need for robust ASR models that perform well in both clean and noisy environments. The aim of utilizing the CNN-LSTM architecture is to enhance the recognition performance by combining the strengths of CNNs and LSTMs, rather than relying on either CNNs or LSTMs alone. Experimental results demonstrate that the combined CNN-LSTM model achieves superior classification performance, in clean environments on the Aurora2 dataset, attaining an accuracy of 97.96%, surpassing the individual CNN and LSTM models, which achieved 97.21% and 96.06%, respectively. In noisy conditions, the hybrid model also outperforms the standalone models, with an accuracy of 90.72%, compared to 90.12% for CNN and 86.12% for LSTM. These findings indicate that the CNN-LSTM model is more effective in handling various noise conditions and improving overall ASR accuracy. Cet article présente une approche hybride de réseau neuronal convolutionnel et de mémoire à long terme (CNN-LSTM) pour la reconnaissance automatique de la parole (ASR) utilisant des techniques d'apprentissage profond sur la base de données Aurora-2. Cette base de données comprend des modes propres et multi-conditions, englobant quatre scénarios de bruit: métro, babillage, voiture et hall d'exposition, chacun évalué à différents rapports signal/bruit (SNR) et condition propre, et les résultats sont comparés à ceux de l'ensemble de données ASC-10 et de la base de données ESC-10. Le problème abordé est le besoin de modèles ASR robustes qui fonctionnent bien dans les environnements bruités et non bruités (propres). L'objectif de l'utilisation de l'architecture CNN-LSTM est d'améliorer les performances de reconnaissance en combinant les points forts des CNN et des LSTM, plutôt que de s'appuyer uniquement sur les CNN ou les LSTM pris en isolés. Les résultats expérimentaux démontrent que le modèle combiné CNN-LSTM atteint de hautes performances de classification, dans des environnements non bruités sur l'ensemble de données Aurora2, atteignant une précision de 97,96%, surpassant les modèles CNN et LSTM pris individuellement, qui ont atteint respectivement 97,21% et 96,06%. Dans des conditions bruitées, le modèle hybride surpasse également les deux modèles cités, avec une précision de 90,72%, contre 90,12% pour CNN et 86,12% pour LSTM. Ces résultats indiquent que le modèle hybride CNN-LSTM est plus efficace pour gérer diverses conditions de bruit et améliorer la précision globale du taux de reconnaissance de la parole. |
---|---|
ISSN: |
1112-4393 |