ارسل ملاحظاتك

ارسل ملاحظاتك لنا







The Impact of Arabic Dialects on the Performance of Arabic Speech Recognition Systems

العنوان بلغة أخرى: تأثير بعض اللهجات العربية على التعرف الآلي على الكلام باللغة العربية
المؤلف الرئيسي: Abu Gharbieh, Amani
مؤلفين آخرين: Hannani, Abualsoud
التاريخ الميلادي: 2019
موقع: بيرزيت
الصفحات: 1 - 100
رقم MD: 1248546
نوع المحتوى: رسائل جامعية
اللغة: الإنجليزية
الدرجة العلمية: رسالة ماجستير
الجامعة: جامعة بيرزيت
الكلية: كلية الدراسات العليا
الدولة: فلسطين
قواعد المعلومات: Dissertations
مواضيع:
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

2

حفظ في:
المستخلص: يعد التعرف التلقائي على الكلام ASR جوهر الاهتمام لمعظم التطبيقات الحديثة، مثل البحث الصوتي، وإملاء الرسائل القصيرة وغيرها. واحدة من التحديات التي تواجه عملية التعرف على الكلام هي الاختلافات في الكلام البشري، وهذا يرجع إلى العديد من العوامل مثل العمر والجنس والجنسية ومستوى التعليم. عموما تعدد اللغات، اللهجات وطريقة النطق لها تأثير كبير أيضا. تضيف اللغة العربية تحديات أكبر من أي لغة أخرى، ويرجع ذلك إلى الفرق الكبير بين اللغة العربية الفصحى المعاصرة واللهجات الإقليمية في الدول العربية. في هذا البحث، ندرس تأثير اللهجات العربية على أداء التعرف التلقائي للغة العربية. يتم ذلك من خلال استخدام أساليب مختلفة للتكيف والتحسين في النموذج الصوتي. لقد وجدنا أن استخدام أحدث تقنية للشبكة العصبية العميقة HMM-DNN أدى إلى تحسين أداء التعرف التلقائي على نموذج المعياري التقليدي HMM-GMM. ونحصل على أفضل أداء عندما يكون لدينا HMM-DNN بخمس طبقات مخفية، وأبعاد 2048 مخفية، وتحسين الحد الأدنى للخطأ الصوتي MPE، واستخدام MFCC كمتجه حامل خصائص القطع الصوتي. وعندما نضيف DNN إلى مرحلة استخراج الميزات للحصول على Bottleneck feature، نحصل على أداء أفضل من استخدام MFCC. يجب أن نعرف أنه في مرحلة استخراج الميزات، قمنا بتقليل حجم الإطار إلى 20 مللي ثانية وحافظنا على تحول التنقل الزمني مساويا لـ 10 مللي ثانية. هذا الإجراء يزيد من التداخل بين الإطارات ويقلل من فقدان البيانات. أيضا في هذا البحث، بدأنا بتعرف تلقائي معتمد على لهجة معينة، وقد استخدمنا أربعة أحجام مختلفة من مجموعات البيانات تتراوح بين 2000 و50000. وجدنا أن زيادة حجم بيانات التدريب يعزز أداء التعرف التلقائي. والأهم من ذلك هو إضافة اللهجة العربية إلى مجموعة بيانات التدريب مما يعزز الأداء كذلك. قارنا أداء مجموعتين من مجموعات البيانات: الأولى تحتوي على بيانات من اللغة العربية الفصحى وحجمها 50000 جملة والثانية عبارة عن مزيج من لهجة عربية واللغة العربية الفصحى وحجمها 40000 جملة. وكانت النتيجة أننا حصلنا على أداء أفضل أثناء إضافة اللهجة إلى التدريب، وهذا يعني أن اختيار البيانات ونوعها لبيانات التدريب مهم أيضا لتحسين أداء التعرف الآلي للغة العربية وليس فقط حجم مجموعة بيانات التدريب. ثم فكرنا في مزج جميع اللهجات أثناء التدريب على التعرف الآلي للحصول على نموذج مستقل عن أي لهجة عربية. وكان أداء النموذج المستقل أفضل من النموذج المعتمد على لهجة معينة. ويعزى ذلك لحجم بيانات التدريب للهجات العربية. في هذا البحث أيضا حاولنا المقارنة بين أدوات المواءمة من خلال تجارب مختلفة، ووجدنا أن fMLLR ويغ باع يتصرفان بنفس الكفاءة أثناء استخدام DD-ASR أي في حالة التدريب على لهجة واحدة فقط. ولكن في حالة ID-ASR أي في حالة التدرب على أكثر من لهجة، كان أداءMAP أفضل من fMLLR. كما وتظهر نتائجنا أن استخدام تقنية الشبكات العميقة في أي مرحلة من مراحل التعرف الآلي على الأصوات، يعزز أداء التعرف الآلي على الأصوات باللغة العربية نظرا لأننا استخدمنا هذه التقنية لإنشاء متجه حامل خصائص الصوت واستخدمناها في مرحلة النموذج الصوتي.

عناصر مشابهة