ارسل ملاحظاتك

ارسل ملاحظاتك لنا







يجب تسجيل الدخول أولا

The Development of an Efficient Transcription System for Kuwaiti Broadcast News and Conversational Speech

العنوان بلغة أخرى: تطوير نظام آلي فعال لتحويل الكلام الكويتي المنطوق إلى مكتوب باللغة الإنجليزية
المصدر: المجلة العربية للعلوم الإنسانية
الناشر: جامعة الكويت - مجلس النشر العلمي
المؤلف الرئيسي: الشرهان، إيمان (مؤلف)
مؤلفين آخرين: العتيبي، بشاير عبدالله (م. مشارك)
المجلد/العدد: مج39, ع155
محكمة: نعم
الدولة: الكويت
التاريخ الميلادي: 2021
الشهر: صيف
الصفحات: 329 - 348
DOI: 10.34120/0117-039-155-009
ISSN: 1026-9576
رقم MD: 1139506
نوع المحتوى: بحوث ومقالات
اللغة: الإنجليزية
قواعد المعلومات: HumanIndex
مواضيع:
كلمات المؤلف المفتاحية:
نظام التفريغ التلقائي | التعرف الآلي على الكلام | المعالجة الآلية للغة الطبيعية | اللهجات العربية | الصوتيات | نموذج ماركوف المخفي | التعلم العميق | Automatic Transcription System | Speech Recognition | Speech Processing | Dialectal Arabic | Deep Neural Networks | Hidden Markov Model
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

18

حفظ في:
المستخلص: تقدم الدراسة أول نظام آلي فعال يعمل على تحويل الكلام العربي الكويتي المنطوق إلى نص مكتوب باستخدام أحدث تقنيات التعرف الآلي على الكلام، ويأتي هذا النظام المطور ليحل محل نظام التفريغ اليدوي التقليدي؛ الأمر الذي يجعل عملية التفريغ أكثر دقة وسرعة وتزامنا؛ ما يضمن تقليل نسبة الخطأ ويحقق الاستخدام الأمثل للوقت. وقد تم اختيار اللهجة العربية الكويتية بوصفها مثالا على اللهجات العربية التي تعاني من نقص الموارد اللازمة لتطوير أنظمة التعرف الآلي على الكلام، ويتمثل أهم تحديين يواجهان تطوير أنظمة التعرف الآلي على الكلام في ما يلي: الأول، نقص البيانات المتاحة من نصوص مكتوبة ومنطوقة مطلوبة للنمذجة الفعالة، وقد تم التصدي لهذا التحدي من خلال استخدام مزيج من بيانات اللغة العربية الفصيحة، بالإضافة إلى بيانات من اللهجة الكويتية عند بناء النماذج الصوتية واللغوية في النظام، والتحدي الثاني، هو غياب القواميس النطقية للهجة المستهدفة نتيجة لعدم وجود نظام إملائي واضح المعالم، وقد استخدمت الدراسة نسخة موسعة من أداة التحليل الصرفي MADAMIRA الذي يغطي اللهجة الكويتية لإنشاء قاموس النطق المطلوب تلقائيا عند بناء النظام. وقد تم تطوير النظام الآلي المبتكر في هذه الدراسة استنادا إلى بيانات منGALE (المرحلة 3)، التي تحتوي على ما يقارب 22 ساعة مسجلة من الكلام الكويتي، متفاوتة بين الأخبار الإذاعية والبرامج الحوارية، بالإضافة إلى 29 ساعة من البرامج التلفزيونية تم الحصول عليها من القنوات التلفزيونية الكويتية، أما بيانات اللغة العربية الفصيحة؛ فقد استخرج ما يقارب 17.1 ساعة من الكلام الفصيح من قاعدة البيانات GALE نفسها، وهو كلام صادر عن متحدثين خليجيين. وقد اختبر هذا النظام الآلي المبتكر في ظروف مختلفة حقق في أفضلها أداء ممتازا، وبنسبة خطأ لا تتجاوز 7.9%؛ مما يبشر بإمكانية استخدامه والاستفادة منه في تطوير تطبيقات متنوعة في المستقبل.

The research aims to introduce the first efficient speech transcription system for Kuwaiti Arabic (KA) using speech recognition technologies. The system replaces the conventional manual transcription scheme, which improves reliability, achieves the best use of time, and streamlines the process simultaneously. The research also presents two practical solutions for two fundamental challenges facing the development of speech recognition systems for Arabic dialects. The first challenge is the shortage of dialectal data that is required for efficient modeling. This challenge is addressed by using a combination of available Modern Standard Arabic (MSA) data and the dialectal data when building the acoustic and language models. The second challenge is related to the linguistics specifications of the targeted dialect, which can be seen in the absence of a well-defined orthography system and consequently, the lack of pronunciation dictionaries. The research uses an extended version of the MADAMIRA morphological analyzer that covers KA to automatically generate the pronunciation dictionary needed to build the model. It also uses data from the GALE (phase 3), which contains approximately 22 hours of Kuwaiti speech, varying among broadcast news, talk shows, and conversational programs, as well as 29 hours of TV shows obtained from Kuwaiti TV channels. For MSA data, the researchers retrieved approximately 17.1 hours of speech produced by Gulf speakers from the GALE (phase 3) database. The best performing model reported in this research achieves 7.9% of the word error rate (WER), which is anticipated to deliver a good performance when used in varied applications. The paper recommends for future research to pursue similar studies on other dialects.

ISSN: 1026-9576

عناصر مشابهة