Developing a Stress Prediction Tool for Arabic Speech Recognition Tasks

الشرهان، إيمان; الناجم، صلاح راشد

Developing a Stress Prediction Tool for Arabic Speech Recognition Tasks

العنوان بلغة أخرى:	تطوير أداة لتمييز مواضع النبر في الكلمات لأنظمة التعرف الآلي على الكلام العربي
المصدر:	المجلة العلمية لجامعة الملك فيصل - العلوم الإنسانية والإدارية
الناشر:	جامعة الملك فيصل
المؤلف الرئيسي:	الشرهان، إيمان (مؤلف)
المؤلف الرئيسي (الإنجليزية):	Al-Sharhan, Eiman Tawfeeq
مؤلفين آخرين:	الناجم، صلاح راشد (م. مشارك)
المجلد/العدد:	مج22, ع2
محكمة:	نعم
الدولة:	السعودية
التاريخ الميلادي:	2021
الصفحات:	119 - 125
DOI:	10.37575
ISSN:	1319-6944
رقم MD:	1159333
نوع المحتوى:	بحوث ومقالات
اللغة:	الإنجليزية
قواعد المعلومات:	EcoLink, HumanIndex
مواضيع:	الدراسات اللغوية \| اللغة العربية \| مواضع النبر \| الأنظمة الآلية \| المعالجة اللغوية
كلمات المؤلف المفتاحية:	الخصائص فوق القطعية \| النبر \| الكتابة الصوتية \| نظام التعرف الآلي على الكلام \| Suprasegmental Features \| Stress \| Phonetic Transcription \| Automatic Speech Recognition
رابط المحتوى:	PDF (صورة) PDF (نص) HTML

عدد مرات التحميل

8

المستخلص:

يتطلب تطوير تطبيقات المعالجة الآلية للغة العربية مراعاة الخصائص اللغوية المختلفة الموجودة في الكلام، وترجمة تلك الخصائص الكلامية كتابيا، من أجل تقليل التعقيد الحسابي، وبالتالي تقليل معدل الخطأ في التعرف على الكلمات. تعتبر الخواص الكلامية فوق القطعية - كالنبر - من الخصائص الأساسية للكلام، والتي يمكنها بدورها أن تعزز أداء العديد من تطبيقات المعالجة الآلية للكلام. تستهدف الدراسة الحالية تطوير أداة تقوم بتقسيم الكلمة إلى المقاطع التي تتكون منها، وتمييز المقاطع المنبورة بشكل آلي، وسيتم استخدام مخرجات هذه الآلة في بناء القاموس الصوتي اللازم لتطوير نظام التعرف التلقائي على الكلام العربي. يجب أن تكون هذه الآلة دقيقة ومبنية على أسس لغوية صحيحة حتى تكون مفيدة تطبيقيا، ولاختبار فعالية ودقة الآلة المطورة قامت الدراسة بتطوير أنموذجين مختلفين لبرنامج التعرف الآلي على الكلام العربي بهدف مقارنة أدائهما. يستخدم الأنموذج الأول في بناء النموذج الصوتي للنظام القاموس الصوتي الأساسي (بدون نبر)، بينما يعتمد الأنموذج الثاني على القاموس المولد آليا باستخدام الأداة التي قمنا بتطويرها. تشير النتائج إلى تفوق استخدام القاموس المولد آليا على الاستخدام التقليدي للقاموس الصوتي، وذلك بتخفيض معدل الخطأ في التعرف على الكلمات بنسبة (5.6%) عند تمييز كل محتويات المقطع المنبور، وتحسن بنسبة (3.5%) عند استخدام القاموس الذي يميز الحركات المنبورة فقط. تعتبر هذه النتائج مشجعة للقيام بدراسات مستقبلية تقوم بتوظيف المميزات العروضية للكلام عند تطوير تطبيقات معالجة الكلام الآلية المختلفة.

Developing natural language processing applications for Arabic must consider the different linguistic characteristics found in speech and translate those characteristics to script in order to reduce computational complexity and therefore reduce the word error rate (WER). Suprasegmental features are fundamental properties of speech that can enhance the performance of many natural speech processing applications. The present study considered stress as a prosodic feature comprising the prominence of syllables in speech by developing a tool that generated phonetic transcriptions and predicted the stress position. The generated transcription was used to create the phonetic dictionary necessary for developing an automatic speech recognition (ASR) system. This tool had to be accurate, linguistically motivated, and applicationally useful; therefore, the effectiveness of the generated stress-marked phonetic dictionary was tested by comparing the performance of a standard fixed dictionary-based system with that of one using the automatically generated dictionary. The research reported a 5.6% reduction in WER when using a dictionary with stress markers attached to each phone in the stressed syllable and a 3.5% reduction in WER when using a dictionary with stress markers assigned only to stressed vowels. These results encourage future studies to employ prosodic features of speech when developing different speech processing applications.

ISSN:

1319-6944

عناصر مشابهة

An Exploratory Study of the Development of a Speech Corpus Annotated for the Main Arabic Dialects
بواسطة: الشرهان، إيمان منشور: (2020)
Investigating the Development of an Open-Sourced Arabic-Based Speech Recognition Tool in A Context of an Assistive Technology (ATBar Toolbar)
بواسطة: Al Kadi, Mashael Hamad منشور: (2011)
PHARYNGEAL AND EMPHATIC SOUNDS IN ARABIC SPEECH RECOGNITION
بواسطة: Al Otaibi, Yousef Ajami منشور: (1997)
The Development of an Efficient Transcription System for Kuwaiti Broadcast News and Conversational Speech
بواسطة: الشرهان، إيمان منشور: (2021)
A Large Vocabulary Speech Recognition Model for Arabic
بواسطة: Al Diri, Bashir منشور: (2002)

Developing a Stress Prediction Tool for Arabic Speech Recognition Tasks

عدد مرات التحميل

8

عناصر مشابهة

دليل المستخدم

دليل الفيديو