المستخلص: |
تقدم هذه الورقة قاعدة بيانات للكلام العربي الهاتفي المنطوق من قبل متحدثين سعوديين من جميع مدن المملكة العربية السعودية. وتعرض الورقة أبرز التحديات التي واجهت فريق العمل التي منها إعداد عبارات الكلام، واختيار المتحدثين المناسبين وتسجيلهم، والكتابة الصوتية للكلام العربي. وتذكر الورقة الحلول التي سلكها فريق العمل لمواجهة هذه التحديات. وتضم قاعدة البيانات 1033 متحدثا باللكنة السعودية للغة العربية المعاصرة. وتتولى الورقة عرض وتحليل محتويات قاعدة البيانات التي أجيزت من قبل شركة آي بي إم وتم استخدامها في بناء محرك للتعرف الآلي على الكلام العربي. ويمكن استخدام هذه القاعدة في تدريب واختبار نظم حاسوبية مختلفة منها: التعرف على الكلام، واللهجات، واللغة العربية، والجنس، إضافة إلى التحقق من المتحدث.
The aim of this paper is to present an Arabic speech database that represents Arabic native speakers from all the cities of Saudi Arabia. The database is called the Saudi Accented Arabic Voice Bank (SAAVB). Preparing the prompt sheets, selecting the right speakers and transcribing their speech are some of the challenges that faced the project team. The procedures that meet these challenges are highlighted. SAAVB consists of 1.033 speakers speak in Modern Standard Arabic with a Saudi accent. The SAAVB content- is analyzed and the results are illustrated. The content was verified internally and externally by IBM Cairo and can be used to train speech engines such as automatic speech recognition and speaker verification systems.
|