ارسل ملاحظاتك

ارسل ملاحظاتك لنا







Transliteration Normalization For Information Extraction And Machine Translation

المصدر: مجلة جامعة الملك سعود - علوم الحاسب والمعلومات
الناشر: جامعة الملك سعود
المؤلف الرئيسي: Marton, Yuval (Author)
مؤلفين آخرين: Zitouni, Imed (Co-Author)
المجلد/العدد: مج26, ع4
محكمة: نعم
الدولة: السعودية
التاريخ الميلادي: 2014
الصفحات: 379 - 387
DOI: 10.33948/0584-026-004-004
ISSN: 1319-1578
رقم MD: 973347
نوع المحتوى: بحوث ومقالات
اللغة: الإنجليزية
قواعد المعلومات: science
مواضيع:
كلمات المؤلف المفتاحية:
Arabic | Named Entity Recognition | Transliteration | Name Normalization | Information Extraction | Machine Translation
رابط المحتوى:
صورة الغلاف QR قانون
حفظ في:
LEADER 02378nam a22002417a 4500
001 1716248
024 |3 10.33948/0584-026-004-004 
041 |a eng 
044 |b السعودية 
100 |9 524790  |a Marton, Yuval  |e Author 
245 |a Transliteration Normalization For Information Extraction And Machine Translation 
260 |b جامعة الملك سعود  |c 2014 
300 |a 379 - 387 
336 |a بحوث ومقالات  |b Article 
520 |b Foreign name transliterations typically include multiple spelling variants. These variants cause data sparseness and inconsistency problems, increase the Out-of-Vocabulary (OOV) rate, and present challenges for Machine Translation, Information Extraction and other natural language processing (NLP) tasks. This work aims to identify and cluster name spelling variants using a Statistical Machine Translation method: word alignment. The variants are identified by being aligned to the same ‘‘pivot” name in another language (the source-language in Machine Translation settings). Based on word-to-word translation and transliteration probabilities, as well as the string edit distance metric, names with similar spellings in the target language are clustered and then normalized to a canonical form. With this approach, tens of thousands of high-precision name transliteration spelling variants are extracted from sentence-aligned bilingual corpora in Arabic and English (in both languages). When these normalized name spelling variants are applied to Information Extraction tasks, improvements over strong baseline systems are observed. When applied to Machine Translation tasks, a large improvement potential is shown. 
653 |a اللسانيات الحاسوبية  |a الترجمة الآلية  |a اللغة العربية  |a استرجاع المعلومات 
692 |b Arabic  |b Named Entity Recognition  |b Transliteration  |b Name Normalization  |b Information Extraction  |b Machine Translation 
700 |9 524791  |a Zitouni, Imed  |e Co-Author 
773 |c 004  |e Journal of King Saud University (Computer and Information Sciences)  |f Maǧalaẗ ǧamʼaẗ al-malīk Saud : ùlm al-ḥasib wa al-maʼlumat  |l 004  |m مج26, ع4  |o 0584  |s مجلة جامعة الملك سعود - علوم الحاسب والمعلومات  |v 026  |x 1319-1578 
856 |u 0584-026-004-004.pdf 
930 |d y  |p y 
995 |a science 
999 |c 973347  |d 973347 

عناصر مشابهة