المصدر: | الندوة الدولية : المعالجة الآلية للغة العربية CITALA'07 |
---|---|
الناشر: | معهد الدراسات والأبحاث للتعريب |
المؤلف الرئيسي: | Laskri, Mohamed Tayeb (Author) |
مؤلفين آخرين: | Meftouh, K. (co-auth) |
محكمة: | نعم |
الدولة: |
المغرب |
التاريخ الميلادي: |
2007
|
مكان انعقاد المؤتمر: | الرباط |
الهيئة المسؤولة: | منشورات معهد الدراسات والأبحاث للتعريب جامعة محمد الخامس |
الشهر: | يونيو |
الصفحات: | 105 - 112 |
رقم MD: | 600868 |
نوع المحتوى: | بحوث المؤتمرات |
اللغة: | العربية |
قواعد المعلومات: | AraBase |
مواضيع: | |
رابط المحتوى: |
المستخلص: |
The internet is a natural source of linguistic data providing an abundance of texts of various types in a large number of languages. Language scientists and technologists are increasingly turning to it to take benefit of this impressive mass of data. This paper describe a tool that build Arabic corpora using automated search engine queries, retrieving and post-processing the pages found in this way. The constructed corpus represents Arabic in general and will be used to compute statistical language models. |
---|