العنوان المترجم: |
Building a Contemporary Standard Linguistic Corpus for The Arabic Language for Information Retrieval Purposes |
---|---|
المصدر: | مجلة بحوث في علم المكتبات والمعلومات |
الناشر: | جامعة القاهرة - كلية الآداب - مركز بحوث نظم وخدمات المعلومات |
المؤلف الرئيسي: | أبو الخير، إبراهيم حسن (مؤلف) |
المؤلف الرئيسي (الإنجليزية): | Abu El Khair, Ibrahim Hassan |
المجلد/العدد: | ع18 |
محكمة: | نعم |
الدولة: |
مصر |
التاريخ الميلادي: |
2017
|
الشهر: | مارس |
الصفحات: | 77 - 115 |
DOI: |
10.21608/sjrc.2017.82652 |
ISSN: |
2090-0988 |
رقم MD: | 853065 |
نوع المحتوى: | بحوث ومقالات |
اللغة: | العربية |
قواعد المعلومات: | HumanIndex |
مواضيع: | |
كلمات المؤلف المفتاحية: |
الذخائر اللغوية | استرجاع المعلومات | بناء الذخائر اللغوية | المعالجة الطبيعية للغة | اللغويات الحاسوبية | Corpus Corpora | Information Retrieval | Corpus Creation | Natural Language Processing | Computational Linguistics
|
رابط المحتوى: |
المستخلص: |
الذخيرة اللغوية هي مجموعة من النصوص المكتوبة بلغة معينة، أو بأكثر من لغة، والتي يتم جمعها، وتخزينها، ومعالجتها، آليا بشكل منظم على الحاسب الآلي؛ وفقا لطريقة استخدامها والعمل عليها، وهي تعد أحد أهم المصادر في مجال البحث في استرجاع المعلومات، والمعالجة الطبيعية للغة، وكذلك اللغويات الحاسوبية، وقد أصبح بناء الذخائر اللغوية أمرا شائعا ومألوفا في هذه المجالات منذ سنوات، كما أن أحجام الذخائر قد زادت بشكل كبير في الآونة الأخيرة؛ بسبب التطور الهائل في التكنولوجيا المستخدمة في بنائها. إن هذه الدراسة هي محاولة من قبل الباحث لبناء ذخيرة لغوية قياسية معاصرة للغة العربية. والذخيرة الناتجة، هي ذخيرة نصية مكتوبة مكونة مما يزيد على خمسة ملايين مقال وتحقيق صحفي، بإجمالي عدد كلمات يزيد على مليار ونصف المليار كلمة، منها حوالي أكثر من ثلاث ملايين كلمة فريدة لم تتكرر، وقد تم جمعها من المقالات الصحفية في عشرة مصادر من ثمان دول عربية، على مدار أربع عشرة سنة، وقد تم تشفير الذخيرة بنوعين من التشفير هما: الكود الموحد UTF-8، وكود ويندوز للغة العربية Windows cp-1256، كما تم توسيمها بلغة SGML ، ولغة XML. Language corpus (vocabulary) is a collection of texts written in a particular language, or in more than one language, that is collected, stored, and processed automatically on a computer; according to the way they are used and worked on them. It is one of the most important sources in the field of research in information retrieval, natural processing of language, as well as computational linguistics. The construction of language corpus has become common and common in these areas for years, and the volumes of the corpus have recently increased significantly, owing to the dramatic development of technology used to build them. This study is an attempt by the researcher to build a contemporary standard language repertoire for the Arabic language. The resulting corpus is a written text repertoire composed of more than five million articles and investigative journalism, with a total number of words of more than one and a half billion words, of which more than three million unique words have not been repeated. It has been collected from press articles in ten sources from eight Arab countries over the course of fourteen years. The corpus has been encrypted with two types of encryption: UTF-8 and Windows cp-1256, and is also labeled in SGML and XML. This abstract translated by Dar AlMandumah Inc. 2021 |
---|---|
ISSN: |
2090-0988 |