LEADER |
04794nam a22002537a 4500 |
001 |
1608229 |
024 |
|
|
|3 10.21608/sjrc.2017.82652
|
041 |
|
|
|a ara
|
044 |
|
|
|b مصر
|
100 |
|
|
|a أبو الخير، إبراهيم حسن
|g Abu El Khair, Ibrahim Hassan
|e مؤلف
|9 400622
|
242 |
|
|
|a Building a Contemporary Standard Linguistic Corpus for The Arabic Language for Information Retrieval Purposes
|
245 |
|
|
|a بناء ذخيرة لغوية قياسية معاصرة للغة العربية لأغراض استرجاع المعلومات
|
260 |
|
|
|b جامعة القاهرة - كلية الآداب - مركز بحوث نظم وخدمات المعلومات
|c 2017
|g مارس
|
300 |
|
|
|a 77 - 115
|
336 |
|
|
|a بحوث ومقالات
|b Article
|
520 |
|
|
|a الذخيرة اللغوية هي مجموعة من النصوص المكتوبة بلغة معينة، أو بأكثر من لغة، والتي يتم جمعها، وتخزينها، ومعالجتها، آليا بشكل منظم على الحاسب الآلي؛ وفقا لطريقة استخدامها والعمل عليها، وهي تعد أحد أهم المصادر في مجال البحث في استرجاع المعلومات، والمعالجة الطبيعية للغة، وكذلك اللغويات الحاسوبية، وقد أصبح بناء الذخائر اللغوية أمرا شائعا ومألوفا في هذه المجالات منذ سنوات، كما أن أحجام الذخائر قد زادت بشكل كبير في الآونة الأخيرة؛ بسبب التطور الهائل في التكنولوجيا المستخدمة في بنائها. إن هذه الدراسة هي محاولة من قبل الباحث لبناء ذخيرة لغوية قياسية معاصرة للغة العربية. والذخيرة الناتجة، هي ذخيرة نصية مكتوبة مكونة مما يزيد على خمسة ملايين مقال وتحقيق صحفي، بإجمالي عدد كلمات يزيد على مليار ونصف المليار كلمة، منها حوالي أكثر من ثلاث ملايين كلمة فريدة لم تتكرر، وقد تم جمعها من المقالات الصحفية في عشرة مصادر من ثمان دول عربية، على مدار أربع عشرة سنة، وقد تم تشفير الذخيرة بنوعين من التشفير هما: الكود الموحد UTF-8، وكود ويندوز للغة العربية Windows cp-1256، كما تم توسيمها بلغة SGML ، ولغة XML.
|
520 |
|
|
|f Language corpus (vocabulary) is a collection of texts written in a particular language, or in more than one language, that is collected, stored, and processed automatically on a computer; according to the way they are used and worked on them. It is one of the most important sources in the field of research in information retrieval, natural processing of language, as well as computational linguistics. The construction of language corpus has become common and common in these areas for years, and the volumes of the corpus have recently increased significantly, owing to the dramatic development of technology used to build them. This study is an attempt by the researcher to build a contemporary standard language repertoire for the Arabic language. The resulting corpus is a written text repertoire composed of more than five million articles and investigative journalism, with a total number of words of more than one and a half billion words, of which more than three million unique words have not been repeated. It has been collected from press articles in ten sources from eight Arab countries over the course of fourteen years. The corpus has been encrypted with two types of encryption: UTF-8 and Windows cp-1256, and is also labeled in SGML and XML.\nThis abstract translated by Dar AlMandumah Inc. 2021
|
653 |
|
|
|a اللغة العربية
|a الذخائر اللغوية
|a اللغويات الحاسوبية
|a استرجاع المعلومات
|
692 |
|
|
|a الذخائر اللغوية
|a استرجاع المعلومات
|a بناء الذخائر اللغوية
|a المعالجة الطبيعية للغة
|a اللغويات الحاسوبية
|b Corpus Corpora
|b Information Retrieval
|b Corpus Creation
|b Natural Language Processing
|b Computational Linguistics
|
773 |
|
|
|4 علوم المعلومات وعلوم المكتبات
|6 Information Science & Library Science
|c 002
|e Research in Library And information Science
|f Buḥūṯ fi ʿilm Al-Maktabāt wa Al-Maʿlūmāt
|l 018
|m ع18
|o 1508
|s مجلة بحوث في علم المكتبات والمعلومات
|v 000
|x 2090-0988
|
856 |
|
|
|n https://sjrc.journals.ekb.eg/article_82652.html
|u 1508-000-018-002.pdf
|
930 |
|
|
|d y
|p y
|q y
|
995 |
|
|
|a HumanIndex
|
999 |
|
|
|c 853065
|d 853065
|