بناء ذخيرة لغوية قياسية معاصرة للغة العربية لأغراض استرجاع المعلومات

أبو الخير، إبراهيم حسن

بناء ذخيرة لغوية قياسية معاصرة للغة العربية لأغراض استرجاع المعلومات

العنوان المترجم:	Building a Contemporary Standard Linguistic Corpus for The Arabic Language for Information Retrieval Purposes
المصدر:	مجلة بحوث في علم المكتبات والمعلومات
الناشر:	جامعة القاهرة - كلية الآداب - مركز بحوث نظم وخدمات المعلومات
المؤلف الرئيسي:	أبو الخير، إبراهيم حسن (مؤلف)
المؤلف الرئيسي (الإنجليزية):	Abu El-Khair, Ibrahim Hassan
المجلد/العدد:	ع18
محكمة:	نعم
الدولة:	مصر
التاريخ الميلادي:	2017
الشهر:	مارس
الصفحات:	77 - 115
DOI:	10.21608/sjrc.2017.82652
ISSN:	2090-0988
رقم MD:	853065
نوع المحتوى:	بحوث ومقالات
اللغة:	العربية
قواعد المعلومات:	HumanIndex
مواضيع:	اللغة العربية \| الذخائر اللغوية \| اللغويات الحاسوبية \| استرجاع المعلومات
كلمات المؤلف المفتاحية:	الذخائر اللغوية \| استرجاع المعلومات \| بناء الذخائر اللغوية \| المعالجة الطبيعية للغة \| اللغويات الحاسوبية \| Corpus Corpora \| Information Retrieval \| Corpus Creation \| Natural Language Processing \| Computational Linguistics
رابط المحتوى:	PDF (صورة) PDF (نص) HTML

عدد مرات التحميل

133

المستخلص:

الذخيرة اللغوية هي مجموعة من النصوص المكتوبة بلغة معينة، أو بأكثر من لغة، والتي يتم جمعها، وتخزينها، ومعالجتها، آليا بشكل منظم على الحاسب الآلي؛ وفقا لطريقة استخدامها والعمل عليها، وهي تعد أحد أهم المصادر في مجال البحث في استرجاع المعلومات، والمعالجة الطبيعية للغة، وكذلك اللغويات الحاسوبية، وقد أصبح بناء الذخائر اللغوية أمرا شائعا ومألوفا في هذه المجالات منذ سنوات، كما أن أحجام الذخائر قد زادت بشكل كبير في الآونة الأخيرة؛ بسبب التطور الهائل في التكنولوجيا المستخدمة في بنائها. إن هذه الدراسة هي محاولة من قبل الباحث لبناء ذخيرة لغوية قياسية معاصرة للغة العربية. والذخيرة الناتجة، هي ذخيرة نصية مكتوبة مكونة مما يزيد على خمسة ملايين مقال وتحقيق صحفي، بإجمالي عدد كلمات يزيد على مليار ونصف المليار كلمة، منها حوالي أكثر من ثلاث ملايين كلمة فريدة لم تتكرر، وقد تم جمعها من المقالات الصحفية في عشرة مصادر من ثمان دول عربية، على مدار أربع عشرة سنة، وقد تم تشفير الذخيرة بنوعين من التشفير هما: الكود الموحد UTF-8، وكود ويندوز للغة العربية Windows cp-1256، كما تم توسيمها بلغة SGML ، ولغة XML.

Language corpus (vocabulary) is a collection of texts written in a particular language, or in more than one language, that is collected, stored, and processed automatically on a computer; according to the way they are used and worked on them. It is one of the most important sources in the field of research in information retrieval, natural processing of language, as well as computational linguistics. The construction of language corpus has become common and common in these areas for years, and the volumes of the corpus have recently increased significantly, owing to the dramatic development of technology used to build them. This study is an attempt by the researcher to build a contemporary standard language repertoire for the Arabic language. The resulting corpus is a written text repertoire composed of more than five million articles and investigative journalism, with a total number of words of more than one and a half billion words, of which more than three million unique words have not been repeated. It has been collected from press articles in ten sources from eight Arab countries over the course of fourteen years. The corpus has been encrypted with two types of encryption: UTF-8 and Windows cp-1256, and is also labeled in SGML and XML.
This abstract translated by Dar AlMandumah Inc. 2021

ISSN:

2090-0988

عناصر مشابهة

تصميم نظام لتحليل المزاج العام للغة العربية الفصحى باستخدام معجم حاسوبي
بواسطة: الناجم، صلاح راشد منشور: (2022)
بناء مكنز آلي لتعزيز نظام استرجاع المعلومات للغة العربية
بواسطة: الوديان، محمد عمر محمد منشور: (2005)
نظم استرجاع المعلومات العربية واتجاهات البحوث المعاصرة
بواسطة: دبور، عبدالرحمن بن غالب منشور: (2015)
تقنيات المعالجة الآلية للغة وتطورها
بواسطة: فرج، محمد رأفت محمود منشور: (2022)
Transliteration Normalization For Information Extraction And Machine Translation
بواسطة: Marton, Yuval منشور: (2014)

بناء ذخيرة لغوية قياسية معاصرة للغة العربية لأغراض استرجاع المعلومات

عدد مرات التحميل

133

عناصر مشابهة

دليل المستخدم

دليل الفيديو