ارسل ملاحظاتك

ارسل ملاحظاتك لنا







طريقة استرجاع بيانات محسنة على أباتشي سبارك من السجلات الصحية الإلكترونية

العنوان بلغة أخرى: Enhanced Parallel Information Retrieval Method over Apache Spark from Electronic Health Records
المؤلف الرئيسي: أبو سليمه، علي حسين (مؤلف)
مؤلفين آخرين: AL Shanableh, Najah Methqal Ali (Advisor)
التاريخ الميلادي: 2020
موقع: المفرق
الصفحات: 1 - 64
رقم MD: 1152349
نوع المحتوى: رسائل جامعية
اللغة: الإنجليزية
الدرجة العلمية: رسالة ماجستير
الجامعة: جامعة آل البيت
الكلية: كلية الأمير الحسين بن عبد الله لتكنولوجيا المعلومات
الدولة: الاردن
قواعد المعلومات: Dissertations
مواضيع:
رابط المحتوى:
صورة الغلاف QR قانون

عدد مرات التحميل

88

حفظ في:
المستخلص: يرتبط استرجاع المعلومات باستخراج موارد مهمة من مجموعات البيانات الكبيرة أو مخزن المعلومات. لقد أصبح موضوعا ذا أهمية خاصة خلال العقدين الماضيين بسبب الإمكانات الكبيرة المخفية فيه. تم اعتماد السجلات الصحية الإلكترونية (EHRs) في معظم المستشفيات والعيادات. توفر كمية البيانات الموجودة في هذه السجلات معلومات غنية حول الأمراض والمعلومات الطبية التاريخية التي يمكن استخدامها لفهم وعلاج العديد من الحالات الطبية بشكل أفضل. يعد البحث داخل هذه السجلات تحديا لتقنيات استرجاع المعلومات التقليدية، بسبب الهيكل غير القياسي واستخدام النص الحر في هذه السجلات. الدافع وراء هذا البحث هو حقيقة أن السجلات الصحية الإلكترونية تحتوي على العديد من المعلومات القيمة التي يمكن أن تكون مفيدة جدا في التشخيص الطبي والمجالات الأخرى ذات الصلة. في هذه الأطروحة قمنا بمراجعة الأدبيات لإيجاد تقنيات استرجاع المعلومات المناسبة للمجال الصحي. ناقش أيضا تقنيات البرمجة اللغوية العصبية التي أثبتت قدرتها على استخراج المعلومات القيمة في البيانات غير المنظمة من السجلات الصحية الإلكترونية. تعد LSI واحدة من أفضل تقنيات البرمجة اللغوية العصبية المستخدمة للبحث في النص الحر، نظرا لقدرتها على العثور على المصطلحات الدلالية ونتائج البحث الغنية من خلال العثور على العلاقات المخفية بين المصطلحات. يستخدم LSI نموذجا رياضيا يسمى SVD وهو غير قابل للتوسع لبيانات كمية كبيرة، نظرا لتعقيده واستنفاد الذاكرة، كما تمت مناقشة مراجعة التطبيق الأخير لـــ LSI. عالجت العديد من الأبحاث هذه المشكلة واقترحت حلولا تعتمد على توزيع البيانات على عدة أجهزة، ولكن بهذه الطريقة تؤثر على دقة النظام، لأن فصل البيانات سيفقد جزءا من علاقاته. في هذا البحث، نقوم بتحسين منهجية استرجاع المعلومات الموازية للسجلات الصحية الإلكترونية التي تقوم بتحليل ومعالجة البيانات غير المهيكلة من مجموعة بيانات طبية حقيقية مثل مجموعة بيانات EMRBOTs، وتستخدم Apache Spark لحل مشكلة LSI فيما يتعلق بحجم البيانات لأنها تستخدم محرك تحليلات سريع للغاية مما يجعلها مناسبة في أطر المعالجة المتوازية وفي منصات تحليل البيانات الكبيرة على نطاق واسع. تحتوي المعالجة المسبقة على حذف كلمات الإيقاف وتحديد قائمة المصطلحات المميزة، ثم يكون TDM جاهزا للبناء، وبعد ذلك سيتم استخدام الشرارة لتوزيع TDM بين جميع المعالجات في الكتلة، وسيتم تعيين TDM كصف مصفوفة بتنسيق RDD، وهي عبارة عن تجريد موزع للذاكرة لإجراء عمليات حسابية في الذاكرة على مجموعات كبيرة بطريقة تتسامح مع الأخطاء، ويمكن مشاركتها ورؤيتها بواسطة جميع المعالجات. إنه جزء مهم ومهم للغاية من Apache Spark. ثم يمكن لكل معالج تطبيق عملية SVD على جزء من RDD المشترك الذي يحتوي على وظيفة تصغير متعددة لجمع البيانات من جميع المعالجات. سيؤدي ذلك إلى زيادة دقة النظام، لأننا لا نفقد أي جزء من علاقات البيانات. تم اختيار العديد من مقاييس الأداء لتقييم التقنية المقترحة مثل الدقة والتذكر والقياس ومتوسط الدقة (MAP). كما تمت مقارنة التقنية المقترحة بتقنية LSI الموزعة التي اقترحها (القحطاني وآخرون، 2015 ب). كما أن النتائج المترتبة على العمل المقترح أفضل بكثير من LSI الموزع الذي اقترحه (القحطاني وآخرون، 2015 ب). أظهرت النتائج أن دقة للعمل المقترح أعلى من 98.5% لجميع الاستعلامات المختارة. أيضا، نتائج دقة R للعمل المقترح أفضل بكثير من LSI الموزع، نظرا لفقدان جزء لعلاقة البيانات أثناء حساب SVD.