آپاچی اسپارک و افزایش سرعت طبقه بندی در مقالات پزشکی

سال انتشار: 1401
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 282

فایل این مقاله در 14 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CECCONF16_019

تاریخ نمایه سازی: 19 شهریور 1401

چکیده مقاله:

روزانه مقالات جدیدی در حوزه پزشکی منتشر میشوند. که حاوی اطلاعات غنی هستند و ما با استفاده از روش ها متن کاوی و طبقه بندی سریع و دقیق در مقیاس حجیم به دنبال درک بهتر بیماری ها، تشخیص، پیشگیری و درمان آنها هستیم. برای این کار نیاز هست از اکوسیستم های پردازش کلان داده ها استفاده کنیم که چارچوب مورد نظر ما در اینجا SparkText نامیده میشود که از کتابخانه های آپاچی اسپارک ، روش های پردازش زبان طبیعی و الگوریتم های یادگیری ماشین استفاده میشود تا نتیجه بهتری از نظر زمان در مقایسه با روش های سنتی رقم بخورد.در روش پیشنهادی بررسی های انجام شده بر روی مقالات مرکز PubMed میباشد. در این بررسی از مدل های یادگیری ماشین مانند ماشین بردار پشتیبان ، رگرسیون منطقی و الگوریتم بیزین برای طبقه بندی کردن متون جهت به دست آوردن اطلاعاتی از نوع سرطان پستان، سرطان پروستات و سرطان ریه استفاده شده است. دقت پیش بینی نوع سرطان با الگوریتم رگرسیون منطقی که بر روی ۴۳۷.۲۹ مقاله مورد ارزیابی قرار گرفت، برابر ۷۶.۸۹ درصد بوده که نسبت با سایر الگوریتم ها عملکرد بهتری داشته. همچنین در مقایسه زمان اجرا در روش غیر اسپارک، این کار که در زمانی بیش از ۲۲۰دقیقه انجام شده است، در صورتی که همین مراحل با استفاده از اسپارک بر روی کلاستری با ۵۶ هسته پردازشی در مدتی حدود ۱ دقیقه انجام شده است.

کلیدواژه ها:

نویسندگان

سعید ناصری

کارشناس ارشد دانشگاه آزاد اسلامی واحد بندرعباس

عباس عکاسی

استاد یار و عضو هیئت علمی دانشگاه آزاد بندرعباس

امین نظارات

استاد یار و عضو هیئت علمی دانشگاه پیام نور مرکز یزد