خوشه بندی دادههای شمارشی RNA -Seq ؛ مطالعه مقایسهای میان الگوریتم های k-means و روشهای مدل مبنا در شرایط پراکندگی بالا
محل انتشار: ششمین همایش بین المللی دستاوردهای نوین در فناوری اطلاعات، علوم کامپیوتر، امنیت، شبکه و هوش مصنوعی
سال انتشار: 1404
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 25
فایل این مقاله در 15 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
INDEXCONF06_011
تاریخ نمایه سازی: 19 مرداد 1404
چکیده مقاله:
با گسترش روشهای تعیین توالی نسل جدید (NGS) ، دادههای RNA -seq به یکی از منابع اصلی تحلیل بیان ژن تبدیل شدهاند. این داده ها به دلیل ماهیت گسسته، توزیع نابرابر و ساختار شمارشی، نیازمند روشهای تحلیل آماری خاص هستند. پژوهش حاضر با هدف مقایسه عملکرد الگوریتمهای خوشه بندی مبتنی بر مدلهای آماری، به ویژه توزیع پواسون و دوجملهای منفی، در بر ابر روش سنتی K-Means انجام شده است. پس از بررسی نظری الگوریتمها و مدل سازی آماری، دادههای شبیه سازیشده با ویژگی های مشابه داده های واقعی RNA -seq تولید شدند. الگوریتم های مورد مقایسه شامل روش MB-EM برای مدل های پواسون و دوجملهای منفی و الگوریتم K-Means بودند. ارزیابی عملکرد با استفاده از شاخصهایی مانند دقت خوشه بندی، شاخص Rand اصلاحشده (ARI) ، حساسیت زوجی، فاصله مراکز خوشهها (MCD) و پایداری عددی انجام گرفت. نتایج حاصل نشان داد که مدل دوجملهای منفی با الگوریتم MB-EM ، در شرایط دادههای با پراکندگی بالا، عملکرد بهتری نسبت به K-Means دارد. همچنین مشخص شد که حساسیت K-Means به مقداردهی اولیه مراکز، منجر به نتایج ناپایدارتر در دادههای پرنویز می شود. این یافته ها بر اهمیت بهکارگیری مدل های آماری سازگار با ماهیت داده های زیستی تاکید دارند و میتوانند مبنایی برای توسعه ابزارهای خوشه بندی دقیقتر در تحلیل بیان ژن باشند .
کلیدواژه ها:
نویسندگان
عباس داوری زنگبار
دبیر، اداره آموزش و پرورش شهرستان بستانآباد