خوشه بندی دادههای شمارشی RNA -Seq ؛ مطالعه مقایسهای میان الگوریتم های k-means و روشهای مدل مبنا در شرایط پراکندگی بالا

سال انتشار: 1404
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 25

فایل این مقاله در 15 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

INDEXCONF06_011

تاریخ نمایه سازی: 19 مرداد 1404

چکیده مقاله:

با گسترش روشهای تعیین توالی نسل جدید (NGS) ، دادههای RNA -seq به یکی از منابع اصلی تحلیل بیان ژن تبدیل شدهاند. این داده ها به دلیل ماهیت گسسته، توزیع نابرابر و ساختار شمارشی، نیازمند روشهای تحلیل آماری خاص هستند. پژوهش حاضر با هدف مقایسه عملکرد الگوریتمهای خوشه بندی مبتنی بر مدلهای آماری، به ویژه توزیع پواسون و دوجملهای منفی، در بر ابر روش سنتی K-Means انجام شده است. پس از بررسی نظری الگوریتمها و مدل سازی آماری، دادههای شبیه سازیشده با ویژگی های مشابه داده های واقعی RNA -seq تولید شدند. الگوریتم های مورد مقایسه شامل روش MB-EM برای مدل های پواسون و دوجملهای منفی و الگوریتم K-Means بودند. ارزیابی عملکرد با استفاده از شاخصهایی مانند دقت خوشه بندی، شاخص Rand اصلاحشده (ARI) ، حساسیت زوجی، فاصله مراکز خوشهها (MCD) و پایداری عددی انجام گرفت. نتایج حاصل نشان داد که مدل دوجملهای منفی با الگوریتم MB-EM ، در شرایط دادههای با پراکندگی بالا، عملکرد بهتری نسبت به K-Means دارد. همچنین مشخص شد که حساسیت K-Means به مقداردهی اولیه مراکز، منجر به نتایج ناپایدارتر در دادههای پرنویز می شود. این یافته ها بر اهمیت بهکارگیری مدل های آماری سازگار با ماهیت داده های زیستی تاکید دارند و میتوانند مبنایی برای توسعه ابزارهای خوشه بندی دقیقتر در تحلیل بیان ژن باشند .

نویسندگان

عباس داوری زنگبار

دبیر، اداره آموزش و پرورش شهرستان بستانآباد