شناسایی ژن های عامل بیماری با بکارگیری جمعی از ماشین های یادگیر سریع

سال انتشار: 1397
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 547

نسخه کامل این مقاله ارائه نشده است و در دسترس نمی باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

NCMIMED02_096

تاریخ نمایه سازی: 1 دی 1397

چکیده مقاله:

مقدمه:شناسایی پایه های ژنتیکی یک بیماری، یک چالش عمده در ژنتیک انسانی است. از آنجا که نتایج بیماری از تغییر عملکرد طبیعی ژن ناشی می شود، شناسایی ژن عامل بیماری نیز به تعریف مسیر مولکولی که دچار اختالل عملکرد شده است نیاز دارد. تالش ها در مورد خواص ژن عامل بیماری در شبکه های مولکولی نشان میدهد که ژنهای مرتبط با بیماری های یکسانیا مشابه، تمایل به اقامت در همسایگی این شبکه ها دارند و به شکل ماژول های فیزیکی و یا کارکردی بروز پیدا می کنند. این یافته ها پایه و اساس توسعه روش های محاسباتی برای پیش بینی و اولویت بندی ژن عامل بیماری شده است. شناسایی ژن های عامل بیماری در ژنوم انسانی یک کار مهم اما چالشی در تحقیقات زیست پزشکی است. یکی از روش های محاسباتی در بیوانفورماتیک برای کشف ژن بیماری جدید استفاده از هوش مصنوعی و روش های یادگیری ماشین براساس ژن های شناخته شده است. روش های هوشمند موجود به طور معمول ژن های بیماری شناخته شده را به عنوان داده آموزشی مثبت و ژن های ناشناخته را به عنوان مجموعه آموزشی منفی در نظر می گیرند. در مساله شناسایی ژن های عامل بیماری بازه وسیعی از داده های بیولوژیکی همچون داده های میانکنش بین پروتیینی (PPI ) و آنتولوژی ژن (GO ) به کار رفته است. در این پژوهش سعی در بهبود دقت روش های جاری برای شناسایی ژن های عامل بیماری شده است که از جمله آنها استفاده از دسته بندی کننده های قوی همچون روش های جمعی است. در این پژوهش از یک مدل یادگیری مبتنی بر جمعی از ماشین های یادگیر سریع استفاده شده است. ماشین یادگیر سریع یک نوع شبکه عصبی با یک الیه مخفی است که به دلیل سرعت بالای آموزش وپیچیدگی محاسباتی کم، میتواند جهت دسته بندی داده های حجیم مانند ژن های عامل بیماری مورد استفاده قرار گیرد. در ین مدل، تعدادی ماشین یادگیر سریع آموزش داده میشوند و سپس با اعمال رای اکثریت روی نتایج ماشین ها، پاسخ نهایی مدل به دست می آید. روش بررسی: در این مقاله از داده های دامنه پروتیین، داده های میانکنش بین پروتیینی و آنتولوژی ژن استفاده شده است، یا به زبان دیگر هر ژن به صورت یک بردار ویژگی شامل موارد بالا می باشد. دامنه پروتیین، داده های تکاملی ماژول های اسید آمینه هستند که به عنوان تابعی از بلوک های سازنده برای ساخت آرایه وسیعی از پرروتیین ها عمل می کنند. بنابراین دامنه پروتیین واحدی ضروری برای مشارکت در فعالیت های رونویسی و دیگر تعامالت بین مولکولی می باشد. داده های میانکنش بین پروتیینی، با استفاده از فن آوری های جدید، استفاده از مقادیر زیادی از داده ها میانکنش بین پروتیینی، که نشان دهنده یک منبع با ارزشبرای اولویت بندی ژن نامزد است را امکان پذیر کرده است. علت باارزش بودن این داده ها این است که ژن های مربوط به یک فنوتیپ بیماری مشابه یا خاص، تمایل دارند که در یک همسایگی خاص در شبکه میانکنش بین پروتیینی واقع شوند. آنتولوژی ژن به مجموعه ای از لغات کنترلی گفته می شود که برای حاشیه نویسی ژن ها و محصولات آنها استفاده می شوند. آنتولوژی ژن شامل سه زیر مجموعه فرآیند بیولوژیکی (BP )عملکرد ملکولی (MF )و اجزای سلولی (CC ) می باشد. برای دسته بندی ژنها از یک مدل جمعی ماشین یادگیر سریع استفاده شده است که دقت دسته بندی را نسبت به روش های موجود بالاتر برده است. همان طور که پیش از این توضیح داده شد، داده ها به صورت بردار ویژگی جهت ارایه به دسته بندی کننده آماده شده اند. داده ها به دو دسته، کالس بیماری P و کالس غیربیماری N تقسیم شده اند. برای جلوگیری از انحراف در نمونه برداری، به طور تصادفی 10 زیر مجموعه از مجموعه N انتخاب شده و مدل دسته بندی کننده با اجرای 3 فولد اعتبارسنجی متقابل آموزش داده شده است. جهت ارزیابی مدل از معیارهای دقت، بازیابی و معیار F استفاده شده است. (جدول در متن اصلی مقاله) نتیجه گیری: براساس این مشاهده که ژن های مرتبط با فنوتیپ بیماری مشابه به احتمال زیاد ویژگی های بیولوژیکی مشابهی را به اشتراکمی گذارند، روش های یادگیری ماشین میتوانند برای پیش بینی ژن بیماری جدید از ژن بیماری تایید شده مورد استفاده قرار گیرند. استفاده از این روش ها در تشخیص ها، پیش آگهی و مشاوره مناسب در دوران بارداری و پس از تولد در خانواده های آسیب پذیر مفید بوده و ضمن کاهش هزینه های سیستم درمانی در برخی موارد حتی ممکن است منجر به توسعه استراتژی- های درمانی شود.

کلیدواژه ها:

شناسایی ژن های عامل بیماری ، مدل های جمعی ، ماشین یادگیر سریع ، آنتولوژی ژن ، شبکه میانکنش بین پروتیینی

نویسندگان

مسار سارا

دانشکده مهندسی برق و کامپیوتر، دانشگاه شیراز، شیراز، ایران

اقبال منصوری

دانشکده مهندسی برق و کامپیوتر، دانشگاه شیراز، شیراز، ایران