مقایسه ماشین بردار پشتیبان و شبکه عصبی برای طبقهبندی پروتئینهای متصل شونده به لیپید

سال انتشار: 1391
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 516

نسخه کامل این مقاله ارائه نشده است و در دسترس نمی باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IBIS04_091

تاریخ نمایه سازی: 14 شهریور 1393

چکیده مقاله:

پروتئین ها دارای عملکردهای متفاوتی می باشند، بطوری که نشانه های مربوط به وظایف هر پروتئین در توالی اسید آمین های آن پروتئین وجود دارد. روشهای محاسباتی مختلفی به منظور تسهیل پیشبینی عملکرد پروتئین ها ارائه گردیده است که بر پایه شناسائی میزان شباهت بین توالیها و خوشه بندی میباشند. با این حال کاربرد این روشها در صورت نبود شباهت کافی بین توالیهای پروتئین های دارای عملکرد مشابه، مشکل خواهد بود. کارائی رو ش های ماشین یادگیری برای پیشبینی خصوصیات مختلف پروتئین ها اثبات گردیده است. ماشین بردار پشتیبان (SVM) و همچنین شبکه عصبی (NN) به عنوان دو روش ماشین یادگیری روش بسیار قدرتمند می باشند، که در این زمینه بسیار مورد استفاده قرار میگیرند. پروتئین های متصل شونده به لیپید (LBPs) نقشهای مهمی در سلولهای دارای عملکرد مختلف ایفا میکنند، با این وجود، علیرغم عملکرد مشابه این پروتئینها، شباهت بین توالیهای این پروتئین ها معمولاپائین میباشد. در این مطالعه دو روش SVM و NN با استفاده از خصوصیات فیزیک وشیمیائی و ترکیب اسید آمینه های توالیهای پروتئینی به منظور پیش-بینی و طبقه بندی LBPs با همدیگر مورد مقایسه قرار گرفتند. مجموعه داد ه های مورد استفاده در این مطالعه برای آموزش و امتحان مدل از سایتUniProt استخراج گردید. نرمافزار Rapid miner ( نسخه 5.0.001) به منظور آموزش و امتحان مجموعه داده های مورد بررسی با استفاده از دو روشSVM و NN مورد استفاده قرار گرفت. مجموعه داده های LBPs وپروتئین های غیر مرتبط باnon-LBPs) LBPs ) به ترتیب شامل 10603 و 185628 توالی پروتئینی بود، بطوری که مجموعه LBPs متعلق به 9 گروه شامل تجزیه لیپید، متابولیسم لیپید، تولید لیپید، انتقال لیپید، اتصال به لیپید، تولیدلیپوپلیساکارید، لیپوپروتئین، لیپویل و همه پروتئینهای متصل شونده به لیپید میباشد. در این تحقیق از روش طبقه بندی دوتائی برای همه گروهها استفاده گردید. هر کدام از گروه های LBPs شامل یک زیرمجموعه داده مثبت (گروه هایLBPs ) و یک زیرمجموعه داده منفی (non-LBPs) بود. شباهت بینتوالیهای پروتئینی در همه مجموعه دادهها کمتر از 90% تعیین گردید. پنج زیرمجموعه داده منفی به طور تصادفی از مجموعه داد ه هایnon-LBPs برای بررسی هر گروه به منظور اجتناب از اریب ناشی از انتخاب زیر مجموعه دادههای منفی در نظر گرفته شد. . نتایج پیشبینیها با استفاده از آزمو نهای تائید- متقاطع پنج تائی و مجموعه داده مستقل مورد ارزیابی قرار گرفت. بازده دو روش SVM و NN با توجه به میانگین صحت مربوط به این پنج مجموعه داده مورد ارزیابی قرار گرفتند. یافته ها نشان داد که نتایج حاصل شده از SVM صحت و کارائی بالاتری نسبت به روش NN دارد. میز ان صحت بدست آمده برپایه پایه آزمون تائید- متقاطع پنج تائی به منظور طبقه بندی LBPs نسبت به non-LBPs با استفاده از SVM 89.28% بود، بطوری که این مقدار برایروش NN 75.12، بدست آمد. بر اساس آزمون مجموعه داده مستقل صحت برابر با 89.55 و 74.88% به ترتیب برای روش های SVM و NN برآورد شد. میانگین صحت برای پیشبینی LBPs نسبت به non-LBPs و بر پایه پایه آزمون تائید- متقاطع پنج تائی 91.75 و 85.5% و همچنین بر پایه آزمون مجموعه داده مستقل 92.53 و 86.45% به ترتیب برای روشهای SVM و NN به دست آمد. نتایج مطالعه حاضر نشان داد ک ه SVM روشی مناسب برایروشهای طبقه بندی و پیشبینی در ژنومیکس عملکردی میباشد.

کلیدواژه ها:

SVM ، شبکه عصبی ، پروتئینهای متصل شونده به لیپید ، طبقهبندی

نویسندگان

محمد رضا بختیار زاده

گروه علوم دامی، دانشگاه تهران، گروه زراعت و اصلاح نباتات، دانشگاه شیراز

محمد مرادی شهر بابک

گروه علوم دامی، دانشگاه تهران، گروه زراعت و اصلاح نباتات، دانشگاه شیراز