مقایسه ماشین بردار پشتیبان و شبکه عصبی برای طبقهبندی پروتئینهای متصل شونده به لیپید

  • سال انتشار: 1391
  • محل انتشار: چهارمین همایش بیوانفورماتیک ایران
  • کد COI اختصاصی: IBIS04_091
  • زبان مقاله: فارسی
  • تعداد مشاهده: 647
دانلود فایل این مقاله

نویسندگان

محمد رضا بختیار زاده

گروه علوم دامی، دانشگاه تهران، گروه زراعت و اصلاح نباتات، دانشگاه شیراز

محمد مرادی شهر بابک

گروه علوم دامی، دانشگاه تهران، گروه زراعت و اصلاح نباتات، دانشگاه شیراز

اسماعیل ابراهیمی

چکیده

پروتئین ها دارای عملکردهای متفاوتی می باشند، بطوری که نشانه های مربوط به وظایف هر پروتئین در توالی اسید آمین های آن پروتئین وجود دارد. روشهای محاسباتی مختلفی به منظور تسهیل پیشبینی عملکرد پروتئین ها ارائه گردیده است که بر پایه شناسائی میزان شباهت بین توالیها و خوشه بندی میباشند. با این حال کاربرد این روشها در صورت نبود شباهت کافی بین توالیهای پروتئین های دارای عملکرد مشابه، مشکل خواهد بود. کارائی رو ش های ماشین یادگیری برای پیشبینی خصوصیات مختلف پروتئین ها اثبات گردیده است. ماشین بردار پشتیبان (SVM) و همچنین شبکه عصبی (NN) به عنوان دو روش ماشین یادگیری روش بسیار قدرتمند می باشند، که در این زمینه بسیار مورد استفاده قرار میگیرند. پروتئین های متصل شونده به لیپید (LBPs) نقشهای مهمی در سلولهای دارای عملکرد مختلف ایفا میکنند، با این وجود، علیرغم عملکرد مشابه این پروتئینها، شباهت بین توالیهای این پروتئین ها معمولاپائین میباشد. در این مطالعه دو روش SVM و NN با استفاده از خصوصیات فیزیک وشیمیائی و ترکیب اسید آمینه های توالیهای پروتئینی به منظور پیش-بینی و طبقه بندی LBPs با همدیگر مورد مقایسه قرار گرفتند. مجموعه داد ه های مورد استفاده در این مطالعه برای آموزش و امتحان مدل از سایتUniProt استخراج گردید. نرمافزار Rapid miner ( نسخه 5.0.001) به منظور آموزش و امتحان مجموعه داده های مورد بررسی با استفاده از دو روشSVM و NN مورد استفاده قرار گرفت. مجموعه داده های LBPs وپروتئین های غیر مرتبط باnon-LBPs) LBPs ) به ترتیب شامل 10603 و 185628 توالی پروتئینی بود، بطوری که مجموعه LBPs متعلق به 9 گروه شامل تجزیه لیپید، متابولیسم لیپید، تولید لیپید، انتقال لیپید، اتصال به لیپید، تولیدلیپوپلیساکارید، لیپوپروتئین، لیپویل و همه پروتئینهای متصل شونده به لیپید میباشد. در این تحقیق از روش طبقه بندی دوتائی برای همه گروهها استفاده گردید. هر کدام از گروه های LBPs شامل یک زیرمجموعه داده مثبت (گروه هایLBPs ) و یک زیرمجموعه داده منفی (non-LBPs) بود. شباهت بینتوالیهای پروتئینی در همه مجموعه دادهها کمتر از 90% تعیین گردید. پنج زیرمجموعه داده منفی به طور تصادفی از مجموعه داد ه هایnon-LBPs برای بررسی هر گروه به منظور اجتناب از اریب ناشی از انتخاب زیر مجموعه دادههای منفی در نظر گرفته شد. . نتایج پیشبینیها با استفاده از آزمو نهای تائید- متقاطع پنج تائی و مجموعه داده مستقل مورد ارزیابی قرار گرفت. بازده دو روش SVM و NN با توجه به میانگین صحت مربوط به این پنج مجموعه داده مورد ارزیابی قرار گرفتند. یافته ها نشان داد که نتایج حاصل شده از SVM صحت و کارائی بالاتری نسبت به روش NN دارد. میز ان صحت بدست آمده برپایه پایه آزمون تائید- متقاطع پنج تائی به منظور طبقه بندی LBPs نسبت به non-LBPs با استفاده از SVM 89.28% بود، بطوری که این مقدار برایروش NN 75.12، بدست آمد. بر اساس آزمون مجموعه داده مستقل صحت برابر با 89.55 و 74.88% به ترتیب برای روش های SVM و NN برآورد شد. میانگین صحت برای پیشبینی LBPs نسبت به non-LBPs و بر پایه پایه آزمون تائید- متقاطع پنج تائی 91.75 و 85.5% و همچنین بر پایه آزمون مجموعه داده مستقل 92.53 و 86.45% به ترتیب برای روشهای SVM و NN به دست آمد. نتایج مطالعه حاضر نشان داد ک ه SVM روشی مناسب برایروشهای طبقه بندی و پیشبینی در ژنومیکس عملکردی میباشد.

کلیدواژه ها

SVM، شبکه عصبی، پروتئینهای متصل شونده به لیپید، طبقهبندی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.