مدلهای داده کاوی و یادگیری ماشینی برای پیش بینی شباهت دارویی و بیماری یا دسته بندی آنها

  • سال انتشار: 1401
  • محل انتشار: هفتمین همایش بین المللی دانش و فناوری مهندسی برق، کامپیوتر و مکانیک ایران
  • کد COI اختصاصی: UTCONF07_078
  • زبان مقاله: فارسی
  • تعداد مشاهده: 372
دانلود فایل این مقاله

نویسندگان

محمدجواد حسین پور

عضو هیئت علمی و استادیار بخش مهندسی کامپیوتر،دانشگاه آزاد اسلامی واحد استهبان،استهبان،ایران

سعیده زردشت

دانشجوی کارشناسی ارشد مهندسی کامپیوتر، دانشگاه آزاد اسلامی واحد استهبان،استهبان،ایران

چکیده

رویکردهای داده کاوی می تواند الگوهای اساسی در فضای خواص شیمیایی و دارویی را که برای کشف و توسعه دارو تعیین کننده است ، کشف کند. دو مورد از رایج ترین رویکردها، روش های تجسم و یادگیری ماشینی است . روشهای تجسم از تکنیک های کاهش ابعاد استفاده می کنند تا داده های چند بعدی را با حداقل از دست دادن اطلاعات به نمایش های دو بعدی یا سه بعدی کاهش دهند. یادگیری ماشینی تلاش می کند تا با استفاده از مدلهای ریاضی تکراری، همبستگی بین فعالیت ها یا طبقه بندیهای خاص مجموعه ای از ترکیبات و ویژگی های آنها را بیابد. هر دو مدل از روابط متفاوت و عمیقی که می تواند بین ویژگی های ترکیبات وجود داشته باشد، بهره می برند و به کمک طبقه بندی ترکیبات بر اساس چنین ویژگی هایی می پردازند یا در صورت روشهای تجسم ، الگوهای زیربنایی را در فضای ویژگی کشف می کنند. شباهت دارو از دیدگاه های مختلفی مورد مطالعه قرار گرفته است ، اما در اینجا ما اولین پیاده سازی در شیمی انفورماتیک روش t-Distributed Stochastic Neighbor Embedding (t-SNE) را برای تجسم و نمایش فضای شیمیایی و استفاده از یادگیری ماشینی مختلف ارائه می کنیم . روش ها به صورت جداگانه و با هم یک روش یادگیری گروهی جدید به نام AL Boost را تشکیل می دهند. مدلهای به دست آمده از AL Boost به طور هم افزایی درخت تصمیم ، جنگل های تصادفی RF، ماشین بردار پشتیبان SVM، شبکه عصبی مصنوعی (ANN)، k نزدیک ترین همسایه ها kNNو مدلهای رگرسیون لجستیک را ترکیب می کنند. در این کار، ما نشان می دهیم که آنها با هم یک مدل پیش بینی را تشکیل می دهند که نه تنها نیروی پیش بینی را بهبود می بخشد بلکه سوگیری را نیز کاهش می دهد. این منجر به نرخ طبقه بندی تصحیح شده بیش از ۸۱,۰، و همچنین حساسیت و نرخ ویژگی بالاتر برای مدلها شد. علاوه بر این ، جداسازی و مدلهای خوبی نیز برای دسته بندیهای بیماری مانند ترکیبات ضد نئوپلاستیک و بیماریهای سیستم عصبی و سایر موارد به دست آمد. چنین مدلهایی را می توان برای هدایت تصمیم گیری در مورد چشم انداز ویژگی های ترکیبات و شباهت آنها به داروها یا سایر ویژگی ها، مانند دسته (های) بیماری خاص یا چندگانه یا اندام(های) عملکرد یک مولکول استفاده کرد.

کلیدواژه ها

یادگیری ماشینی ، دارو، داده کاوی، لجستیک ، ارگان، طراحی دارو، چند هدف

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.