انتخاب ویژگی نیمه نظارتی مبتنی بر خودرمزنگار گراف با حفظ ساختار محلی-گسترده

  • سال انتشار: 1404
  • محل انتشار: مجله پژوهش های نظری و کاربردی هوش ماشینی، دوره: 3، شماره: 1
  • کد COI اختصاصی: JR_ABMIR-3-1_010
  • زبان مقاله: فارسی
  • تعداد مشاهده: 26
دانلود فایل این مقاله

نویسندگان

محمدجواد رضایی

دانشجوی دکتری، دانشکده مهندسی کامپیوتر، دانشگاه یزد، یزد، ایران

مهدی آقا صرام

دانشیار، دانشکده مهندسی کامپیوتر، دانشگاه یزد، یزد، ایران

راضیه شیخ پور

دانشیار، گروه مهندسی کامپیوتر، دانشکده فنی و مهندسی، دانشگاه اردکان، اردکان، ایران

چکیده

پردازش داده های با ابعاد بالا چالش مهمی در حوزه های مختلف است و انتخاب ویژگی به عنوان روشی موثر برای کاهش ابعاد، نقش کلیدی در بهبود عملکرد مدل های یادگیری ماشین دارد. از آنجا که برچسب گذاری داده ها پرهزینه و زمان بر است، انتخاب ویژگی نیمه نظارتی که از داده های بدون برچسب نیز استفاده کند، اهمیت ویژه ای دارد. در این مقاله، یک روش انتخاب ویژگی نیمه نظارتی تنک مبتنی بر خودرمزنگار گراف ارائه می شود که دو نوآوری اصلی دارد: (۱) ترکیب خودرمزنگار برای حفظ ساختار کلی داده و گراف طیفی نیمه نظارتی برای حفظ ساختار محلی و اطلاعات برچسب (۲) اعمال منظم سازی نرم-L_(۲,۱)  برروی ماتریس وزن رمزگذار تا سطرهای غیرموثر به صفر میل کرده و ویژگی های نامرتبط به طور خودکار حذف شوند. بهینه سازی مسئله با الگوریتم گرادیان و پس انتشار انجام شده و مشتق منظم سازی در به روزرسانی پارامترها لحاظ می شود؛ بدین ترتیب انتخاب ویژگی به صورت درون مدلی و هم زمان با آموزش شبکه انجام می گیرد. روش پیشنهادی بر روی شش مجموعه داده استاندارد UCI شامل ORL، ATT، WBCD، WDBC، QSAR  و پارکینسون ارزیابی و با پنج روش مرجع مقایسه شد. معیار ارزیابی، دقت طبقه بندی با استفاده از ماشین بردار پشتیبان و k-نزدیک ترین همسایه بود. نتایج دو طبقه بند برروی شش مجموعه داده به ترتیب ۷۸/۰، ۸۸/۰، ۹۸/۰، ۹۷/۰، ۸۱/۰، ۹۱/۰ و ۷۵/۰، ۹۲/۰، ۹۷/۰، ۹۴/۰، ۸۲/۰، ۹۲/۰ نشان داد که روش پیشنهادی در اغلب موارد عملکرد برتری دارد. این یافته ها تایید می کنند که چارچوب پیشنهادی با بهره گیری همزمان از ساختار داده و منظم سازی تنک، قادر به انتخاب مجموعه ای کارآمد از ویژگی ها در شرایط نیمه نظارتی است.

کلیدواژه ها

انتخاب ویژگی نیمه نظارتی, خودرمزنگار, مدل های تنک, منظم سازی نرمL_(۲؛ ۱)

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.