انتخاب ویژگی در مجموعه داده های دستنویس با استفاده از الگوریتم تکاملی ژنتیک

سال انتشار: 1394
محل انتشار: دومین همایش ملی ریاضیات و کاربردهای آن در علوم مهندسی
کد COI اختصاصی: REGCMAES02_035
زبان مقاله: فارسی
تعداد مشاهده: 625

نویسندگان

دانشجو، ارشد مهندسی نرم افزار، دانشگاه آزاد اسلامی واحد سمنان

چکیده

مقاله ای که به پیاده سازی آن پرداخته شده است بدون اطلاعات اولیه خاص در مورد تعداد زیر مجموعه ویژگی ها عملیات انتخاب ویژگی صورت می پذیرد و برای جستجو و انتخاب ویژگی از الگوریتم ژنتیک باینری بهره برده شده است و تابع هزینه نیز تابعی است بر اساس معیار LDA یا Linear Discriminant Analysis یا معیار آنالیز جدایی کننده خطی بدست آمده است. رابطه Ida با استفاده از این مفهوم که میانگین فاصله های داده های بین کلاسی یا ∑ باید ماکزیمم شود و میانگین داده های درون کلاسی ∑ باید مینیمم شود، عملیات رتبه دهی به ویژگی ها را انجام می دهد. رابطه زیر قسمتی از رابطه Ida هست که در تابع ارزیابی ژنتیک از آن استفاده شده است. انتخاب ویژگی در مجموعه داده هایی که ابعاد بزرگی دارند همواره جز چالشهایی بوده که افراد در حوزه یادگیری ماشین و شناسایی الگو همواره بدنبال روش هایی بودند که عملیات کاهش ابعاد را در این مجموعه داده ها اعمال کنند. چرا که طبق اصل نفرین ابعاد اگر در یک مجموعه داده ای تعداد ویژگیها افزایش ابعاد را در این مجموعه داده ها اعمال کنند. چرا که طبق اصل نفرین ابعاد اگر در یک مجموعه داده ای تعداد ویژگیها افزایش یابد نه تنها صحت دقت سیستم کمتر خواهد شد بلکه پیچیدگی و مدلسازی سیستم نیز افزایش خواهد یافت. لذا با حذف ویژگی هایی که اطلاعات خاصی در مورد هدف به ما نمیدهند و همچنین حذف ویژگی هایی که با یکدیگر تقریباً مشابهند می توان راه کاری را پیشنهاد داد که عملیات کاهش ابعاد با موفقیت و حتی با افزایش صحت دقت دسته بند صورت گیرد. در مجموعه داده های با ابعاد بالا عملیات انتخاب ویژگی یک مساله complete-np ( مساله ای که هیچ گونه جواب مشخص چند جمله ای برای حل آن وجود ندارد) به حساب می آید و اگر بخواهیم به صورت کلی تمام ویژگی ها را مورد بررسی قرار دهیم N2 پاسخ را باید مورد ارزیابی قرار دهیم که از لحاظ پیاده سازی برای مجموعه داده های با ابعاد بالا این کار غیر ممکن می باشد.

کلیدواژه ها

الگوریتم ژنتیک، دادهای دستنویس، مجموعه دادها، تابع ارزیابی ژنتیک

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.