ارائه یک الگوریتم موثر و تطبیقپذیر برای خوشهبندی متون فارسی مبتنی بر الگوریتم بهینه سازی فاخته

سال انتشار: 1394
محل انتشار: دومین همایش ملی مهندسی رایانه و مدیریت فناوری اطلاعات
کد COI اختصاصی: CSITM02_262
زبان مقاله: فارسی
تعداد مشاهده: 691

نویسندگان

گروه کامپیوتر، واحد اراک، دانشگاه آزاد اسلامی اراک، ایران

چکیده

خوشهبندی متون یکی از تکنولوژیهای اصلی متنکاوی و بازیابی اطلاعات است. ایده اصلی خوشهبندی اطلاعات، جداکردن نمونهها از یکدیگر و قراردادن آنها در گروههای شبیه به هم میباشد. عملکرد الگوریتمهای خوشهبندی سنتی ممکن است به دلیل ابعاد بالا و یا حجم کم دادههای متنی رضایتبخش نباشد. همچنین یکی از بزرگترین مشکلات الگوریتمهای سنتی پرکاربرد مانندKmeans حساسیت بالا به نقاط اولیه است. این مقاله یک روش جدید برای خوشهبندی متون بر اساس آمارهای پیکره متنی و الگوریتم بهینه سازی فاخته ارائه میدهد. در این روش نقاط اولیه نه تنها از طریق یادگیریهای آماری ماتریس تشابه اسنادی که به یک مجموعه تقسیمشده است, بلکه از طریق اسنادی که هنوز تقسیمبندی نشدهاند نیز انتخاب میشوند. با این روش میتوان میزان حساسیت الگوریتم خوشهبندی نسبت به مجموعه نقاط اولیه را کاهش داد. برخی از مقادیر آستانهی مورد استفاده در الگوریتم از آمار خودکار و بصورت پویا بدست آمده است. این مقاله همچنین از الگوریتم بهینهسازی فاخته جهت یافتن بهترین مقادیر آستانه استفاده کرده است. نتایج تجربی بدست آمده بر روی چندین مجموعه داده نشان میدهد که الگوریتم پیشنهادی قادر به ارتقاء کیفیت خوشهبندی متون در مقایسه با الگوریتمهای خوشهبندی سنتی میباشد. همچنین این الگوریتم در مجموعه دادههای مختلف پایدارتر میباشد.

کلیدواژه ها

خوشهبندی، دادهکاوی، مشابهت، الگوریتم بهینه سازی فاخته

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.