ارائه یک الگوریتم موثر و تطبیقپذیر برای خوشهبندی متون فارسی مبتنی بر الگوریتم بهینه سازی فاخته
- سال انتشار: 1394
- محل انتشار: دومین همایش ملی مهندسی رایانه و مدیریت فناوری اطلاعات
- کد COI اختصاصی: CSITM02_262
- زبان مقاله: فارسی
- تعداد مشاهده: 682
نویسندگان
گروه کامپیوتر، واحد اراک، دانشگاه آزاد اسلامی اراک، ایران
چکیده
خوشهبندی متون یکی از تکنولوژیهای اصلی متنکاوی و بازیابی اطلاعات است. ایده اصلی خوشهبندی اطلاعات، جداکردن نمونهها از یکدیگر و قراردادن آنها در گروههای شبیه به هم میباشد. عملکرد الگوریتمهای خوشهبندی سنتی ممکن است به دلیل ابعاد بالا و یا حجم کم دادههای متنی رضایتبخش نباشد. همچنین یکی از بزرگترین مشکلات الگوریتمهای سنتی پرکاربرد مانندKmeans حساسیت بالا به نقاط اولیه است. این مقاله یک روش جدید برای خوشهبندی متون بر اساس آمارهای پیکره متنی و الگوریتم بهینه سازی فاخته ارائه میدهد. در این روش نقاط اولیه نه تنها از طریق یادگیریهای آماری ماتریس تشابه اسنادی که به یک مجموعه تقسیمشده است, بلکه از طریق اسنادی که هنوز تقسیمبندی نشدهاند نیز انتخاب میشوند. با این روش میتوان میزان حساسیت الگوریتم خوشهبندی نسبت به مجموعه نقاط اولیه را کاهش داد. برخی از مقادیر آستانهی مورد استفاده در الگوریتم از آمار خودکار و بصورت پویا بدست آمده است. این مقاله همچنین از الگوریتم بهینهسازی فاخته جهت یافتن بهترین مقادیر آستانه استفاده کرده است. نتایج تجربی بدست آمده بر روی چندین مجموعه داده نشان میدهد که الگوریتم پیشنهادی قادر به ارتقاء کیفیت خوشهبندی متون در مقایسه با الگوریتمهای خوشهبندی سنتی میباشد. همچنین این الگوریتم در مجموعه دادههای مختلف پایدارتر میباشد.کلیدواژه ها
خوشهبندی، دادهکاوی، مشابهت، الگوریتم بهینه سازی فاختهمقالات مرتبط جدید
- کارآفرینی در کتابخانه های عمومی با راه اندازی خدمات مشاوره اطلاعاتی و مشاوره خوانندگان
- متاورس: مباحثی از فرصت های حرفه ای و مشاغل در گستره فناوری نوین
- بررسی معماری و بلوغ کسب و کار رایانش ابری بر مبنای مدیریت امنیت اطلاعات در علم اطلاع شناسی (مطالعه موردی شرکت های دانش بنیان پارک فناوری ارتباطات و اطلاعات)(چارچوب همکاری های بین رشته ای و فرا رشته ای برای کارآفرینی دانش بنیان)
- ایجاد سازمان نظام مدیریت اطلاعات و دانش (نماد)
- لزوم توجه به فرصت های جدید بازارکار در محتوای درسی رشته علم اطلاعات و دانش شناسی
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.