ارائه یک روش اندازه گیری شباهت داده ها جهت بهینه سازی الگوریتم k-means به منظور خوشه بندی متون

سال انتشار: 1396
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,876

متن کامل این مقاله منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل مقاله (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

NCIRES01_063

تاریخ نمایه سازی: 27 آذر 1398

چکیده مقاله:

در سال های اخیر با افزایش حجم اطلاعات و داده های متنی، مشکلات تازه ای برای کسانی که حوزه ی فعالیتشان درزمینه ی کار با داده بود به وجود آمد؛ بنابراین تحقیقات بسیاری درزمینه ی مدل کردن اطلاعات و استخراج دانش مفید از آن ها به عمل آمد. کاربران نیازمند ابزارهایی بودند تا با استفاده از آن ها به راحتی بتوانند اطلاعات مفید را از داده های موجود استخراج و استفاده کنند. خوشه بندی به عنوان یکی از مراحل پیش پردازش داده ها، یکی از فن های بسیار قدرتمند برای کشف گروه ها و وابستگی های طبیعی در یک مجموعه داده و همچنین شناخت الگوهای ساختاری و موضوعی موجود در آن، بدون داشتن هرگونه پیش زمینه ی شناختی در مورد ویژگی های داده ها می باشد. خوشه بندی اسناد متنی، به عنوان یکی از روش های یادگیری بدون ناظر، در زمینه های مختلف پردازش زبان های طبیعی از قبیل بازیابی اطلاعات، خلاصه سازی چندمتنی خودکار و سایر زمینه های مرتبط کاربرد گسترده ای دارد. اندازه گیری شباهت بین اسناد متنی مسئله ای مهم در خوشه بندی متون محسوب می شود. الگوریتم های خوشه بندی نیاز به یک متریک یا معیار برای اندازه گیری شباهت یا تعیین تفاوت دو سند تعریف شده دارند. این تفاوت ها اغلب با اندازه گیری مسافت داده ها از یکدیگر سنجیده می شوند. ازآنجایی که تشابه، رکن اصلی داده های موجود در یک خوشه هست، تعیین یک معیار تشابه در فضای ویژگی ها برای مجموعه داده های متنی که عموما حجم قابل توجهی دارند، امری ضروری برای فرآیندهای کلاسترینگ می باشد. در این پژوهش با بهره گیری از یک معیار دقیق جهت اندازه گیری شباهت بردارهای اسناد متنی (SMTP) و بهبود این معیار، خوشه بندی الگوریتم k-means برای اسناد متنی بهینه شده است. همچنین با بررسی مهم ترین معیارهای اندازه گیری شباهت از قبیل ضریب ژاکارد، فاصله ی اقلیدسی، فاصله ی منهتن و خوشه بندی بر اساس این معیارها، نتایج با روش پیشنهادی مقایسه شده است. بررسی آزمایش ها، بهتر شدن نتایج خوشه بندی k-means با معیار پیشنهادی را نشان می دهد.

نویسندگان

حبیبه کاظم زاده

دانش آموخته مقطع کارشناسی ارشد مهندسی کامپیوتر گرایش نرم افزار، موسسه آموزش عالی روزبهان