بهبود کیفیت خوشه بندی صفحات وب به روش K-means با استفاده از کاهش ابعاد فضا و تفسیر جایگاه مکانی لغات

  • سال انتشار: 1396
  • محل انتشار: دومین همایش ملی ایده های نوین در مهندسی برق و کامپیوتر
  • کد COI اختصاصی: CONECE02_003
  • زبان مقاله: فارسی
  • تعداد مشاهده: 661
دانلود فایل این مقاله

نویسندگان

آرش پیک

گروه کامپیوتر دانشگاه بین المللی امام رضا ع مشهد

عادل قاضی خانی

عضو هییت علمی گروه کامپیوتر دانشگاه بین المللی امام رضا ع مشهد

چکیده

از آنجایی که صفحات وب و اسناد متنی موجود در وب معمولا به صورت خوشه بندی نشده و خام هستند جهت بازیابی اطلاعات بهبود نتایج موتور های جست و جو خلاصه سازی متون عملیات های خزشی وب و سایر حوزه ها اسناد موجود در وب را خوشه بندی میکنیم در این روش پیشنهادی ضمن شمارش تعداد هر لغت درون صفحه وب و تشکیل یک بردار به ازای هر صفحه وب جهت افزایش کیفیت خوشه بندی از جایگاه مکانی لغات درون صفحه وب کمک میگیریم بدین ترتیب ارزش هر کلمه در هر جایگاه مکانی از متن صفحه وب با ارزش کلمه ای دیگر در جایگاهی دیگر متفاوت است هم چنین جهت بهبود کیفیت و کاهش طمان خوشه بندی لغات اضافی متن را تشخیص و از روند خوشه بندی حذف میکنیم در ارزیابی روش پیشنهادی در مقایسه با روش k-means فازی با تابع آنتروپی افراز بهبود قابل توجهی را داشته ایم

کلیدواژه ها

خوشه بندی- صفحات وب- اسناد متنی-k-means- ارزش مکانی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.