بهبود خوشه بندی و رتبه بندی صفحات متنی اخبار در گروه های خبری

  • سال انتشار: 1389
  • محل انتشار: اولین کنفرانس ملی محاسبات نرم و فن آوری اطلاعات
  • کد COI اختصاصی: NCSCIT01_052
  • زبان مقاله: فارسی
  • تعداد مشاهده: 1401
دانلود فایل این مقاله

نویسندگان

عبدالکریم الهی

گروه کامپیوتر - دانشگاه آزاد اسلامی واحد بهشهر

چکیده

در حال حاضر سایتهای خبری زیادی در حال فعالیت می باشند و اطلاعات خود را در وب سایت هایی به صورت اسناد الکترونیکی یا صفحات متنی در اختیار کاربران قرار می دهند بر همین اساس تکنولوزیها , ابزارها و موتورهای جستجوی خاصی برای این منظور بکارگیری شدند. خوشه بندی یکی از تکنیکهای بسیار قدرتمند داده کاوی برای کشف موضوع در صفحات متنی می باشد. در ابتدا خوشه بندی در سیستم های بازیابی اطلاعات و برای افزایش یادآوری و دقت بکار می رفت بعدها برای جستجوی مجموعه ای از سندها بطور اتوماتیک بکار گیری شد.یکی از بهترین روشهای خوشه بندی اسناد , روش bi_secting K_means می باشد و معمولاٌ تابع کسینوسی برای اندازه گیری مشابهت بین دو سند در تابع معیار استفاده می شود اما وقتی خوشه ها به خوبی از هم جدا نباشد این تابع به خوبی کار نخواهد کرد. برای حل این مشکل یک اندازه گیری مشابهت از مفاهیم هماسیه ها و ارتباط ها (links) استفاده می شود و به جای اینکه تنها شباهت جفتی در نظر گرفته شود بوسیله هماسیه ها و ارتباط ها ، اطلاعات عمومی اندازه گیری نزدیکی دو سند در نظر گرفته می شود و با وزن دهی دقیق تر می توانیم بهبود قابل ملاحظه ای در کارایی خوشه بندی اسناد الکترونیکی ایجاد کنیم.

کلیدواژه ها

خوشه بندی , رتبه بندی , صفحات متنی اخبار , همسایه ها , وزن دهی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.