خوشه بندی اسناد وب فارسی با استفاده از ترکیب روشهای داده کاوی و یک الگوریتم تکاملی

  • سال انتشار: 1398
  • محل انتشار: ششمین کنفرانس بین المللی یافته های نوین علوم و تکنولوژی با محوریت علم در خدمت توسعه
  • کد COI اختصاصی: DSCONF06_139
  • زبان مقاله: فارسی
  • تعداد مشاهده: 842
دانلود فایل این مقاله

نویسندگان

پریسا چابکی بناب

دانشجوی مقطع کارشناسی ارشد رشته ی نرم افزار، واحد بناب، دانشگاه آزاد اسلامی، بناب،ایران

علی رضا حاجی اسکندر

عضو هیئت علمی گروه کامپیوتر، واحد بناب، دانشگاه آزاد اسلامی، بناب، ایران

سیدعلی شریفی

عضو هیئت علمی گروه کامپیوتر، واحد بناب، دانشگاه آزاد اسلامی، بناب، ایران

چکیده

افزایش حجم اطلاعات روی وب و جستجو در بین هزاران صفحه وب باعث سردرگمی میشود. به منظور دستیابی سریع به اطلاعات مورد نیاز در وب، لازم است روشی خودکار برای خوشه بندی صفحات وب ارائه شود. در مساله خوشه بندی صفحات وب، هدف دسترسی سریع و دقیق به اطلاعات وب میباشد. تحقیقاتی که در گذشته انجام گرفته هر یک با روشهای متفاوت سعی در بهبود نتایج خوشه بندی اسناد وب داشته اند. این تحقیقات بیشتر بر روی اسناد وب انگلیسی بوده است؛ در این مقاله خوشه بندی بر روی صفحات وب فارسی اعمال شده است. در این مقاله، خوشه بندی با استفاده از 100 صفحه وب در 5 حوزه ورزشی، خبری، پزشکی، آموزشی و دانشگاهی انجام شده است. وبسایت هایی با موضوع های مشابه به هم، در یک خوشه قرار میگیرند تا نتیجه جستجو بین هزاران وب موجود، دقیق و سریع باشد. این کار با استفاده از ترکیب الگوریتم بهینه سازی ازدحام ذرات و K-Means انجام گرفته است. نتایج به دست آمده حاکی از آن است که روش پیشنهادی تمامی گروه ها را با دقت بالای %80 و دو گروه ورزشی و خبری را با دقت %95 خوشه بندی میکند.

کلیدواژه ها

خوشه بندی، الگوریتم بهینه سازی ازدحام ذرات، الگوریتم تکاملی، تگ های HTML، الگوریتم K-Means

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.