مقایسه و ارزیابی روش های دسته بندی متون فارسی

  • سال انتشار: 1396
  • محل انتشار: سومین کنفرانس ملی رویکردهای نوین در مهندسی کامپیوتر و برق
  • کد COI اختصاصی: BPJ03_110
  • زبان مقاله: فارسی
  • تعداد مشاهده: 812
دانلود فایل این مقاله

نویسندگان

اصغر کریمی

عضو هیات علمی موسسه آموزش عالی جهاد دانشگاهی اصفهان، ایران

حمیدرضا صدرارحامی

دانشجوی دکتری مهندسی کامپیوتر دانشگاه آزاد اسلامی واحد نجف آباد، اصفهان، ایران

چکیده

امروزه با توجه به افزایش اسناد متنی در محیط های دیجیتال خصوصا در حوزه وب، نیاز به روش های کنترل و مدیریت اسناد بیش از پیش احساس می شود. یکی از کلیدی ترین روش های مدیرت بر متون دیجیتال، متن کاوی است. دسته بندی متون که از زیر شاخه های متن کاوی است می تواند در این مهم نقش شایانی ایفا کند.طبقه بندی و یا دسته بندی متون، وظیفه انتساب اسناد به یکی از دسته های از پیش تعین شده را بر عهده دارد. این موضوع در سال های اخیر توجه زیادی را به خود جلب کرده و روش ها و الگوریتم های زیادی در این باره ابداع شده است. در این مقاله با ذکر الگوریتم های موجود به شرح و بررسی روش های دسته بندی می پردازیم و در نهایت با تمرکز بر روی اسناد فارسی بر اساس پارامترهای استاندارد ارزیابی کاراترین روش را بر اساس تحقیقات انجام گرفته معرفی می کنیم .هدف از انجام این پژوهش معرفی بهترین روش های دسته بندی در متون فارسی است تا کمکی باشد به پژوهشگران این حوزه در انتخاب روش و الگوریتم دسته بندی خودکار متون فارسی.

کلیدواژه ها

داده کاوی، دسته بندی متون، متن کاوی، واژه های کلیدی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.