طبقه بندی متون فارسی با استفاده از ماشین بردار پشتیبان و فازی

  • سال انتشار: 1396
  • محل انتشار: دومین کنفرانس بین المللی پژوهش های دانش بنیان در مهندسی کامپیوتر و فناوری اطلاعات
  • کد COI اختصاصی: CITCOMP02_171
  • زبان مقاله: فارسی
  • تعداد مشاهده: 712
دانلود فایل این مقاله

نویسندگان

فرشاد حسن عمویی

گروه کامپیوتر، دانشکده فنی و مهندسی، واحد شبستر، دانشگاه آزاد اسلامی، شبستر، ایران

شاهین اکبرپور

استادیار گروه کامپیوتر، دانشکده فنی و مهندسی، واحد شبستر، دانشگاه آزاد اسلامی، شبستر، ایران

چکیده

با رشد سریع و روز افزون اطلاعات، طبقه بندی مستندات یکی از ابزارهای کلیدی برای سازماندهی و مدیریت داده های متنی به شمار می آید که در کاربردهایی مانند تقسیم بندی اخبار، نامه های الکترونیکی و اطلاعات آنلاین مورد استفاده قرار می گیرد. در واقع طبقه بندی متون، انتساب یک سند نامشخص به کلاس های از پیش تعریف شده ی اسناد است و هر سند می تواند به یک یا چند کلاس تعلق داشته باشد. با وجود کارهای خوب صورت گرفته در زمینه متون فارسی، هنوز برخی از چالش ها به صورت حل نشده باقی مانده اند. از جمله چالش های اساسی در حوزه طبقه بندی متون فارسی، نبود روش استخراج ویژگی مناسب و متناسب با تکنیک های موجود طبقه بندی دقیق است.ما در این مقاله، یک روش جدید طبقه بندی برای اسناد فارسی با استفاده از ترکیب روش ماشین بردار پشتیبان و تصمیم گیری چندمعیاره فازی ارایه کرده ایم. معیارهای موثر در طبقه بندی اسناد، سه معیار فراوانی یک کلمه در کل اسناد پیکره، نسبت تعداد تکرار یک کلمه در یک سند به تعداد کل کلمات آن سند و عضویت یک کلمه در اسناد پیکره هستند. به منظور ارزیابی کارایی روش پیشنهادی، نتایج آزمایش های شبیه سازی با روش طبقه بندی بیزین ساده و نزدیکترین همسایه مقایسه شده اند. نتایج بدست آمده از اجرای روش پیشنهادی بر روی مجموعه استاندارد همشهری در چهار حوزه ورزشی، سیاسی، علمی و اقتصادی بیانگر بهبود دقت، فراخوانی و میزان خطاست.

کلیدواژه ها

طبقه بندی متون، منطق فازی، اسناد فارسی، استخراج ویژگی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.