طبقه بندی متون فارسی با استفاده از ماشین بردار پشتیبان و فازی
سال انتشار: 1396
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 660
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
CITCOMP02_171
تاریخ نمایه سازی: 7 اسفند 1396
چکیده مقاله:
با رشد سریع و روز افزون اطلاعات، طبقه بندی مستندات یکی از ابزارهای کلیدی برای سازماندهی و مدیریت داده های متنی به شمار می آید که در کاربردهایی مانند تقسیم بندی اخبار، نامه های الکترونیکی و اطلاعات آنلاین مورد استفاده قرار می گیرد. در واقع طبقه بندی متون، انتساب یک سند نامشخص به کلاس های از پیش تعریف شده ی اسناد است و هر سند می تواند به یک یا چند کلاس تعلق داشته باشد. با وجود کارهای خوب صورت گرفته در زمینه متون فارسی، هنوز برخی از چالش ها به صورت حل نشده باقی مانده اند. از جمله چالش های اساسی در حوزه طبقه بندی متون فارسی، نبود روش استخراج ویژگی مناسب و متناسب با تکنیک های موجود طبقه بندی دقیق است.ما در این مقاله، یک روش جدید طبقه بندی برای اسناد فارسی با استفاده از ترکیب روش ماشین بردار پشتیبان و تصمیم گیری چندمعیاره فازی ارایه کرده ایم. معیارهای موثر در طبقه بندی اسناد، سه معیار فراوانی یک کلمه در کل اسناد پیکره، نسبت تعداد تکرار یک کلمه در یک سند به تعداد کل کلمات آن سند و عضویت یک کلمه در اسناد پیکره هستند. به منظور ارزیابی کارایی روش پیشنهادی، نتایج آزمایش های شبیه سازی با روش طبقه بندی بیزین ساده و نزدیکترین همسایه مقایسه شده اند. نتایج بدست آمده از اجرای روش پیشنهادی بر روی مجموعه استاندارد همشهری در چهار حوزه ورزشی، سیاسی، علمی و اقتصادی بیانگر بهبود دقت، فراخوانی و میزان خطاست.
کلیدواژه ها:
نویسندگان
فرشاد حسن عمویی
گروه کامپیوتر، دانشکده فنی و مهندسی، واحد شبستر، دانشگاه آزاد اسلامی، شبستر، ایران
شاهین اکبرپور
استادیار گروه کامپیوتر، دانشکده فنی و مهندسی، واحد شبستر، دانشگاه آزاد اسلامی، شبستر، ایران