آشکارسازی خودکار طعنه در متون برخط فارسی با کمک الگوریتم های رده بندی

سال انتشار: 1396
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 872

فایل این مقاله در 13 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ITCT04_286

تاریخ نمایه سازی: 17 آبان 1396

چکیده مقاله:

استفاده گسترده از وب برای ابراز نظر و عقیده افراد باعث ایجاد حوزه مطالعاتی به نام نظرکاوی شده است؛هدف اصلی این حوزه آشکارسازی نظرات مثبت و منفی نهفته در متن است یکی از زیرمجموعههای نظرکاوی، طعنه کاوی است. در طعنه کاوی نیز نظرات مثبت و منفی به شکل معکوس ابراز میشوند. هدفاین مقاله ارایه یک مدل با الگوریتمهای ردهبندی برای آشکارسازی طعنه است؛ که متن را به عنوان طعنه آمیز یا غیر طعنهآمیز ردهبندی میکند. تاکنون مطالعات مختلفی غالبا برای زبان انگلیسی بر روی مسیله ردهبندیمتن طعنهآمیز یا غیر طعنهآمیز انجام شده است؛ اما تاکنون تحقیقی روی زبان فارسی در این حوزه گزارش نشده است. در این مقاله، مدلی مبتنی بر یادگیری ماشین برای ردهبندی متن طعنهدار و بدون طعنه ارایهمیشود و برای یافتن بهترین الگوریتمهای ردهبندی، روش نایوبیز، ماشین بردار پشتیبان، درخت تصمیم، رگرسیون لجستیک در مدل پیشنهادی آزمایش میشود. برای این کار یک مجموعه داده شامل 1320 توییتفارسی از سایت توییتر جمعآوریشده است. طبق نتایج آزمایشات، بهترین الگوریتم ردهبندی با بالاترین درستی برای مدل پیشنهادی، الگوریتم ردهبندی نایوبیز بدست آمد. این الگوریتم و روش انتخاب ویژگی تکرار واژه بر روی این مجموعه داده، درستی91/06 درصد را به دست آورد.

کلیدواژه ها:

نویسندگان

مرضیه حسین زاده

دانشجوی کارشناسی ارشد دانشگاه آزاد اسلامی واحد دولت آباد

محمداحسان بصیری

عضو هییت علمی دانشگاه شهرکرد

اعظم ربیعی

باشگاه پژوهشگران جوان و نخبگان، واحد دولت آباد، دانشگاه آزاد اسلامی، اصفهان، ایران