آشکارسازی خودکار طعنه در متون برخط فارسی با کمک الگوریتم های رده بندی

مرضیه, حسین زاده; محمداحسان, بصیری; اعظم, ربیعی

آشکارسازی خودکار طعنه در متون برخط فارسی با کمک الگوریتم های رده بندی

عنوان مقاله: آشکارسازی خودکار طعنه در متون برخط فارسی با کمک الگوریتم های رده بندی
شناسه ملی مقاله: ITCT04_286
منتشر شده در چهارمین کنفرانس ملی فناوری اطلاعات، کامپیوتر و مخابرات در سال 1396

مشخصات نویسندگان مقاله:

مرضیه حسین زاده - دانشجوی کارشناسی ارشد دانشگاه آزاد اسلامی واحد دولت آباد
محمداحسان بصیری - عضو هییت علمی دانشگاه شهرکرد
اعظم ربیعی - باشگاه پژوهشگران جوان و نخبگان، واحد دولت آباد، دانشگاه آزاد اسلامی، اصفهان، ایران

خلاصه مقاله:

استفاده گسترده از وب برای ابراز نظر و عقیده افراد باعث ایجاد حوزه مطالعاتی به نام نظرکاوی شده است؛هدف اصلی این حوزه آشکارسازی نظرات مثبت و منفی نهفته در متن است یکی از زیرمجموعههای نظرکاوی، طعنه کاوی است. در طعنه کاوی نیز نظرات مثبت و منفی به شکل معکوس ابراز میشوند. هدفاین مقاله ارایه یک مدل با الگوریتمهای ردهبندی برای آشکارسازی طعنه است؛ که متن را به عنوان طعنه آمیز یا غیر طعنهآمیز ردهبندی میکند. تاکنون مطالعات مختلفی غالبا برای زبان انگلیسی بر روی مسیله ردهبندیمتن طعنهآمیز یا غیر طعنهآمیز انجام شده است؛ اما تاکنون تحقیقی روی زبان فارسی در این حوزه گزارش نشده است. در این مقاله، مدلی مبتنی بر یادگیری ماشین برای ردهبندی متن طعنهدار و بدون طعنه ارایهمیشود و برای یافتن بهترین الگوریتمهای ردهبندی، روش نایوبیز، ماشین بردار پشتیبان، درخت تصمیم، رگرسیون لجستیک در مدل پیشنهادی آزمایش میشود. برای این کار یک مجموعه داده شامل 1320 توییتفارسی از سایت توییتر جمعآوریشده است. طبق نتایج آزمایشات، بهترین الگوریتم ردهبندی با بالاترین درستی برای مدل پیشنهادی، الگوریتم ردهبندی نایوبیز بدست آمد. این الگوریتم و روش انتخاب ویژگی تکرار واژه بر روی این مجموعه داده، درستی91/06 درصد را به دست آورد.

کلمات کلیدی:

الگوریتم های رده بندی، متون فارسی، طعنه کاوی، آشکارسازی خودکار، نظر کاوی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/669009/