آشکارسازی خودکار طعنه در متون برخط فارسی با کمک الگوریتم های رده بندی
- سال انتشار: 1396
- محل انتشار: چهارمین کنفرانس ملی فناوری اطلاعات، کامپیوتر و مخابرات
- کد COI اختصاصی: ITCT04_286
- زبان مقاله: فارسی
- تعداد مشاهده: 780
نویسندگان
دانشجوی کارشناسی ارشد دانشگاه آزاد اسلامی واحد دولت آباد
عضو هییت علمی دانشگاه شهرکرد
باشگاه پژوهشگران جوان و نخبگان، واحد دولت آباد، دانشگاه آزاد اسلامی، اصفهان، ایران
چکیده
استفاده گسترده از وب برای ابراز نظر و عقیده افراد باعث ایجاد حوزه مطالعاتی به نام نظرکاوی شده است؛هدف اصلی این حوزه آشکارسازی نظرات مثبت و منفی نهفته در متن است یکی از زیرمجموعههای نظرکاوی، طعنه کاوی است. در طعنه کاوی نیز نظرات مثبت و منفی به شکل معکوس ابراز میشوند. هدفاین مقاله ارایه یک مدل با الگوریتمهای ردهبندی برای آشکارسازی طعنه است؛ که متن را به عنوان طعنه آمیز یا غیر طعنهآمیز ردهبندی میکند. تاکنون مطالعات مختلفی غالبا برای زبان انگلیسی بر روی مسیله ردهبندیمتن طعنهآمیز یا غیر طعنهآمیز انجام شده است؛ اما تاکنون تحقیقی روی زبان فارسی در این حوزه گزارش نشده است. در این مقاله، مدلی مبتنی بر یادگیری ماشین برای ردهبندی متن طعنهدار و بدون طعنه ارایهمیشود و برای یافتن بهترین الگوریتمهای ردهبندی، روش نایوبیز، ماشین بردار پشتیبان، درخت تصمیم، رگرسیون لجستیک در مدل پیشنهادی آزمایش میشود. برای این کار یک مجموعه داده شامل 1320 توییتفارسی از سایت توییتر جمعآوریشده است. طبق نتایج آزمایشات، بهترین الگوریتم ردهبندی با بالاترین درستی برای مدل پیشنهادی، الگوریتم ردهبندی نایوبیز بدست آمد. این الگوریتم و روش انتخاب ویژگی تکرار واژه بر روی این مجموعه داده، درستی91/06 درصد را به دست آورد.کلیدواژه ها
الگوریتم های رده بندی، متون فارسی، طعنه کاوی، آشکارسازی خودکار، نظر کاویمقالات مرتبط جدید
- سیستم تشخیص نفوذ در محیط رایانش ابری با استفاده از یادگیری ویژ گی
- کاهش هزینه تعمیراتی ماشین های سنگین از طریق بهبود الگوریتم درخت تصمیم با الگوریتم های انتخاب ویژگی Information Gain ،Correlation و SVM
- پردازش کوانتومی تصاویر پزشکی و تشخیص لبه آن با استفاده از الگوریتم QHED
- بررسی و مقایسه روشهای تشخیص اکانت های جعلی در شبکه های اجتماعی
- مکان یابی و مقدار بهینه منابع تولید پراکنده به منظورکاهش تلفات و بهبود انحراف ولتاژ شبکه نامتعادل توزیع
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.