استفاده از یادگیری با نظارت برای شناسایی هرزنظر در زبان فارسی

سال انتشار: 1399
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 557

فایل این مقاله در 9 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IRANWEB06_001

تاریخ نمایه سازی: 16 مرداد 1399

چکیده مقاله:

با توجه به استفاده روزافزون از نظرات درج شده کاربران در حوزه های مختلف در شبکه های اجتماعی و ارزشمند بودن این نظرات، صحت آنها بسیار مهم است اما افراد ناشناس بیان کننده نظر ممکن است با اهداف مخرب، نظرات جعلی و هرز را برای ترویج یا بی اعتبار کردن محصولات، خدمات، سازمان ها یا افراد، بیان نمایند. از آنجا که شناسایی هرزنظر تنها با خواندن، دشوار و حتی غیرممکن است یافتن داده هایی برای طراحی و ارزیابی الگوریتم های شناسایی هرزنظر نیز دشوار خواهد بود. با توجه به چالش مطرح شده، مقاله حاضر با نوآوری در ترکیب محتوای نظر، فرا داده و اطلاعات موجودیت، مجموعه ای از ویژگی های داده ای را تولید می کند و برای اولین بار در سطح سند و جمله، هرزنظر را در زبان فارسی تشخیص می دهد. سپس شناسایی هرزنظر به عنوان یک مساله دسته بندی، با دو دسته جعلی و غیرجعلی معرفی و با شش روش یادگیری با نظارت، مدلسازی می شود. برای ارزیابی نتایج، ضمن محاسبه پارامترهای دقت، فراخوانی و صحت، ماتریس اشفتگی شش روش مدلسازی نیز شناخته شد و با مقایسه پارامترها، دسته بند جنگل تصادفی با 98.65%، 97.27% و 99.99% به ترتیب برای دقت، فراخوانی و صحت، به عنوان بهترین و دقیق ترین دسته بند در شناسایی هرزنظر معرفی شد.

نویسندگان

سپیده جمشیدی نژاد

دانشجوی دکتری، گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه آزاد اسلامی واحد رشت

فاطمه احمدی آبکناری

هیات علمی، گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه پیام نور رشت

پیمان بیات

هیات علمی، گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشکده فنی و مهندسی، دانشکده آزاد اسلامی واحد رشت