استفاده از یادگیری با نظارت برای شناسایی هرزنظر در زبان فارسی
محل انتشار: ششمین کنفرانس بین المللی وب پژوهی
سال انتشار: 1399
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 675
فایل این مقاله در 9 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
IRANWEB06_001
تاریخ نمایه سازی: 16 مرداد 1399
چکیده مقاله:
با توجه به استفاده روزافزون از نظرات درج شده کاربران در حوزه های مختلف در شبکه های اجتماعی و ارزشمند بودن این نظرات، صحت آنها بسیار مهم است اما افراد ناشناس بیان کننده نظر ممکن است با اهداف مخرب، نظرات جعلی و هرز را برای ترویج یا بی اعتبار کردن محصولات، خدمات، سازمان ها یا افراد، بیان نمایند. از آنجا که شناسایی هرزنظر تنها با خواندن، دشوار و حتی غیرممکن است یافتن داده هایی برای طراحی و ارزیابی الگوریتم های شناسایی هرزنظر نیز دشوار خواهد بود. با توجه به چالش مطرح شده، مقاله حاضر با نوآوری در ترکیب محتوای نظر، فرا داده و اطلاعات موجودیت، مجموعه ای از ویژگی های داده ای را تولید می کند و برای اولین بار در سطح سند و جمله، هرزنظر را در زبان فارسی تشخیص می دهد. سپس شناسایی هرزنظر به عنوان یک مساله دسته بندی، با دو دسته جعلی و غیرجعلی معرفی و با شش روش یادگیری با نظارت، مدلسازی می شود. برای ارزیابی نتایج، ضمن محاسبه پارامترهای دقت، فراخوانی و صحت، ماتریس اشفتگی شش روش مدلسازی نیز شناخته شد و با مقایسه پارامترها، دسته بند جنگل تصادفی با 98.65%، 97.27% و 99.99% به ترتیب برای دقت، فراخوانی و صحت، به عنوان بهترین و دقیق ترین دسته بند در شناسایی هرزنظر معرفی شد.
کلیدواژه ها:
نویسندگان
سپیده جمشیدی نژاد
دانشجوی دکتری، گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه آزاد اسلامی واحد رشت
فاطمه احمدی آبکناری
هیات علمی، گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه پیام نور رشت
پیمان بیات
هیات علمی، گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشکده فنی و مهندسی، دانشکده آزاد اسلامی واحد رشت