استفاده از یادگیری با نظارت برای شناسایی هرزنظر در زبان فارسی

سال انتشار: 1399
محل انتشار: ششمین کنفرانس بین المللی وب پژوهی
کد COI اختصاصی: IRANWEB06_001
زبان مقاله: فارسی
تعداد مشاهده: 787

دانلود فایل این مقاله

نویسندگان

سپیده جمشیدی نژاد

دانشجوی دکتری، گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه آزاد اسلامی واحد رشت

فاطمه احمدی آبکناری

هیات علمی، گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه پیام نور رشت

پیمان بیات

هیات علمی، گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشکده فنی و مهندسی، دانشکده آزاد اسلامی واحد رشت

چکیده

با توجه به استفاده روزافزون از نظرات درج شده کاربران در حوزه های مختلف در شبکه های اجتماعی و ارزشمند بودن این نظرات، صحت آنها بسیار مهم است اما افراد ناشناس بیان کننده نظر ممکن است با اهداف مخرب، نظرات جعلی و هرز را برای ترویج یا بی اعتبار کردن محصولات، خدمات، سازمان ها یا افراد، بیان نمایند. از آنجا که شناسایی هرزنظر تنها با خواندن، دشوار و حتی غیرممکن است یافتن داده هایی برای طراحی و ارزیابی الگوریتم های شناسایی هرزنظر نیز دشوار خواهد بود. با توجه به چالش مطرح شده، مقاله حاضر با نوآوری در ترکیب محتوای نظر، فرا داده و اطلاعات موجودیت، مجموعه ای از ویژگی های داده ای را تولید می کند و برای اولین بار در سطح سند و جمله، هرزنظر را در زبان فارسی تشخیص می دهد. سپس شناسایی هرزنظر به عنوان یک مساله دسته بندی، با دو دسته جعلی و غیرجعلی معرفی و با شش روش یادگیری با نظارت، مدلسازی می شود. برای ارزیابی نتایج، ضمن محاسبه پارامترهای دقت، فراخوانی و صحت، ماتریس اشفتگی شش روش مدلسازی نیز شناخته شد و با مقایسه پارامترها، دسته بند جنگل تصادفی با 98.65%، 97.27% و 99.99% به ترتیب برای دقت، فراخوانی و صحت، به عنوان بهترین و دقیق ترین دسته بند در شناسایی هرزنظر معرفی شد.

کلیدواژه ها

شناسایی هرزنظر، یادگیری با نظارت، مدلسازی هرزنظر، نظرات فارسی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.