تشخیص نظرات هرز در زبان فارسی با استفاده از یادگیری عمیق

سال انتشار: 1400
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 152

متن کامل این مقاله منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل مقاله (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CSICC27_038

تاریخ نمایه سازی: 3 خرداد 1401

چکیده مقاله:

نظرات هرز به نظراتی گفته میشود که به قصد تبلیغ و یا تخریب یک محصول و یا برند نوشته میشوند. این نظرات باعث گمراهی افراد در خرید میشوند و تصمیم گیری آگاهانه را دشوار میسازند. تحقیقات زیادی برای تشخیص این نوع نظرات در زبان فارسی صورت نگرفته و تحقیقات موجود نیز از روش های یادگیری ماشین کلاسیک استفاده کرده اند . در این تحقیق مدلی ترکیبی با استفاده از ۴ شبکه حافظه طولانی کوتاه مدت دو طرفه (BiLSTM) ارائه شده است که با استفاده از ویژگی های متن نظر و قطبیت نظرات آموزش می بیند. با توجه به عدم وجود قطبیت نظرات در برخی مجموعه داده ها، از یک مدل تحلیل احساسات برای استخراج قطبیت نظرات از روی متن آنها، استفاده شده است. با توجه به اینکه مدل ارائه شده، برای یادگیری تنها به متن نظر نیاز دارد و از فراداده ها استفاده نمی کند، نظرات هرز تکی (نظراتی که نویسنده ی آنها تنها یک نظر نوشته است) نیز با استفاده از این مدل قابل تشخیص هستند. عملکرد مدل ارائه شده در مقایسه با روش های موجود افزایش چشم گیری داشته است؛ به گونه ای که بر روی مجموعه داده Digikala که پرکاربردترین مجموعه داده ی زبان فارسی در این حوزه است، دقت ۷.۷۸ به دست آمد

کلیدواژه ها:

تشخیص نظرات هرز ، شبکه حافظه طولانی کوتاه مدت دوطرفه ، تحلیل احساسات ، متوازن سازی داده ها ، یادگیری عمیق ، قطبیت نظر ، طبقه بندی متن ، زبان فارسی

نویسندگان

محمود علی عرب

دانش آموخته ی کارشناسی ارشد مهندس ی فناوری اطلاعات آزمایشگاه پژوهشی یادگیری عمیق، گروه مهندسی کامپیوتر، دانشکده مهندسی، دانشکدگان فارابی، دانشگاه تهران، ایران

کاظم فولادی قلعه

استادیار، گروه مهندسی کامپیوتر، دانشکده مهندسی، دانشکدگان فارابی، دانشگاه تهران، ایران