تشخیص خودکار جنسیت نویسنده نظرات نوشته شده به زبان فارسی
سال انتشار: 1398
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 598
فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
UTCONF03_128
تاریخ نمایه سازی: 24 شهریور 1398
چکیده مقاله:
استفاده زیاد از اینترنت در بین مردم باعث تبادل حجم وسیعی از نظرات در فضای مجازی شده است. در اغلب شبکه های اینترنتی کاربران به صورت گمنام نظرات خود را ثبت می کنند. حال آنکاه فهمیدن ویژگی نویسنده مانند سن و جنسیت می تواند در تحلیل بهتر نظر نویسنده و یا شناسایی نظر اقشار مختلف جامعه به تفکیک کاربردهای بسیاری داشته باشد. در این پژوهش مسئله شناسایی خودکار جنسیت از روی متن نظرات نوشتهشده به زبان فارسی در سایت مایکت بررسی شده است. روش های کیسه کلمات و n- گرام، بررسی شدند. برای دسته بندی نظرات از الگوریتم های بیز ساده، شبکه های عصبی پرسپترون چندلایه استفاده شد. نشان دادیماستفاده از علائم نگارشی در کنار رویکرد ترکیبی n- گرام سب افزایش صحت جهت پیش بینی نویسنده می شود. بالاترین صحت به دست آمده برای تشتیص جنسیت استفاده از علائم نگارشی به همراه رویکرد ترکیبییک گرام، دوگرام و سه گرام و الگوریتم شبکه عصبی به میزان 85.7 درصد می باشد.
کلیدواژه ها:
نویسندگان
سیامک حکمتیان زاده پور
کارشناسی ارشد مهندسی فناوری اطلاعات دانشگاه قم
امیر جلالی بیدگلی
استادیار دانشگاه قم