تشخیص خودکار جنسیت نویسنده نظرات نوشته شده به زبان فارسی

سال انتشار: 1398
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 598

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

UTCONF03_128

تاریخ نمایه سازی: 24 شهریور 1398

چکیده مقاله:

استفاده زیاد از اینترنت در بین مردم باعث تبادل حجم وسیعی از نظرات در فضای مجازی شده است. در اغلب شبکه های اینترنتی کاربران به صورت گمنام نظرات خود را ثبت می کنند. حال آنکاه فهمیدن ویژگی نویسنده مانند سن و جنسیت می تواند در تحلیل بهتر نظر نویسنده و یا شناسایی نظر اقشار مختلف جامعه به تفکیک کاربردهای بسیاری داشته باشد. در این پژوهش مسئله شناسایی خودکار جنسیت از روی متن نظرات نوشتهشده به زبان فارسی در سایت مایکت بررسی شده است. روش های کیسه کلمات و n- گرام، بررسی شدند. برای دسته بندی نظرات از الگوریتم های بیز ساده، شبکه های عصبی پرسپترون چندلایه استفاده شد. نشان دادیماستفاده از علائم نگارشی در کنار رویکرد ترکیبی n- گرام سب افزایش صحت جهت پیش بینی نویسنده می شود. بالاترین صحت به دست آمده برای تشتیص جنسیت استفاده از علائم نگارشی به همراه رویکرد ترکیبییک گرام، دوگرام و سه گرام و الگوریتم شبکه عصبی به میزان 85.7 درصد می باشد.

کلیدواژه ها:

تشتیص جنسیت ، کیسه کلمات ، n- گرام ، بیز ساده ، شبکه عصبی پرسپترون چندلایه

نویسندگان

سیامک حکمتیان زاده پور

کارشناسی ارشد مهندسی فناوری اطلاعات دانشگاه قم

امیر جلالی بیدگلی

استادیار دانشگاه قم