ارایه روشی مبتنی بر تحلیل آماری منبع واژگانی وردنت و محتوا به منظور تحلیل عقاید در اسناد لاتین

سال انتشار: 1397
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 527

فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CITI02_015

تاریخ نمایه سازی: 18 اسفند 1397

چکیده مقاله:

از جمله اهداف تحلیل احساس، طبقه بندی متون با ریزدانگی مختلف در کلاس های است که بیانگر سطح مثبت یا منفی بودن نظر است. مهمترین مشکلی که در تحلیل احساس با آن مواجه هستیم مهندسی خصیصه ها می باشد؛ چرا که پیچیدگی زمانی و دقت عملیات طبقه بندی را تحت تاثیر قرار میدهد. در این پژوهش از دانش مبتنی بر محتوا و همچنین دانش آماری سنتیوردنت، برای کاهش ابعاد خصیصه ها استفاده کرده ایم. نمایش یک بعدی ارایه شده برای سنتی وردنت این امکان را ایجاد می کند که پارامترهای پراکندگی و تمرکز پلاریته را برای هر W_POS محاسبه کنیم. از این دانش آماری به منظور گروه بندی خصیصه ها استفاده می کنیم همچنین الگوریتم انتخاب خصیصه ای ارایه شده است تا نرخ اثرگذاری هر گروه از خصیصه ها در فرآیند طبقه بندی محاسبه شود. به منظور طبقه بندی بردار خصیصه های Unigram و Bigram از الگوریتم های ماشین بردار پشتیبانی و دسته کننده بیز ساده استفاده می کنیم. نتایج نشان میدهد الگوریتم گروه بندی، حجم واژگانی سنتی وردنت را به کمتر از نصف کاهش داده است، که باعث شد ابعاد بردارخصیصه ها نیز به کمتر از نصف کاهش یابد، علاوه بر این، اینکه دقت عملیات طبقه بندی حداقل 2 % نسبت به روشهای پیشین بهبود داشته است.

نویسندگان

مرجان عبدیزدان

گروه کامپیوتر، واحد ماهشهر، دانشگاه آزاد اسلامی، ماهشهر، ایران