تشخیص هویت نویسنده با استفاده از متن کاوی مبتنی بر الگوریتم K- نزدیک ترین همسایه بهبود یافته
محل انتشار: نخستین کنفرانس ملی محاسبات نرم
سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 967
فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
CSCG01_096
تاریخ نمایه سازی: 29 مهر 1396
چکیده مقاله:
تشخیص هویت نویسنده یکی از مسایل مهم در دسته بندی و پردازش زبان طبیعی می باشد. در این مقاله جهت انجام تشخیص هویت از الگوریتم K- نزدیک ترین همسایه (روشی ساده، بی پارامتر و کارایی بالا نسبت به دیگر روش های دسته بندی) که یکی از روش های موثر و پرکاربرد در این زمینه می باشد، به کمک ابزارهای دیگر استفاده شده است. در ابتدا ویژگی های مختلفی از نوشته های نویسندگان استخراج شده و سعی گردیده براساس ویژگی های استخراج شده عملیات تشخیص هویت نویسنده شبیه سازی گردد. پس از استخراج ویژگی هایی همچون ویژگی های واژگانی، نحوی، معنایی و وابسته به کاربرد و مشخص نمودن بهترین ویژگی ها به کمک رو مختلف، داده ها توسط الگوریتم K نزدیک ترین همسایه دسته بندی می شود. الگوریتم سنتی K- نزدیک ترین همسایه دارای پیچیدگی محاسباتی زیادی می باشد. بنابراین در این مقاله برای رفع این مشکل از خوشه بندی استفاده نموده ایم. خوشه بندی توانست تا حد زیادی محاسبات را کاهش دهد، اما کاهش کارایی در دسته بندی K- نزدیک ترین همسایه را به همراه داشت. در ادامه برای رفع این مشکل از وزن دهی به مراکز خوشه ها استفاده گردید و این کار توانست مشکل کاهش کارایی را حل نماید. روش ارایه شده در تشخیص هویت نویسنده تاثیر به سزایی دارد و میانگین دقت با روش پیشنهادی به 96 % رسیده است.
کلیدواژه ها:
نویسندگان
نجمه حداد زاده شوشتری
گروه کامپیوتر (مهندسی کامپیوتر)، واحد علوم و تحقیقات خوزستان، دانشگاه آزاد اسلامی، اهواز، ایران، گروه کامپیوتر (مهندسی کامپیوتر)، واحد اهواز، دانشگاه آزاد اسلامی، اهواز، ایران
هدیه ساجدی
گروه کامپیوتر (مهندسی کامپیوتر)، واحد علوم و تحقیقات خوزستان، دانشگاه آزاد اسلامی، اهواز، ایران، گروه کامپیوتر (مهندسی کامپیوتر)، واحد اهواز، دانشگاه آزاد اسلامی، اهواز، ایران