کشف سرقت علمی در متون فارسی بااستفاده از ویژگی های ساختاری-معنایی

سال انتشار: 1396
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 761

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IPRIA03_006

تاریخ نمایه سازی: 13 شهریور 1396

چکیده مقاله:

افزایش شبکه های ارتباطی دسترسی به آثار علمی- پژوهشی محققان را آسان ساخته است. در این میان افراد سودجو برای رسیدن به مقاصد خود درکوتاه ترین زمان و بدون تلاش، اقدام به کپی برداری از آثار و ایده های دیگران می نمایند. در دهه های اخیر این مشکل با نام سرقت علمی دامن گیر جوامع علمی مختلف از جمله جامعه علمی ایران شده است. در این مقاله، سرقت متون به صورت مساله دسته بندی مورد بررسی قرار گرفته است. روش پیشنهادی به کشف تقلب در سطح جمله پرداخته و شامل سه مرحله پیشپردازش، بازیابی اسناد کاندیدا، استخراج ویژگی و همترازی متن است. گام بازیابی اسناد کاندیدا، مبتنی بر کلمات کلیدی مستخرج از اسناد می باشد بطوریکه برای حفظ ارتباط معنایی بین کلمات، کلمات کلیدی بااستفاده از زنجیره مارکوف استخراج می شوند. در گام استخراج ویژگی و همترازی متن، ویژگی های ساختاری و معنایی جملات استخراج شده و بااستفاده از الگوریتم های دسته بندی، جملات کپی برداری شده کشف می شوند. روش پیشنهادی با تحلیل ساختاری- معنایی جملات قادر به کشف تقلبهای دقیق و دستکاری شده، است. آزمایشات بر روی پیکره ی تهیه شده در مسابقه هوش مصنوعی امیرکبیر و پیکره ی تهیه شده در مسابقه PAN2015 انجام شده است. میانگین صحت و فراخوانی بدست آمده برای پیکره ی اول 0.864 و 0.863 و برای پیکره ی دوم به ترتیب 0.829 و 0.764 می باشد.

نویسندگان

صغری لازمی

دانشجوی دکتری مهندسی کامپیوتر، هوش مصنوعی، دانشگاه کاشان

حسین ابراهیم پورکومله

استادیار دانشگاه کاشان، گروه مهندسی کامپیوتر، هوش مصنوعی