تشخیص سرقت علمی متون فارسی با رویکرد مبتنی بر بردار کلمات
- سال انتشار: 1396
- محل انتشار: نهمین کنفرانس فناوری اطلاعات و دانش (IKT 2017)
- کد COI اختصاصی: ICIKT09_020
- زبان مقاله: فارسی
- تعداد مشاهده: 840
نویسندگان
دانشجوی کارشناسی ارشد دانشگاه تهران
استادیار، عضو هییتعلمی دانشگاه تهران
استادیار، عضو هییت علمی دانشگاه تهران
چکیده
گسترش اینترنت و دسترسی سریع و آسان به انبوه داده های متنی، سرقت علمی را به معضلی جدی و روبه رشد تبدیل کرده است. از این رو در این مقاله تابع فاصله جدیدی به نام فاصله برداری کلمات که مبتنی بر یادگیری عمیق است، برای تشابه یابی و تشخیص سرقت علمی متون فارسی پیشنهاد می گردد. این روش کلمات را به صورت بردارهایی در فضای N بعدی تعبیه و تشابه دو سند متنی را به صورت میانگین فاصله کسینوسی موردنیاز برای حرکت از کلمات تعبیه شده سند اول، برای رسیدن به کلمات مشابه شان در سند دوم تعریف میکند. روش فاصله برداری کلمات به آسانی می تواند تشابه اسناد متنی با کلمات مختلف ولی با مفهوم مشابه را تشخیص دهد. با استفاده از این روش دو سند متنی که حداکثر تشابه کسینوسی را نسبت به هم داشته باشند، مشابه نامیده و سرقت علمی تشخیص داده میشود. یکی از ضعف های روش ارایهشده عدم در نظر گرفتن طول رشته های متنی مورد مقایسه می باشد، از این رو با توجه به مزیت روش لونشتاین در بررسی تطابق کاراکتری رشته های متنی با طولهای مختلف، در این مقاله از روش لونشتاین به منظور کاهش خطای روش فاصله برداری کلمات استفاده شدهاست. نتایج استفاده از ترکیب این دو روش تشابه یابی، برای تشخیص سرقت علمی متون فارسی روی پیکره مبتنی PAN2015 دارای معیار 97/9%F می باشد.کلیدواژه ها
یادگیری عمیق، بازنمایی برداری کلمات، تشابه یابی، سرقت علمی، بردار کلمهمقالات مرتبط جدید
- تاثیر هوش مصنوعی در خدمت پزشکی
- استفاده از هوش مصنوعی در داوری مسابقات فوتبال تاثیرات مثبت و منفی این پروژه ها بر داوری و نتیجه مسابقات
- پروتکل همگام سازی زمانی مبتنی بر دقت مورد نیاز در شبکه های حسگر بیسیم
- دگرگونی چهره مدیریت یکپارچه شهری و شهرداریها به کمک هوش مصنوعی
- رتبه بندی عوامل موثر درمدیریت شهری به کمک الگوریتم ویکور فازی
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.