تشخیص نویسندگان یکسان مبتنی بر روش شبکه های یادگیری عمیق

  • سال انتشار: 1400
  • محل انتشار: چهارمین همایش ملی فناوریهای نوین در مهندسی برق، کامپیوتر و مکانیک ایران
  • کد COI اختصاصی: STCONF04_363
  • زبان مقاله: فارسی
  • تعداد مشاهده: 306
دانلود فایل این مقاله

نویسندگان

پوریا نیک وند

فارغ التحصیل کارشناسی ارشد مهندسی کامپیوتر هوش مصنوعی و رباتیکز دانشگاه شهید بهشتی، تهران

بهنام بهرامی

فارغ التحصیل کارشناسی ارشد مهندسی کامپیوتر – رایانش امن، دانشکده مهندسی برق و کامپیوتر، دانشگاه تربیت مدرس، تهران

چکیده

امروزه با توجه به گستردگی شبکه های اجتماعی شاهد فعالیت کاربران با سبک ها و سلیقه های نگارشی متعدد در این شبکه ها هستیم. یکی از چالش های مهم در این تشخیص نویسنده متن با توجه به ویژگی های متنی وی است. به علت نبود محدودیت برای عضویت در این شبکه ها برخی افراد با ایجاد شناسه های کاربری متعدد به نوعی هویت های مختلفی را از خود ارائه می دادند. این مساله در ادامه منجر شد تا در بستر اینترنت، فضایی برای چند هویتی شدن افراد به وجود آید. این موضوع به معنی آن است که افراد با نام و مشخصات فردی مختلف در حال فعالیت و به اشتراک گذاری محتوی در بستر فضای مجازی هستند. حال یکی از مهم ترین چالش ها در این زمینه شناسایی و تشخیص این نویسندگان و تصدیق چند هویتی بودن یک نویسنده است. ما در این مقاله محتوی و سبک نگارش های متعدد که در شبکه های اجتماعی توییتر مورد هدف قرار دادیم. در ادامه، مجموعه داده ای را شامل پستهای شبکه های اجتماعی توییتر برای نویسندگان فارسی زبان، که شرایط چند هویتی داشتند را تهیه کردیم. سپس ویژگی های نویسنده و به نوعی شیوه نگارشی بجا گذاشته شده از وی را در یک فضای ویژگی دسته بندی کردیم. در انتها نیز با استفاده از این ویژگی ها، بردار ویژگی برای هر نویسنده بدست آورده و بر اساس آن، نویسندگان یکسان را از میان دیگر نویسندگان تشخیص دادیم

کلیدواژه ها

پردازش زبان طبیعی، شناسایی نویسنده، تایید هویت نویسنده، مشخصه نویسنده، اسناد نویسندگی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.