تشخیص نویسنده یک متن با استفاده از پردازش زبان طبیعی

  • سال انتشار: 1402
  • محل انتشار: هفتمین همایش ملی افق های نوین در مدیریت، اقتصاد و کامپیوتر
  • کد COI اختصاصی: THCONF07_105
  • زبان مقاله: فارسی
  • تعداد مشاهده: 312
دانلود فایل این مقاله

نویسندگان

علی نوری

دانشجوی کارشناسی ارشد، گروه فناوری اطلاعات، موسسه آموزش عالی باختر، ایلام، ایران

چکیده

در این مقاله، یک روش جدید به منظور شناسایی نویسنده متون فارسی با استفاده از تکنیک های یادگیری ماشین و پردازشزبان طبیعی ارائه شده است. در روش پیشنهادی از مجموعه خصوصیات آماری و محتوایی متون در کنار مشخصاتروانشناختی نویسندگان استفاده میشود. در گام اول روش پیشنهادی، مجموعه متون ورودی پیش پردازش شده و هر سندمتنی به مجموعه جملات تشکیل دهنده آن تجزیه میشود. پس از انجام عملیات پیش پردازش، نقش دستوری کلماتتشکیل دهنده هر جمله در متون ورودی شناسایی شده و براساس فراوانی برچسب های شناسایی شده، مجموعه ویژگی هایآماری متن استخراج میگردد. در گام بعدی روش پیشنهادی، کلمات کلیدی موجود در متن استخراج شده و بردار وزنی TF-IDF برای کلمات کلیدی استخراج شده از هر متن محاسبه خواهد شد. در گام بعدی، مجموعه ویژگی های آماری متن وبردار TF-IDF کلمات کلیدی متون با ویژگی های جمع آوری شده از طریق آزمون روانشناسی نویسندگان ادغام شده تامجموعه ویژگی های نهایی حاصل شود. در نهایت این ویژگی ها توسط یک مدل یادگیر مبتنی بر ترکیب شبکه عصبیمصنوعی و کدگذاری خروجی تصحیح کننده خطا مورد پردازش قرار گرفته تا نویسندگان مربوط به هر متن شناسایی شود. بهمنظور ارزیابی عملکرد روش پیشنهادی از یک پایگاه داده متشکل از ۱۵ نویسنده استفاده شده است. کارایی روش پیشنهادیدر تشخیص نویسندگان متون فارسی مورد ارزیابی قرار گرفته و نتایج حاصل با روشهای مشابه پیشین مقایسه شده است.نتایج حاصل نشان میدهد که روش پیشنهادی در تشخیص نویسندگان از دقت بالایی برخوردار بوده و میتواند در پردازشمتون فارسی بصورت کارآمدی عمل نماید.

کلیدواژه ها

پردازش زبان طبیعی، پردازش متن، تشخیص نویسنده، داده کاوی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.