بازنمایی متن مبتنی بر بافت با استفاده از موضوعات پنهان برای دسته بندی مقالات علمی

  • سال انتشار: 1402
  • محل انتشار: فصلنامه زبان پژوهی، دوره: 15، شماره: 49
  • کد COI اختصاصی: JR_JLRZ-15-49_002
  • زبان مقاله: فارسی
  • تعداد مشاهده: 30
دانلود فایل این مقاله

نویسندگان

مریم موسویان

دانشکده مهندسی کامپیوتر، دانشگاه صنعتی امیرکبیر

مسعود قیومی

پژوهشگاه علوم انسانی و مطالعات فرهنگی

چکیده

سالانه پژوهشگران حوزه های مختلف علمی نتایج پژوهش های خود را به صورت گزارش های فنی یا مقالات علمی در مجموعه مقالات یا مجلات منتشر می کنند. گردآوری این نوع داده توسط موتورهای جستجو و کتابخانه های دیجیتال برای جستجو و دسترسی به نشریات تحقیقاتی استفاده می شود که معمولا مقالات مرتبط براساس کلیدواژه های پرسمان به جای موضوعات مقاله بازیابی می گردد. در نتیجه، دسته بندی دقیق مقالات علمی می تواند کیفیت جستجوی کاربران را هنگام جستجوی یک سند علمی در پایگاه های اطلاعاتی افزایش دهد.هدف اصلی این مقاله، ارائه یک مدل دسته بندی برای تعیین موضوع مقالات علمی است. برای این منظور، مدلی را پیشنهاد کردیم که از دانش بافتی غنی شده مقالات فارسی مبتنی بر معناشناسی توزیعی استفاده می کند. بر این اساس، شناسایی حوزه خاص هر سند و تعیین دامنه آن توسط دانش غنی برجسته، دقت دسته بندی مقالات علمی را افزایش می دهد. برای رسیدن به هدف، ما مدل های درونه یابی بافتی، اعم از ParsBERT یا XLM-RoBERTa را با موضوعات پنهان در مقالات را برای آموزش یک مدل پرسپترون چندلایه غنی می کنیم. بر اساس نتایج تجربی، عملکرد کلی ParsBERT-NMF-۱HT ۷۲/۳۷ درصد (ماکرو) و ۷۵/۲۱ درصد (میکرو) بر اساس معیار اف بود که تفاوت عملکرد این مدل در مقایسه با مدل پایه از نظر آماری معنادار (p< ۰.۰۵) بود.

کلیدواژه ها

بازنمایی بافتی, معناشناسی توزیعی, شبکه عصبی, دسته بندی مقالات علمی, مدل سازی موضوع

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.