مدل زبانی مبتنی بر BERT جهت تحلیل محتوای ورزشی در زبان فارسی

  • سال انتشار: 1402
  • محل انتشار: فصلنامه کارافن، دوره: 20، شماره: 1
  • کد COI اختصاصی: JR_KARFN-20-1_017
  • زبان مقاله: فارسی
  • تعداد مشاهده: 136
دانلود فایل این مقاله

نویسندگان

داود ستوده

گروه کامپیوتر، دانشکده فنی شهید منتظری، دانشگاه فنی و حرفه ای،مشهد، ایران

سید محمد امین امیری طهرانی زاده

دانشگاه علوم پزشکی تهران، تهران، ایران

چکیده

مدل های زبانی آموزش دیده، به دلیل کاربرد آن ها در مسائل مرتبط با حوزه پردازش زبان های طبیعی دارای اهمیت فراوانی هستند. مدل های زبانی مانند BERT از محبوبیت بیشتری میان محققان برخوردار شده است. به دلیل توجه این مدل های زبانی به زبان انگلیسی، دیگر زبان ها به برخی از مدل های چند زبانه محدود می شوند. در این مقاله، مدل زبانی VarzeshiBERT به منظور تحلیل محتوای ورزشی فارسی در مسائل مرتبط با این حوزه زبانی ارائه شده است. این مدل زبانی بر پایه مدل زبانی Bert و با استفاده از مجموعه داده جمع آوری شده آموزش دیده است. سه مساله برای ارزیابی مدل زبانی جدید استفاده شده است: تحلیل احساسات، تشخیص نهاد های نامگذاری شده و پرکردن جای خالی. برای آموزش این مدل زبانی با توجه به عدم وجود مجموعه داده ای مناسب، یک مجموعه داده گسترده از رویداد ها و اخبار ورزشی زبان فارسی از چندین مرجع برخط تهیه شده است. با توجه به تخصصی بودن حوزه این مدل و در مقایسه با مدل های زبانی ارائه شده برای زبان فارسی، این مدل در هر سه مساله، نتایج بهتری را ارائه داده است. این مدل با ۷۱.۷% و ۹۵.۲% بهترین عملکرد را به ترتیب در بخش های پرکردن جای خالی و برچسب زنی اجزای کلام داشته است. در تحلیل احساسات نیز مدل ورزشی، نتایج بهتری را به همراه داشته است. این نتایج نشان می دهد، بکارگیری مدل زبانی مرتبط با هر حوزه تخصصی، نتایج بهتری در مقایسه با مدل های زبانی مرتبط اما با حوزه عمومی متون، خواهد داشت.

کلیدواژه ها

مدل زبانی, پردازش زبان های طبیعی, تحلیل احساسات, تشخیص نهادهای نامگذاری شده, مجموعه داده

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.