تولید کلمات کلیدی متون فارسی با استفاده از یادگیری انتقالی
- سال انتشار: 1401
- محل انتشار: فصلنامه مهندسی برق دانشگاه تبریز، دوره: 52، شماره: 2
- کد COI اختصاصی: JR_TJEE-52-2_005
- زبان مقاله: فارسی
- تعداد مشاهده: 323
نویسندگان
استادیار، دانشکده مهندسی کامپیوتر، دانشگاه صنعتی شاهرود، شاهرود، ایران
دانشجوی دکتری، دانشکده مهندسی انفورماتیک، دانشگاه پورتو، پورتو، پرتغال
فارغ التحصیل کارشناسی دانشکده مهندسی کامپیوتر، دانشگاه صنعتی شاهرود، شاهرود، ایران
چکیده
تولید خودکار کلمات کلیدی، نقش مهمی در بسیاری از کاربردهای تحلیلی متن و زبان های طبیعی، به ویژه در دسته بندی و بازیابی سریع متون دارد. بسیاری از روش های کنونی محدود به انتخاب کلماتی هستند که صریحا در متن ذکر شده اند. استفاده از روش های دنباله به دنباله قادر است این نقصان را برطرف کند. البته استفاده از این روش ها معمولا مستلزم وجود پیکره های عظیم است که برای زبان های کم منبع مثل فارسی یک چالش محسوب می شود. در چنین موقعیت هایی، یادگیری انتقالی که در آن یک مدل پیش آموخته بر روی یک وظیفه جدید با مجموعه کوچکتری از داده ها تطبیق داده می شود، می تواند راه گشا باشد. در این مقاله، برآنیم تا با استفاده از یک روش دنباله به دنباله مبتنی بر شبکه های عمیق انتقالی، به تولید کلمات کلیدی برای متون علمی فارسی بپردازیم. در همین راستا، پیکره متنوعی از ۷۰هزار مقاله تخصصی به زبان فارسی و کلمات کلیدی متناظرشان جمع آوری شده است. سپس شبکه انتقالی پیش آموخته MT۵ با استفاده از این پیکره، برای وظیفه تولید کلمات کلیدی، تنظیم و بازآموزی شده است. مدل حاصل، با چندین روش دیگر مقایسه شده است. نتایج این مقایسه حاکی از برتری حداقل ۲.۷۱ درصدی آن بر روش های موجود است.کلیدواژه ها
تولید عبارات کلیدی, استخراج عبارات کلیدی, روش های دنباله به دنباله, شبکه های عمیق انتقالی, پیکره فارسی, خلاصه سازی چکیده ایاطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.