شناسایی پرسش های تکراری در سامانه های پرسش و پاسخ اسلامی مبتنی بر تعبیه کلمات، Siamese LSTM و فاصله ی منهتن
سال انتشار: 1400
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 430
فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
NREAS03_217
تاریخ نمایه سازی: 16 آبان 1400
چکیده مقاله:
در این مقاله، ما روی مسئله ی شناسایی پرسشهای تکراری در سامانه های پرسش و پاسخ انجمنی اسلامی تمرکز داریم.تعیین اینکه آیا دو پرسش دادهشده از نظر معنایی مشابه هستند، با توجه به ساختارهای مختلفی که سوالات میتوانند داشته باشند، یک کار کاملا چالش برانگیز است همچنین در چند سال اخیر، شناسایی جفت پرسشهای تکراری در زبان فارسی و به خصوص در سامانه های اسلامی اهمیت ویژه ای یافته است. ما برای این کار، یکی از مقالات مربوط به زبان انگلیسی را به عنوان مقاله ی پایه در نظر گرفتیم و روش استفاده شده در آن را با مجموعه داده ی فارسی سازگار کردیم و از آن بهره بردیم. مدل مقاله ی پایه با کمک یکی از تعبیه کلمات word۲vec و FastText بردار کلمات را به دست می آوردوبا استفاده از Siamese LSTM نمایش معنایی پرسشها را به دست می آورد. از فاصله ی منهتن نیز برای به دست آوردن میزان شباهت بین دو پرسش استفاده میکند. همچنین یک رویکرد ترکیبی معرفی می کنیم که از ترکیب دو مدل آموزش دیده بر روی هرکدام از تعبیه کلمات به دست می آید. آزمایشات روی مجموعه داده فارسی ما نشان داد که مدل مقاله ی پایه، روی سامانه های پرسش و پاسخ اسلامی که به زبان فارسی هستند، نیز به خوبی عمل میکند.
کلیدواژه ها:
نویسندگان
فیروزه میرامبک
(کارشناسی ارشد)، دانشگاه علم و صنعت ایران، دانشکده مهندسی کامپیوتر.
بهروز مینایی بیدگلی
(دانشیار)، دانشگاه علم و صنعت ایران، دانشکده مهندسی کامپیوتر