شناسایی پرسش های تکراری در سامانه های پرسش و پاسخ اسلامی مبتنی بر تعبیه کلمات، Siamese LSTM و فاصله ی منهتن

سال انتشار: 1400
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 430

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

NREAS03_217

تاریخ نمایه سازی: 16 آبان 1400

چکیده مقاله:

در این مقاله، ما روی مسئله ی شناسایی پرسشهای تکراری در سامانه های پرسش و پاسخ انجمنی اسلامی تمرکز داریم.تعیین اینکه آیا دو پرسش دادهشده از نظر معنایی مشابه هستند، با توجه به ساختارهای مختلفی که سوالات میتوانند داشته باشند، یک کار کاملا چالش برانگیز است همچنین در چند سال اخیر، شناسایی جفت پرسشهای تکراری در زبان فارسی و به خصوص در سامانه های اسلامی اهمیت ویژه ای یافته است. ما برای این کار، یکی از مقالات مربوط به زبان انگلیسی را به عنوان مقاله ی پایه در نظر گرفتیم و روش استفاده شده در آن را با مجموعه داده ی فارسی سازگار کردیم و از آن بهره بردیم. مدل مقاله ی پایه با کمک یکی از تعبیه کلمات word۲vec و FastText بردار کلمات را به دست می آوردوبا استفاده از Siamese LSTM نمایش معنایی پرسشها را به دست می آورد. از فاصله ی منهتن نیز برای به دست آوردن میزان شباهت بین دو پرسش استفاده میکند. همچنین یک رویکرد ترکیبی معرفی می کنیم که از ترکیب دو مدل آموزش دیده بر روی هرکدام از تعبیه کلمات به دست می آید. آزمایشات روی مجموعه داده فارسی ما نشان داد که مدل مقاله ی پایه، روی سامانه های پرسش و پاسخ اسلامی که به زبان فارسی هستند، نیز به خوبی عمل میکند.

کلیدواژه ها:

نویسندگان

فیروزه میرامبک

(کارشناسی ارشد)، دانشگاه علم و صنعت ایران، دانشکده مهندسی کامپیوتر.

بهروز مینایی بیدگلی

(دانشیار)، دانشگاه علم و صنعت ایران، دانشکده مهندسی کامپیوتر