شناسایی پرسش های تکراری در سامانه های پرسش و پاسخ اسلامی مبتنی بر تعبیه کلمات، Siamese LSTM و فاصله ی منهتن

فیروزه میرامبک; بهروز مینایی بیدگلی

شناسایی پرسش های تکراری در سامانه های پرسش و پاسخ اسلامی مبتنی بر تعبیه کلمات، Siamese LSTM و فاصله ی منهتن

محل انتشار: سومین کنفرانس ملی پژوهش های نوین در مهندسی و علوم کاربردی

سال انتشار: 1400

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 430

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/1306604

شناسه ملی سند علمی:

NREAS03_217

تاریخ نمایه سازی: 16 آبان 1400

چکیده مقاله:

در این مقاله، ما روی مسئله ی شناسایی پرسشهای تکراری در سامانه های پرسش و پاسخ انجمنی اسلامی تمرکز داریم.تعیین اینکه آیا دو پرسش دادهشده از نظر معنایی مشابه هستند، با توجه به ساختارهای مختلفی که سوالات میتوانند داشته باشند، یک کار کاملا چالش برانگیز است همچنین در چند سال اخیر، شناسایی جفت پرسشهای تکراری در زبان فارسی و به خصوص در سامانه های اسلامی اهمیت ویژه ای یافته است. ما برای این کار، یکی از مقالات مربوط به زبان انگلیسی را به عنوان مقاله ی پایه در نظر گرفتیم و روش استفاده شده در آن را با مجموعه داده ی فارسی سازگار کردیم و از آن بهره بردیم. مدل مقاله ی پایه با کمک یکی از تعبیه کلمات word۲vec و FastText بردار کلمات را به دست می آوردوبا استفاده از Siamese LSTM نمایش معنایی پرسشها را به دست می آورد. از فاصله ی منهتن نیز برای به دست آوردن میزان شباهت بین دو پرسش استفاده میکند. همچنین یک رویکرد ترکیبی معرفی می کنیم که از ترکیب دو مدل آموزش دیده بر روی هرکدام از تعبیه کلمات به دست می آید. آزمایشات روی مجموعه داده فارسی ما نشان داد که مدل مقاله ی پایه، روی سامانه های پرسش و پاسخ اسلامی که به زبان فارسی هستند، نیز به خوبی عمل میکند.

کلیدواژه ها:

پرسش و پاسخ انجمنی ، شناسایی پرسشهای تکراری ، سامانه های اسلامی

نویسندگان

فیروزه میرامبک

(کارشناسی ارشد)، دانشگاه علم و صنعت ایران، دانشکده مهندسی کامپیوتر.

بهروز مینایی بیدگلی

(دانشیار)، دانشگاه علم و صنعت ایران، دانشکده مهندسی کامپیوتر