ارائه مدلی جهت تشخیص سوالات تکراری در پایگاه داده StackOverflow

سال انتشار: 1397
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 414

فایل این مقاله در 15 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ENGCONF02_078

تاریخ نمایه سازی: 1 تیر 1398

چکیده مقاله:

به منظور اشتراک گذاری دانش ها، افزایش سرعت در حل مشکلات نرم افزاری و استفاده از راه حل های آنلاین برای مشکلات برنامه نویسی، از وب سایت هایی تحت عنوان انجمن های پرسش و پاسخ استفاده می شود. وب سایت StackOverflow محبوب ترین و پرکاربردترین وب سایت درزمینه مشکلات مربوط به برنامه نویسی است. در سایت StackOverflow ممکن است دو یا چند سوال در مورد مسئله یکسانی پرسیده شده باشند و چون زمان برای کسی که سوال را پرسیده بسیار مهم است می توان با ارائه سوالات مشابه که قبلا پاسخ داده شده اند کمک به سزایی به آن ها کرد و ازاین رو کاربر لازم نیست مدت زیادی را برای یافتن پاسخ خود منتظر بماند. پیدا کردن و مشخص کردن سوالات تکراری در StackOverflow در حال حاضر توسط مدیران و کاربران با امتیاز بالا به صورت دستی انجام می شود. ازآنجاکه روزانه تعداد سوالات زیادی مطرح می شود مشخص کردن سوالات تکراری به صورت دستی بسیار زمان بر و پرهزینه است. ازاین رو ایجاد یک روش خودکار برای پیدا کردن سوالات تکراری یا مشابه می توانند کمک بسیار زیادی به توسعه دهندگان نرم افزار و مدیران سایت کند. مدل پیشنهادی در این مقاله، ضمن کشف و استخراج موضوع از متن سوالات، با بهره گیری از الگوریتم وزن دهی اسناد در سیستم های بازیابی اطلاعات و استفاده از مدل ماشین بردار پشتیبان (SVM) یک رویکرد جدید در زمینه تشخیص سوالات تکراری موجود در وب سایت StackOverflow ارائه می دهد. این مطالعه در جهت بهبود کارهای گذشته و افزایش دقت بازیابی سوالات تکراری در این حوزه است. نتایج به دست آمده نشان دهنده کارایی بالاتر و موثرتر مدل پیشنهادی در مقایسه باکارهای انجام شده درگذشته می باشد.

کلیدواژه ها:

سوالات تکراری ، StackOverflow ، معیار شباهت ، مدل فضای برداری (VSM)

نویسندگان

ابوالفضل عرب مختاری

مهندسی کامپیوتر، دانشکده مهندسی برق و کامپیوتر، دانشگاه شیراز

سید مصطفی فخراحمد

استادیار بخش مهندسی و علوم کامپیوتر و فناوری اطلاعات،دانشکده مهندسی برق و کامپیوتر،دانشگاه شیراز،