دسته بندی سوالات Stack Overflow با استفاده از بازنمایی های سنتی و جدید
- سال انتشار: 1399
- محل انتشار: ششمین کنفرانس ملی محاسبات توزیعی و پردازش داده های بزرگ
- کد COI اختصاصی: DCBDP06_026
- زبان مقاله: فارسی
- تعداد مشاهده: 351
نویسندگان
دانشکده فناوری اطلاعات و مهندسی کامپیوتر، دانشگاه شهید مدنی آذربایجان، تبریز
دانشکده فناوری اطلاعات و مهندسی کامپیوتر، دانشگاه شهید مدنی آذربایجان، تبریز
چکیده
برچسب گذاری خودکار سوالات زبان های برنامه نویسی نقش مهمی در مرتبط کردن سوالات با پاسخ دهندگان در یک پلتفرم پرسش و پاسخ دارد. دسته بندی سوالات با استفاده از متن سوال و با بكارگيری روش های یادگيری ماشين یكی از روش های مورد استفاده در این زمينه است. با توجه به اینكه در دسته بندی سوالات بازنمایی متن نقش ویژه ای در عملكرد دسته بند دارد، در این مقاله بازنماییسنتی مبتنی بر مدل n-grams به همراه فرکانس کلمه -معكوس فرکانس سند با بازنمایی جدید مبتنی بر روش های یادگيری عميق مورد مقایسه قرار گرفت. پس از انجام پيش پردازش و ساخت بردارهای ورودی، دسته بندهای بيز ساده، رگراسيون لجستيک، ماشين بردار پشتيبان و K نزدیكترین همسایه روی مجموعه ای از سوالات سایت Stack Overflow اعمال گردید. همچنين یک تكنيکمبتنی بر حافظه طولانی کوتا ه-مدت پياده سازی گردید. نتایج روی داده های مورد استفاده در این مقاله نشان می دهد که مدل های مبتنی بر بازنمایی سنتی دقت بهتری نسبت به بازنمایی مبتنی بر یادگيری عميق دارند.کلیدواژه ها
دسته بندی سوالات، یادگیری ماشین، بازنمایی مبتنی بر مدل n-grams ، بازنمایی مبتنی بر یادگیری عمیقمقالات مرتبط جدید
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.