ارایه روشی برای استخراج خودکار عبارات کلیدی از اخبار وب پارسی
سال انتشار: 1396
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 490
فایل این مقاله در 10 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
JR_TJEE-47-3_005
تاریخ نمایه سازی: 15 اردیبهشت 1397
چکیده مقاله:
دادگان متنی و از آن جمله متون خبری از حوزه های مهم بازیابی اطلاعات به شمار میرود و استخراج اطلاعات از آنها ضروری است. این امر با استخراج عبارات کلیدی اسناد که دربردارنده محتوای اصلی متن است، صورت می گیرد. در این پژوهش، راهکاری سه مرحلهای جهت استخراج عبارات کلیدی از صفحات خبری وب پارسی، با ترکیب شیوه های زبانشناختی، یادگیری با ناظر، ابتکاری و تعداد نسبتا جامعی ازشیوه های آماری ارایه می شود. همچنین، یک مجموعه داده خبری و لیستی از عبارات توقفی خبری ایجاد می گردد. در پژوهش حاضر، با توجه به ویژگیهای دادگان، از دسته بند جنگل تصادفی استفاده و عملکرد خوب آن به کمک نتایج آزمایشها ثابت میشود به علاوه استفاده ازامتیاز تعلق گرفته به عبارات توسط دسته بند جهت ایجادلیستی مرتب ازعبارات برای دسته بندی به جای استفاده ازخروجی دسته بند پیشنهاد میشود نتایج نشان دهنده دقت قابل قبول سیستم ارایه شده است
کلیدواژه ها:
نویسندگان
مریم باسره
دانشجوی کارشناس ارشددانشکده مهندسی کامپیوتر - پردیس فنی و مهندسی - دانشگاه یزد - یزد - ایران
ولی درهمی
دانشیاردانشکده مهندسی کامپیوتر - پردیس فنی و مهندسی - دانشگاه یزد - یزد - ایران
سجاد ظریف زاده
استادیاردانشکده مهندسی کامپیوتر - پردیس فنی و مهندسی - دانشگاه یزد - یزد - ایران