بهبود کارایی الگوریتم شیگلینگ با استفاده از شینگلهای وزن دار
سال انتشار: 1388
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,185
فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
CSICC15_150
تاریخ نمایه سازی: 26 مهر 1388
چکیده مقاله:
الگوریتم شینگلینگ که در سال 1997 توسط Broder و همکارانش ارائه شد یکی از بهترین روشهای موجود در زمینه شناسایی متون تقریباً یکسان است. ارزیابیهای انجام شده بر روی این روشنشان داده اند که منبع اصلی خطاهای این الگوریتم جفت متنهایی هستند که محتوای اصلی آنها با هم متفاوت است اما حجم زیادی ازجزئیات بی اهمیت آنها یکسان است. صفحات وب متفاوتی که متعلق به یک وب سایت باشند نمونه خوبی از این دسته از متنها هستند. در یک وب سایت، تکه هایی از متن وجود دارد که در تمام صفحات آن تکرارمیشود. این تکه های متن گاه شانس آن را پیدا میکنند که توسط این الگوریتم به عنوان نماینده یا اثرانگشت متن انتخاب شوند و الگوریتم رابه اشتباه بیاندازند.الگوریتم شینگلینگ پس از استخراج شینگل های متن، از شینگله ای هر متن نمونه برداری میکند و از نمونه بدست آمده برا ی نما یش آن استفاده میکند. به نظر میرسد دلیل اصلی مشکلی که در بالا به آن اشاره شد، نمایش متن به وسیله نمونه شینگلهای آن باشد چرا که دراثر این نمونهبرداری اطلاعات با ارزشی از متن نادیده گرفته میشوند. با استفاده از اطلاعات بیشتری از متن، از جمله فرکانس شینگلهای متن، میتوانیم کارایی این الگوریتم را بهبود بدهیم.در این مقاله روشی برای اعمال الگوریتم شینگلینگ بر روی شینگل های وزندار ارائه شده است. نتایج بدست آمده نشان میدهند که این روش کارایی الگوریتم شینگلینگ را بهبود میدهد.
کلیدواژه ها:
نویسندگان
سیده زهرا اسکندری
دانشگاه علم و صنعت ایران
بهروز مینایی بیدگلی
دانشگاه علم و صنعت ایران
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :