بهبود کارایی الگوریتم شیگلینگ با استفاده از شینگلهای وزن دار

سیده زهرا اسکندری; بهروز مینایی بیدگلی

بهبود کارایی الگوریتم شیگلینگ با استفاده از شینگلهای وزن دار

محل انتشار: پانزدهمین کنفرانس کامپیوتر سالانه انجمن کامپیوتر ایران

سال انتشار: 1388

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 1,477

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/79083

شناسه ملی سند علمی:

CSICC15_150

تاریخ نمایه سازی: 26 مهر 1388

چکیده مقاله:

الگوریتم شینگلینگ که در سال 1997 توسط Broder و همکارانش ارائه شد یکی از بهترین روشهای موجود در زمینه شناسایی متون تقریباً یکسان است. ارزیابیهای انجام شده بر روی این روشنشان داده اند که منبع اصلی خطاهای این الگوریتم جفت متنهایی هستند که محتوای اصلی آنها با هم متفاوت است اما حجم زیادی ازجزئیات بی اهمیت آنها یکسان است. صفحات وب متفاوتی که متعلق به یک وب سایت باشند نمونه خوبی از این دسته از متنها هستند. در یک وب سایت، تکه هایی از متن وجود دارد که در تمام صفحات آن تکرارمیشود. این تکه های متن گاه شانس آن را پیدا میکنند که توسط این الگوریتم به عنوان نماینده یا اثرانگشت متن انتخاب شوند و الگوریتم رابه اشتباه بیاندازند.الگوریتم شینگلینگ پس از استخراج شینگل های متن، از شینگله ای هر متن نمونه برداری میکند و از نمونه بدست آمده برا ی نما یش آن استفاده میکند. به نظر میرسد دلیل اصلی مشکلی که در بالا به آن اشاره شد، نمایش متن به وسیله نمونه شینگلهای آن باشد چرا که دراثر این نمونهبرداری اطلاعات با ارزشی از متن نادیده گرفته میشوند. با استفاده از اطلاعات بیشتری از متن، از جمله فرکانس شینگلهای متن، میتوانیم کارایی این الگوریتم را بهبود بدهیم.در این مقاله روشی برای اعمال الگوریتم شینگلینگ بر روی شینگل های وزندار ارائه شده است. نتایج بدست آمده نشان میدهند که این روش کارایی الگوریتم شینگلینگ را بهبود میدهد.

کلیدواژه ها:

متون تقریباً یکسان ، شناسایی متون تقریباً یکسان ، الگوریتم شینگلینگ ، الگوریتم شینگلینگ وزندار

نویسندگان

سیده زهرا اسکندری

دانشگاه علم و صنعت ایران

بهروز مینایی بیدگلی

دانشگاه علم و صنعت ایران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

Broder, A., "Identifying and Filtering Near-duplicate documents", Proc. 11th Symp. ...
Broder, A., Manasse, M., Zweig, G., "Syntactic Clustering of the ...
Henzinger, M., _ Finding Near-Duplicate Web Pages: a Large-Scale Evaluation ...
Broder, A., "On the resemblance and containment of ...
Fetterly, D., Manasse, M., Najork, M., "On the Evolution _ ...
Fetterly, D., Manasse, M., Najork, M., "Detecting Phrase-Level Duplication On ...
Potthast, M., Stein, B., "New Issues in Near- Data Analysis ...
Learning and Applications: Proceedings of the 31st Annual Conference, 2007 ...

نمایش کامل مراجع