ارایه راهکاری جهت تشخیص اسناد نزدیک به تکراری

سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 516

فایل این مقاله در 17 صفحه با فرمت PDF و WORD قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

NSOECE05_111

تاریخ نمایه سازی: 10 تیر 1396

چکیده مقاله:

اخیرا با گسترش صفحات وب و افزایش تقاضای کاربران برای بازیابی اطلاعات وب، روش هایی برای افزایش سرعت وب کاوی و ارایه روش های با قابلیت اعتماد بالاتر و الگوریتم های بهینه تر لازم و ضروری است. در این مقاله، دو الگوریتم برای تشخیص نزدیک به تکراری مورد بررسی قرار گرفته است. سپس با ترکیب این دو الگوریتم یک راهکار جدید برای تشخیص و حذف صفحات وب نزدیک به تکراری، با روش معنایی و برمبنای فاکتور هایی نتایج تکراری یا نزدیک به تکراری را دسته بندی و حذف می کند. الگوریتم اول شامل سه فاز است: فاز اول پیش پردازش های لازم صورت می پذیرد. فاز دوم فیلترینگ پیشوندی و مکانی جهت کاهش اندازه مجموعه رکورد و در فاز سوم نیز تجزیه به مقادیر منفرد و محاسبه شباهت انجام می شود و یک مجموعه بهینه نزدیک به تکراری را باز می گرداند. الگوریتم دوم، الگوریتم پیشنهادی مبنی بر مبدا وب می باشد که از 6 فاکتور(Who,When,What,Why,Where,How) برای محاسبه قابلیت اطمینان هر سند استفاده می کند. در نهایت با ترکیب این دو الگوریتم یک راهکار جدید جهت تشخیص و حذف نزدیک به تکراری ارایه شده است. برای ارزیابی کارآیی راهکار جدید از دو معیار دقت و فراخوانی استفاده می شود، که درصد دقت و فراخوانی برای راهکار جدید 97.95% بدست آمد. نتایج نشان می دهد که قابلیت اطمینان و کارایی این راهکار نسبت به استفاده از این الگوریتم ها به طور مجزا بیشتر است.

کلیدواژه ها:

تشخیص اسناد نزدیک به تکراری ، ماتریس مبداء وب ، ماتریس.TDW ، ماتریس DTM فیلترینگ پیشوندی ، فیلترینگ پسوندی

نویسندگان

الهام گودرزی

کارشناسی ارشد، مهندسی کامپیوتر، دانشگاه آزاد اسلامی واحد خرم آباد

نرگس صالح پور

کارشناسی ارشد، مهندسی کامپیوتر، دانشگاه آزاد اسلامی واحد خرم آباد

محمد نظری فرخی

کارشناسی ارشد، مهندسی کامپیوتر، دانشگاه آزاد اسلامی واحد خرم آباد

ابراهیم نظری فرخی

دانشجوی دکترای مدیریت فناوری اطلاعات، واحد علوم و تحقیقات، تهران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • . Manku, G. S., Jain, A., & Das Sarma, A. ...
  • . Kumar, J. P., & Govindarajulu, D. P. (2009). Efficient ...
  • . Mathew, M., Das, S. N., & Vij ayaraghavan, P. ...
  • . Mudhasir, S. Y., Deepika, J., Sendhilkumar, S., & Mahalakshmi, ...
  • . Broder, A. Z., Glassman, S. C., Manasse, M. S., ...
  • . Kotcz, A., Chowdhury, _ & Alspector, J. (2004, August). ...
  • . Bar-Yossef, Z., Keidar, I., & Schonfeld, U. (2009). Do ...
  • . Alzahrani, S., & Salim, N. (2010). Fuzzy semantic -based ...
  • . Tachaphetp iboon, S., Facundes, N., & Amornraksa, T. (2007, ...
  • . Mozgovoy, M., Tusov, V., & Klyuev, V. (2006). The ...
  • . Gupta, T, & Banda, L. (2012). A Novel Approach ...
  • . Xiao, C., Wang, W., Lin, X., Yu, J. X., ...
  • نمایش کامل مراجع