یک روش وزن‏‎دهی مبتنی بر موقعیت واژه جهت مشابهت سنجی اسناد

سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 822

فایل این مقاله در 6 صفحه با فرمت PDF و WORD قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IRANWEB02_012

تاریخ نمایه سازی: 9 مرداد 1395

چکیده مقاله:

اندازه‎گیری میزان شباهت اسناد موجود در وب، از آن جهت دارای اهمیت است که دربسیاری از زمینه‎ها، مانند بازیابی‎اطلاعات، دسته‎بندی متون، خوشه‎بندی اسناد، سیستم‎های تشخیص تقلب و سرقت ادبی، خلاصه‎سازی متون، و سایر حوزه‎ها، نقش مهم و اساسی ایفا می‎‎‎‎‎‎‎‎‎‎‎‎‎‎کند. میزان درستی این تشخیص، می‎تواند کارایی، دقت و صحت هر یک از فرایندهای مذکور را بالا برد. در تمام روش‎های مشابهت‎سنجی اسناد، اصول کار، تشخیص شباهت سندها بر مبنای شناخت دقیق ویژگی‎های مشترک آنها است. از این‎ رو بازنمود سند بر مبنای ویژگی های بارز آن بسیار با اهمیت است. روش‎های مهم مشابهت‎سنجی اسناد، شامل مدل‎های لغوی و معنایی مبتنی بر محتوا و مدل‎های مبتنی بر ساختار صفحه است. در روش‎های لغوی ،ویژگی اصلی یک سند، وزن واژه‎های آن است. بنابراین وزن‎دهی صحیح واژه، می‎تواند یک گام موثر درنمایش دقیق ویژگی‎های بارز اسناد باشد. در این مقاله، هدف اصلی، ارایه روشی بهبودیافته در وزن‎دهی واژه‎، برای تعیین ‎ میزان شباهت لغوی اسناد متنی است. روش وزن‎دهی پیشنهادی بر مبنای طرح TD - IDF و با تاکید بر اهمیت بیشتر واژه‎های خطوط ابتدایی اسناد، توانسته است، دقت و فراخوانی را در دسته‎بندی و میزان صحت را در خوشه‎بندی اسناد مجموعه TDT5افزایش دهد.

نویسندگان

مریم اسدی لنگرودی

دانشجوی کارشناسی ارشد مهندسی فناوری اطلاعات ، گروه کامپیوتر، پردیس دانشگاه گیلان

سید ابوالقاسم میرروشندل

استادیار دانشگاه، گروه کامپیوتر دانشگاه گیلان

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Singh, Jaskirat, and Mukesh Kumar. "A Meta Search Approach to ...
  • C ommunication and Control. Springer Berlin Heidelberg, 150-160, 2011. ...
  • Liu, Bing. "Information retrieval and Web search." Web Data Mining. ...
  • Roa-Valverde, Antonio J., and Miguel-Angel Sicilia. "A survey of approaches ...
  • Huang, Anna. "Similarity measures for text document clustering. "Proceedings of ...
  • (NZC SRSC2008), Christchurch, New Zealan. 2008. ...
  • Li, Yanjun, Congnan Luo, and Soon . Chung. "A parallel ...
  • Chim, Hung, and Xiaotie Deng. "Efficient phrase-based document similarity for ...
  • Gomaa, Wael H., and Aly A. Fahmy. "A survey of ...
  • Gipp, Bela. "Citation-based Document Similarity." Springer ...
  • Fachmedien Wiesbaden, 43-55, 2014. ...
  • Liu, Hongyan, et al. "Measuring similarity based on link information: ...
  • Zesch, Torsten, and Iryna Gurevych. "Wisdom of crowds versus wisdom ...
  • with Ontology-B ased, Customized, Extractive Text [11] Chahal, Premjeet, Monika ...
  • Machnik, Eukasz. "Documents Clustering Techniques." Annales UMCS Sectio AI Informatica ...
  • Huang, Faliang, et al. "Clustering web documents using [13] Hakim, ...
  • Zhang, Wen, Taketoshi Yoshida, and Xijin Tang. "A comparative study ...
  • Lan, Man, et a. "A comprehensive comparative study on term ...
  • Huynh, Minh Chau, Pham Duy Thanh Le, and Trong Hai ...
  • Wang, Xingheng, et al., , 2012), "Text clustering based _ ...
  • Wang, Xingheng, et al., , 2012), "Text clustering based _ ...
  • Xia, Tian, et al, (2012), "An improved Global Weight Function ...
  • statistics.", Information Science and Contro] Engineering 2012 (ICISCE 2012), IET ...
  • Handojo, Andreas, Adi Wibowo, and Yovita Ria. "Document Searching Engine ...
  • Zhang, Wen, Taketoshi Yoshida, and Xijin Tang. "A comparative study ...
  • Hakim, Ari Aulia, et al. "Automated document clas sification for ...
  • Yoo, Jong-Yeol, and Dongmin Yang. "Classification Scheme of Unstructured Text ...
  • Lin, Yung-Shen, Jung-Yi Jiang, and Shie-Jue Lee "A similarity measure ...
  • Krishna, RVV Murali, and Ch Satyananda Reddy. "Extractive Text S ...
  • Kallimani, Jagadish S., K. G. Srinivasa, and B. Eswar Reddy. ...
  • Summary and Word Scoring." Cybernetics and Information Technologies 12.2: 34-50, ...
  • Osman, Ahmed Hamza, et al. "An improved plagiarism detection scheme ...
  • hierarchical representation with multi -granularity _ _ World Wide Web ...
  • Kumar, Jayant, Peng Ye, and David Doermann. "Learning document structure ...
  • نمایش کامل مراجع