بهبود دقت طبقهبندی اسناد با استفاده از ترکیب الگوریتمهای یادگیری ماشین

سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 395

فایل این مقاله در 20 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

COMCONF04_264

تاریخ نمایه سازی: 10 تیر 1396

چکیده مقاله:

باتوجه به داده های عظیم موجود درپایگاه های داده اینترنت و مراکزاطلاعاتی طبقه بندی متن یک نقش مهم درسازمان دهی بازیابی و جستجوی اطلاعات موجود دراین پایگاه های داده می باشد درواقع می توان گفت طبقه بندی متن اختصاص دادن یک متن به یک طبقه ازپیش تعیین شده می باشد برایاختصاص یافتن یک متن به یک طبقه خاص ازویژگیهای متن موجود استفاده میشود و باتوجه به ویژگیهای فراوانی که برای متون وجود دارد یک چالش اساسی انخاب زیرمجموعه ای ازویژگیهای مناسب برای یک متن می باشد ازاین رو دراین مقاله ازفیلترهای مختلفی جهت انتخاب ویژگی ازجمله حذف کلمات متوقف کننده n-gram و ... استفاده شده است دراین پژوهش ازمجموعه داده استاندارد خبرگزاری رویترز Reuters-21578 با8دسته مختلف و درمجموعه بیش از7000 سندمتنی استفاده شده است ازالگوریتم های ترکیبی جهت طبقه بندی استفاده کرده ایم که نتایج حاصل ازآزمایشها انجام شده برروی مجموعه داده نشان میدهد که الگوریتم پیشنهادی بهترین کارایی جهت طبقه بندی متن را داشته و باعث بهبود دقت و بازخوانی جهت طبقه بندی متن شده است باتوجه به نتایج شبیه سازی میزان دقت طبقه بندی اسناد برابر 96.66درصد شده است

کلیدواژه ها:

طبقه بندی متن ، یادگیری ماشین ، الگوریتم های ترکیبی ، فرکانس عبارت عکس فرکانس عبارت ، n-gram

نویسندگان

حدیث شعیری

دانشجویی کارشناسی ارشد رشته نرم افزار، دانشگاه آزاد اسلامی واحد بروجرد

ابراهیم شیری

استادیار دانشکده ریاضی و علوم کامپیوتر دانشگاه صنعتی امیر کبیر

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Review of Performance Evaluation 9Aه E. Costa, A. Lorena, A. ...
  • Gordon Cormack and Thomas Lynam. "Spam corpus creation for TREC". ...
  • S. Nazirova, "Survey _ Spam Filtering Techniques, " _ ommunication ...
  • v. Christina, S. Karpagavalli, and G. Suganya, "Email Spam Filtering ...
  • S. Vinod, N. Insozhan, and V. R. Vimal, "E-Mail Abstraction ...
  • W. A. Awad, and S. M. ELseuofi, "Machine Learning Methods ...
  • R. Malathi, "Email Spam Filter using Supervised Learning with Bayesian ...
  • M. Junker, and A. Abecker, "Exploiting Thesaurus Knowledge in Rule ...
  • X. Qi, and B. D. Davison, _ Page Classificatio. Features ...
  • L. Shi, X. Ma, L. Xi, Q. Duan, and J. ...
  • M. Lan, C. L. Tan, J. Su, and Y. Lu, ...
  • A. Beiranvand, A. Osareh, and B. Shadgar, "Spam Filtering By ...
  • W. B. Cavnar, "Using an n-gram-based Document Representation with a ...
  • W. B. Cavnar, _ N-Gram-based Text Filtering for TREC-2, " ...
  • S. _ Mustafa, :Character Contiguity in N-gram-based Word Matching: the ...
  • Y. Cebi, and G. Dalkilis, "Turkish Word n-Gram Analyzing Algorithms ...
  • J. Firnkranz, _ Study Using n-Gram Features for Text C ...
  • A. Ciltik, and T. Gungor, _ "Time-Efficiet Spam E-mail Filtering ...
  • v. Zorkadis, and D. A. Karras, "Efficient Information Theoretic Extraction ...
  • v. Zorkadis, D. A. Karras, and M. Panayoto, "Efficient Information ...
  • M. C. Su, H. H. Lo, and F. H. Hsu, ...
  • H. Bhavsar, and A. Ganatra, _ Comparative Study of Training ...
  • نمایش کامل مراجع