توسعه الگوریتم رتبه بندی BM25 در متون غیرساخت یافته با استفاده از تطبیق مفاهیم

سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,183

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

COMCONF01_768

تاریخ نمایه سازی: 8 آذر 1394

چکیده مقاله:

امروزه با گسترش سیستمهای پایگاهی و حجم بالای دادههای ذخیره شده در این سیستمها، نیاز به ابزاری است تا بتوان دادههای ذخیره شده را پردازش کرد و اطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد. با استفاده ار پرسشهای ساده در بانکهای اطلاعاتی و ابزارهای گوناگون گزارشگیری معمولی، میتوان اطلاعاتی را در اختیار کاربران قرار داد تا بتوانند به نتیجهگیری در مورد دادهها و روابط منطقی میان آنها بپردازند اما وقتی که حجم دادهها بالا باشد،کاربران هر چقدرحرفهای و با تجربه باشند نمیتوانند الگوهای مفید را در میان حجم انبوه دادهها تشخیص دهند و یا اگرقادر به این کار هم باشند، هزینه عملیات از نظر نیروی انسانی و مالی بسیار بالا است. بنابراین درحال حاضر یک تغییر الگواز مدلسازی و تحلیلهای کلاسیک برپایه اصول اولیه به مدلهای درحال پیشرفت و تحلیلهای مربوط بطور مستقیم ازدادهها وجود دارد. دادهکاوی یکی از مهمترین این روشها است که به وسیله آن الگوهای مفید در دادهها با حداقل دخالت کاربران شناخته میشوند و اطلاعاتی را در اختیار کاربران و تحلیلگران قرار میدهند تا براساس آنها تصمیمات مهم وحیاتی در سازمانها اتخاذ شوند. الگوریتم BM25 از الگوریتمهای رتبهبندی موفق محسوب میگردد. استفاده از این الگوریتم در متون فارسی و همچنین متونی که شامل ترکیبی از زبانهای فارسی و لاتین باشد گاهی به دلیل برخی مسائل باعث کاهش دقت، صحت و بازخوانی این الگوریتم میگردد. در این پایاننامه روشی برای رفع مشکل ذکر شده ارائه می- گرددو در نهایت نتایج بدست آمده مورد بررسی قرار میگیرد.

نویسندگان

مسعود عگبی

گروه کامپیوتر، واحد اهواز، دانشگاه آزاد اسلامی اهواز، ایران

منصور امینی لاری

گروه کامپیوتر، واحد مرودشت، دانشگاه آزاد اسلامی مرودشت، ایران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Anh, v.n., r. Wan, and a. Moffat, term impacts a ...
  • Bidgoli, d.m. And m. Boraghi. A language independent text segmentation ...
  • Carrell, d.s., d.l. Miglioretti, and r. S mith-bindman, using natural ...
  • Dong, h., f.k. Hussain, and e. Chang, _ survey in ...
  • Bramer, m., principles of data mining 2013, springer. P. 440. ...
  • Duda, r.o., p.e. Hart, and d.g. Stork pattern classification 2000. ...
  • Fayyad, u., the kdd process for extracting useful knowledge from ...
  • Gaizauskas, r., et al., task-oriented extraction of temporal information: the ...
  • Gong, L., et al., text mining in radiology reports, in ...
  • Han, j., m. Kamber, and j. Pei, data mining: concepts ...
  • He, b. And i. Ounis, term frequency normalisation tuning for ...
  • He, b., j.x. Huang, and x. Zhou, modeling term proximity ...
  • He, q., a review of clustering algorithms as applied in ...
  • Ke, h. And m. Shaoping, text categorization based _ Concept ...
  • Miner, g., et al., practical text mining and statistical analysis ...
  • Nassif, h., et al., information extraction for clinical data mining: ...
  • Qu, _ et al., graph-based knowledge representation model and pattern ...
  • Robertson, S., h. Zaragoza, and m. Taylor. Simple bm25 extension ...
  • Solka, j.1., text data mining: theory and methods. Statistics surveys, ...
  • Zhao, y.-h. And x.-f. Shi, the application of vector space ...
  • نمایش کامل مراجع