استفاده از الگوریتم رتبه بندی BM25 و بهبود آن در متون غیرساخت یافته با استفاده ازتطبیق مفاهیم

مسعود عگبی; منصور امینی لاری

استفاده از الگوریتم رتبه بندی BM25 و بهبود آن در متون غیرساخت یافته با استفاده ازتطبیق مفاهیم

محل انتشار: کنفرانس بین المللی یافته های نوین پژوهشی درمهندسی برق و علوم کامپیوتر

سال انتشار: 1394

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 940

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/404867

شناسه ملی سند علمی:

COMCONF01_769

تاریخ نمایه سازی: 8 آذر 1394

چکیده مقاله:

یکی از مهمترین موضوعات در پردازش زبان طبیعی و بازیابی اطلاعات، یافتن ریشه کلمات است. یکی از روشهای افزایش کارایی سیستمهای بازیابی اطلاعات، استفاده از ریشهیابی کلمات است. زیرا اشتقاقات مختلف یک کلمه به ریشه آنکلمه تبدیل میشوند. درنتیجه جستجو بر اساس ریشه کلمه انجام خواهد شد و اندازه ساختار ایندکس کاهش مییابد. حال با توجه به پیچیدگی علوم در صورتیکه در حجم عظیمی از دادهها تمایل به کارهای تحقیقاتی به صورت دستی داشتهباشیم این کار زمانگیر و گاهی غیر ممکن میباشد. لذا استفاده از روشی که به صورت اتوماتیک این کارهای تحقیقاتی را انجام دهد میتواند مفید باشد.در این مقاله الگوریتمی برای رتبه بندی BM25 در متون غیرساخت یافته با استفاده از تطبیق مفاهیم در زبان فارسی ارائه شده است و سپس نتیجه آن در بازیابی اطلاعات با الگوریتمهای BM25 استاندارد ،مورد ارزیابی قرار گرفته است. استفاده از این الگوریتم در متون فارسی و همچنین متونی که شامل ترکیبی از زبانهای فارسی و لاتین باشد گاهی به دلیل برخی مسائل باعث کاهش دقت، صحت و بازخوانی این الگوریتم میگردد. الگوریتم ارائه شده با استفاده از قواعد ساختواژی زبان فارسی و استفاده از مجموعه لغات برای جلوگیری از ایجاد ریشههای نادرست، بهریشهیابی کلمات میپردازد

کلیدواژه ها:

رتبه بندی ، داده کاوی ، متن کاوی ، تطبیق مفاهیم

نویسندگان

مسعود عگبی

گروه کامپیوتر، واحد اهواز، دانشگاه آزاد اسلامی اهواز، ایران

منصور امینی لاری

گروه کامپیوتر، واحد مرودشت، دانشگاه آزاد اسلامی مرودشت، ایران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

Anh, v.n., r. Wan, and a. Moffat, term impacts a ...
Bidgoli, d.m. And m. Boraghi. A language independent text segmentation ...
Bramer, m., principles of data mining 2013, springer. P. 440). ...
Carrell, d.s., d.l. Miglioretti, and r. S mith-bindman, using natural ...
Dong, h., f.k. Hussain, and e. Chang, a survey in ...
Duda, r.o., p.e. Hart, and d.g. Stork pattern classificatio. 2000. ...
Fayyad, u., the kdd process for extracting useful knowledge from ...
Gaizauskas, r., et al., task-oriented extraction of temporal information: the ...
Gong, L., et al., text mining in radiology reports, in ...
Han, j., m. Kamber, and j. Pei, data mining: concepts ...
He, b. And i. Ounis, term frequency normalisation tuning for ...
He, b., j.x. Huang, and x. Zhou, modeling term proximity ...
He, q., a review of clustering algorithms as applied in ...
Ke, h. And m. Shaoping, text categorization based _ Concept ...
Miner, g., et al., practical text mining and statistical analysis ...
Nassif, h., et al., information extraction for clinical data mining: ...
Qu, _ et al., graph-based knowledge representation model and pattern ...
Robertson, S., h. Zaragoza, and m. Taylor. Simple bm25 extension ...
Solka, j.1., text data mining: theory and methods. Statistics surveys, ...
Zhao, y.-h. And x.-f. Shi, the application of vector space ...

نمایش کامل مراجع