استفاده از الگوریتم رتبه بندی BM25 و بهبود آن در متون غیرساخت یافته با استفاده ازتطبیق مفاهیم
سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 694
فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
COMCONF01_769
تاریخ نمایه سازی: 8 آذر 1394
چکیده مقاله:
یکی از مهمترین موضوعات در پردازش زبان طبیعی و بازیابی اطلاعات، یافتن ریشه کلمات است. یکی از روشهای افزایش کارایی سیستمهای بازیابی اطلاعات، استفاده از ریشهیابی کلمات است. زیرا اشتقاقات مختلف یک کلمه به ریشه آنکلمه تبدیل میشوند. درنتیجه جستجو بر اساس ریشه کلمه انجام خواهد شد و اندازه ساختار ایندکس کاهش مییابد. حال با توجه به پیچیدگی علوم در صورتیکه در حجم عظیمی از دادهها تمایل به کارهای تحقیقاتی به صورت دستی داشتهباشیم این کار زمانگیر و گاهی غیر ممکن میباشد. لذا استفاده از روشی که به صورت اتوماتیک این کارهای تحقیقاتی را انجام دهد میتواند مفید باشد.در این مقاله الگوریتمی برای رتبه بندی BM25 در متون غیرساخت یافته با استفاده از تطبیق مفاهیم در زبان فارسی ارائه شده است و سپس نتیجه آن در بازیابی اطلاعات با الگوریتمهای BM25 استاندارد ،مورد ارزیابی قرار گرفته است. استفاده از این الگوریتم در متون فارسی و همچنین متونی که شامل ترکیبی از زبانهای فارسی و لاتین باشد گاهی به دلیل برخی مسائل باعث کاهش دقت، صحت و بازخوانی این الگوریتم میگردد. الگوریتم ارائه شده با استفاده از قواعد ساختواژی زبان فارسی و استفاده از مجموعه لغات برای جلوگیری از ایجاد ریشههای نادرست، بهریشهیابی کلمات میپردازد
کلیدواژه ها:
نویسندگان
مسعود عگبی
گروه کامپیوتر، واحد اهواز، دانشگاه آزاد اسلامی اهواز، ایران
منصور امینی لاری
گروه کامپیوتر، واحد مرودشت، دانشگاه آزاد اسلامی مرودشت، ایران
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :