رده بندی متون فارسی با استفاده از متن کاوی و براساس جایگزینی معنایی کلمات

امیر اباذرلو; محمدباقر کریمی; عبدالرضا حاتملو

رده بندی متون فارسی با استفاده از متن کاوی و براساس جایگزینی معنایی کلمات

محل انتشار: اولین کنفرانس ملی محاسبات توزیعی و پردازش داده های بزرگ

سال انتشار: 1394

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 837

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > متن کاوی

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/590358

شناسه ملی سند علمی:

DCBDP01_053

تاریخ نمایه سازی: 19 خرداد 1396

چکیده مقاله:

با رشد روزافزون متون دیجیتالی و لزوم استفاده از دانش نهفته در آن ، استفاده از روشهای استخراج ویژگی و ردهبندی متون ضروری به نظر میرسد. لذا با توجه به این که اکثر روشهای موجود متن کاوی برای زبانهای گسسته مانند انگلیسی طراحی شدهاند و با ویژگیهای خاص زبان فارسی سازگاری ندارند ، باید با ایجاد تغییراتی در این الگوریتم ها سعی در انطباق آنها با زبان فارسی داشته باشیم. برای نیل به این هدف سعی شدهاست، روشی منطبق بر ویژگی های زبان فارسی ارایه گردد. یکی از مهمترین مسایل در ردهبندی متونفارسی ، فضای ویژگی بزرگ اسناد است . اکثر این ویژگیها ، بهعنوان کلمات توقف شناخته میشوند که نامربوط و زاید هستند و صرفا باعث کاهش کار آیی الگوریتمهای ردهبندی مورداستفاده میشوند. ازاینرو در این مقاله به بیان فنهای انتخاب ویژگی برای کاهش ابعاد فضای ویژگی و بهبود سه معیار اصلی دقت و فراخوانی و کارایی کل در روشهای رده بندی می پردازیم. برای این منظور در فاز پیشپردازش علاوه بر مراحل مرسوم اقدام بهجایگزینی املایی و معنایی کلمات نموده و سپس در مرحله استخراج ویژگی پس از ایجاد بردار ویژگی با روش اطلاعات متقابل یکی از ویژگیهای استخراج شده را که دارای بهترین درصد بهدست آمده است را جهت بسط بردار ویژگی انتخاب و بردار معادل معنایی را برای این ویژگی تشکیل میدهیم و دو بردار بهدستآمده را درنهایت باهم ادغام میکنیم . نتایج آزمایشها بر روی متون مجموعه خبری همشهری با نرم افزار Weka الگوریتم های ماشین بردار پشتیبان ، درخت تصمیم و بیزین ساده نشان الگوریتم های ماشین بردار پشتیبان ، درخت تصمیم و بیزین ساده نشان و بیزین ساده نشان دهنده عملکرد بهتر روش پیشنهادی در مقایسه با سایر روشهای موجود است. این مقاله مشتمل بر 8 بخش می باشد که در 3 بخش بررسی روشهای موجود پرداخته شده است و از بخش 4 به بیان روش پیشنهادی و نتایج حاصل از آن پرداخته ایم.

کلیدواژه ها:

ردهبندیمتون فارسی ، انتخاب ویژگی ، کاهش فضای ویژگی ، بسط معنایی بردار ویژگی feature selection ، text mining ،

نویسندگان

امیر اباذرلو

گروه کامپیوتر ، دانشگاه آزاد اسلامی واحد خوی ، خوی ، ایران

محمدباقر کریمی

گروه کامپیوتر ، دانشگاه آزاد اسلامی واحد تبریز ، تبریز ، ایران

عبدالرضا حاتملو

گروه کامپیوتر ، دانشگاه آزاد اسلامی واحد خوی ، خوی ، ایران