رده بندی متون فارسی با استفاده از متن کاوی و براساس جایگزینی معنایی کلمات

سال انتشار: 1394
محل انتشار: اولین کنفرانس ملی محاسبات توزیعی و پردازش داده های بزرگ
کد COI اختصاصی: DCBDP01_053
زبان مقاله: فارسی
تعداد مشاهده: 571

دانلود فایل این مقاله

نویسندگان

امیر اباذرلو

گروه کامپیوتر ، دانشگاه آزاد اسلامی واحد خوی ، خوی ، ایران

محمدباقر کریمی

گروه کامپیوتر ، دانشگاه آزاد اسلامی واحد تبریز ، تبریز ، ایران

عبدالرضا حاتملو

گروه کامپیوتر ، دانشگاه آزاد اسلامی واحد خوی ، خوی ، ایران

چکیده

با رشد روزافزون متون دیجیتالی و لزوم استفاده از دانش نهفته در آن ، استفاده از روشهای استخراج ویژگی و ردهبندی متون ضروری به نظر میرسد. لذا با توجه به این که اکثر روشهای موجود متن کاوی برای زبانهای گسسته مانند انگلیسی طراحی شدهاند و با ویژگیهای خاص زبان فارسی سازگاری ندارند ، باید با ایجاد تغییراتی در این الگوریتم ها سعی در انطباق آنها با زبان فارسی داشته باشیم. برای نیل به این هدف سعی شدهاست، روشی منطبق بر ویژگی های زبان فارسی ارایه گردد. یکی از مهمترین مسایل در ردهبندی متونفارسی ، فضای ویژگی بزرگ اسناد است . اکثر این ویژگیها ، بهعنوان کلمات توقف شناخته میشوند که نامربوط و زاید هستند و صرفا باعث کاهش کار آیی الگوریتمهای ردهبندی مورداستفاده میشوند. ازاینرو در این مقاله به بیان فنهای انتخاب ویژگی برای کاهش ابعاد فضای ویژگی و بهبود سه معیار اصلی دقت و فراخوانی و کارایی کل در روشهای رده بندی می پردازیم. برای این منظور در فاز پیشپردازش علاوه بر مراحل مرسوم اقدام بهجایگزینی املایی و معنایی کلمات نموده و سپس در مرحله استخراج ویژگی پس از ایجاد بردار ویژگی با روش اطلاعات متقابل یکی از ویژگیهای استخراج شده را که دارای بهترین درصد بهدست آمده است را جهت بسط بردار ویژگی انتخاب و بردار معادل معنایی را برای این ویژگی تشکیل میدهیم و دو بردار بهدستآمده را درنهایت باهم ادغام میکنیم . نتایج آزمایشها بر روی متون مجموعه خبری همشهری با نرم افزار Weka الگوریتم های ماشین بردار پشتیبان ، درخت تصمیم و بیزین ساده نشان الگوریتم های ماشین بردار پشتیبان ، درخت تصمیم و بیزین ساده نشان و بیزین ساده نشان دهنده عملکرد بهتر روش پیشنهادی در مقایسه با سایر روشهای موجود است. این مقاله مشتمل بر 8 بخش می باشد که در 3 بخش بررسی روشهای موجود پرداخته شده است و از بخش 4 به بیان روش پیشنهادی و نتایج حاصل از آن پرداخته ایم.

کلیدواژه ها

ردهبندیمتون فارسی ، انتخاب ویژگی ، کاهش فضای ویژگی ، بسط معنایی بردار ویژگی feature selection ، text mining ،

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.