رده بندی متون فارسی با استفاده از متن کاوی و براساس جایگزینی معنایی کلمات
- سال انتشار: 1394
- محل انتشار: اولین کنفرانس ملی محاسبات توزیعی و پردازش داده های بزرگ
- کد COI اختصاصی: DCBDP01_053
- زبان مقاله: فارسی
- تعداد مشاهده: 571
نویسندگان
گروه کامپیوتر ، دانشگاه آزاد اسلامی واحد خوی ، خوی ، ایران
گروه کامپیوتر ، دانشگاه آزاد اسلامی واحد تبریز ، تبریز ، ایران
گروه کامپیوتر ، دانشگاه آزاد اسلامی واحد خوی ، خوی ، ایران
چکیده
با رشد روزافزون متون دیجیتالی و لزوم استفاده از دانش نهفته در آن ، استفاده از روشهای استخراج ویژگی و ردهبندی متون ضروری به نظر میرسد. لذا با توجه به این که اکثر روشهای موجود متن کاوی برای زبانهای گسسته مانند انگلیسی طراحی شدهاند و با ویژگیهای خاص زبان فارسی سازگاری ندارند ، باید با ایجاد تغییراتی در این الگوریتم ها سعی در انطباق آنها با زبان فارسی داشته باشیم. برای نیل به این هدف سعی شدهاست، روشی منطبق بر ویژگی های زبان فارسی ارایه گردد. یکی از مهمترین مسایل در ردهبندی متونفارسی ، فضای ویژگی بزرگ اسناد است . اکثر این ویژگیها ، بهعنوان کلمات توقف شناخته میشوند که نامربوط و زاید هستند و صرفا باعث کاهش کار آیی الگوریتمهای ردهبندی مورداستفاده میشوند. ازاینرو در این مقاله به بیان فنهای انتخاب ویژگی برای کاهش ابعاد فضای ویژگی و بهبود سه معیار اصلی دقت و فراخوانی و کارایی کل در روشهای رده بندی می پردازیم. برای این منظور در فاز پیشپردازش علاوه بر مراحل مرسوم اقدام بهجایگزینی املایی و معنایی کلمات نموده و سپس در مرحله استخراج ویژگی پس از ایجاد بردار ویژگی با روش اطلاعات متقابل یکی از ویژگیهای استخراج شده را که دارای بهترین درصد بهدست آمده است را جهت بسط بردار ویژگی انتخاب و بردار معادل معنایی را برای این ویژگی تشکیل میدهیم و دو بردار بهدستآمده را درنهایت باهم ادغام میکنیم . نتایج آزمایشها بر روی متون مجموعه خبری همشهری با نرم افزار Weka الگوریتم های ماشین بردار پشتیبان ، درخت تصمیم و بیزین ساده نشان الگوریتم های ماشین بردار پشتیبان ، درخت تصمیم و بیزین ساده نشان و بیزین ساده نشان دهنده عملکرد بهتر روش پیشنهادی در مقایسه با سایر روشهای موجود است. این مقاله مشتمل بر 8 بخش می باشد که در 3 بخش بررسی روشهای موجود پرداخته شده است و از بخش 4 به بیان روش پیشنهادی و نتایج حاصل از آن پرداخته ایم.کلیدواژه ها
ردهبندیمتون فارسی ، انتخاب ویژگی ، کاهش فضای ویژگی ، بسط معنایی بردار ویژگی feature selection ، text mining ،مقالات مرتبط جدید
- بررسی اجمالی اینترنت اشیاء و مشکلات امنیتی آن
- نقش فرماندهی و کنترل و سامانه های آن در نبرد های آینده
- نقش فناوری های بدون سرنشین در عملیات جنگ نوین
- نقش زیرساخت های نظامی سایبری در کنترل میدان جنگ (اقدامات الکترومغناطیسی سایبری)
- طراحی و شبیه سازی دروازه منطقی تمام نوری AND مبتنی بر بلور فوتونی با ابعاد کم و مناسب برای مدارهای مجتمع نوری
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.