دسته بندی اسناد فارسی با استفاده از الگوریتم KNN
- سال انتشار: 1386
- محل انتشار: دهمین کنفرانس دانشجویی مهندسی برق ایران
- کد COI اختصاصی: ISCEE10_224
- زبان مقاله: فارسی
- تعداد مشاهده: 2683
نویسندگان
دانشگاه صنعتی اصفهان، دانشگاه اصفهان
چکیده
در چند سال اخیرالگوریتمهای زیادی برای مسأله دسته بندی اسناد، پیشنهاد شده است. اغلب کارهای انجام شده بر روی اسنادی به زبان انگلیسی بوده و اخیراً در مورد زبانهایی مثل چینی، عربی و... کارهایی انجام شده است. در این مقاله یک دسته بند اسناد فارسی با استفاده از الگوریتمKNN پیشنهاد شده و دلیل استفاده از این الگوریتم موفقیت زیاد آن در دسته بندی اسناد مشابه در زبان انگلیسی بوده است این دسته بند را بوسیله 540 متن فارسی که از روزنامه های آنلاین گرفته شده بود آموزش داده و بر روی 60 متن مشابه آزمایش کردیم. متن ها به 6 دسته تقسیم شده بودند که در بین این دسته ها، متن های متعلق به دسته های ورزشی، پزشکی و سیاسی بهتر از بقیه دسته بندی شدند. معیار استفاده شده برای سنجش، دقت میکرو و یادآوری میکرو بود که در بهترین حالت برای متن های ورزشی به 0,92 رسیدکلیدواژه ها
استخراج ویژگیها ، الگوریتمKNN،دسته بندی متن، نمایش برداری ویژگیهامقالات مرتبط جدید
- مینیمالیسم در ui
- تشخیص احساسات در تست قابلیت استفاده: چارچوبی برای بهبود طراحی رابط کاربری وب اپلیکیشن
- Improving vehicle ride comfort using PID Controller Tuned by Particle Swarm Optimization an MR-Damped in a full-car model
- بهبود تخلیه ربات های ابری با شبکه عصبی عمیق در اینترنت اشیا
- مدلسازی و شبیه سازی پیل سوختی غشاء تبادل پروتون (PEMFC) همراه مبدل باک با کنترلر مد لغزشی-فازی
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.