شناسایی حروف چاپی فارسی با استفاده از دسته بندهای ماشین بردار پشتیبان

سال انتشار: 1396
محل انتشار: دومین کنفرانس بین المللی پژوهش های دانش بنیان در مهندسی کامپیوتر و فناوری اطلاعات
کد COI اختصاصی: CITCOMP02_277
زبان مقاله: فارسی
تعداد مشاهده: 828

نویسندگان

دانشیار گروه کامپیوتر، دانشگاه باهنر، کرمان، ایران

گروه کامپیوتر، موسسه آموزش عالی بهمنیار کرمان، کرمان، ایران

چکیده

یکی از تحولات عمده یادگیری ماشین، ارایه روش های ترکیبی است که با استفاده از ترکیب نتایج چندین دسته بند جزء، یک دسته بند بسیار دقیق ایجاد می شود. در این مقاله روشی برای ترکیب دسته بندی ها ارایه و بر روی مجموعه ای از حروف چاپی فارسی مورد آزمایش قرار گرفته است. این روش در هر مرحله تکرار، داده های ورودی را به صورت تصادفی به چند دسته تقسیم می کند سپس بر روی هر دسته روش آنالیز اجزای اصلی را اعمال کرده و ویژگی ها را استخراج می کند. بردار ویژگی نهایی از ادغام این ویژگی ها ایجاد و با دسته بند ماشین بردار پشتیبان، آموزش داده می شود. ویژگی این روش نسبت به سایر روش های ترکیبی افزایش همزمان درصد صحت دسته بند پایه و پراکندگی نمونه ها در هر مرحله است. با استفاده از این روش به طور متوسط درصد صحت ماشین بردار پشتیبان برای داده های حروف چاپی فارسی بهبود یافته است.

کلیدواژه ها

باز شناسایی حروف چاپی فارسی، دسته بندی حروف، استخراج ویژگی ها، ماشین بردار پشتیبان، فناوری Optical Character Reader (OCR)

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.