تشخیص خط نستعلیق با استفاده از یک روش کارآمد طبقه بندی ترکیبی
- سال انتشار: 1397
- محل انتشار: دومین کنفرانس نوآوری در علوم کامپیوتر و مهندسی برق
- کد COI اختصاصی: ICSEE02_027
- زبان مقاله: فارسی
- تعداد مشاهده: 1374
نویسندگان
دانشجوی دوره کارشناسی ارشد فناوری اطلاعات موسسه آموزش عالی ادیبان
دانشجوی دوره دکتری مهندسی کامپیوتر دانشگاه تهران
چکیده
بازشناسی نویسه از جمله عناوین پژوهشی است که در بسیاری از کاربردهای تجاری و اداری نقش مهمی ایفا میکند. امروزه نسبت به گذشته کتب، اسناد و مدارک، پیش از پیش به سمت تولید و نگهداری دیجیتال پیشرفته اند. این پیشرفت باعث ایجاد نیازهای جدیدی در کاربران شده است که عبارتند از؛ جستجو در متن- ویرایش محتوای فایلهای دیجیتالی و ذخیره سازی فایلها با فرمت دلخواه. از آنجایی که خط نستعلیق از عمومی ترین و کاربردیترین خطوط محبوب در شعر و ادب فارسی میباشد، شناسایی کاراکترهای خط نستعلیق به دلیل خاصیت همپوشانی و مورب بودن حروف، بسیار دشوارتر از سایر خطوط میباشند. در مقاله ی جاری به منظور شناسایی حروف تایپی تصاویر دیجیتالی با فونت نستعلیق، داده های ورودی را به وسیله ی کامپیوتر با نرم افزار فتوشاپ با فونت ایران نستعلیق ایجاد نمودیم. با توجه به سیستم پیشنهادی، در مرحله ی پیش پردازش داده های ورودی را برای تسهیل در روند اجرای مراحل بعدی آماده کرده و در مرحله ی تقطیع کلمه ی ورودی را به حروف سازنده اش تقسیم نمودیم، سپس در مرحله ی استخراج ویژگی با استفاده از آنالیز اجزای اصلی ویژگیهای تصاویر را استخراج نموده و در نهایت در مرحله ی شناسایی با کمک تکنیک ترکیب گروهی به شناسایی داده های ورودی میپردازیم. در پایان کار، با سنجش کارایی سیستم دریافتیم روش جنگل تصادفی با میزان صحت بالا، عملکرد مناسبی دارد. برای اثبات این ادعا روش جنگل تصادفی را با روش های SVM و DT مقایسه نمودیم، نتایج نشان می دهد استفاده از روش جنگل تصادفی عملکرد سیستم را نسبت به درخت تصمیم منفرد و ماشین بردار پشتیبان بطور قابل توجهی بهبود داده است.کلیدواژه ها
OCR نستعلیق فارسی، تقطیع، آنالیز اجزای اصلی، درخت تصمیم، جنگل تصادفی.مقالات مرتبط جدید
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.