تشخیص خط نستعلیق با استفاده از یک روش کارآمد طبقه بندی ترکیبی

سال انتشار: 1397
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,135

فایل این مقاله در 15 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICSEE02_027

تاریخ نمایه سازی: 8 تیر 1398

چکیده مقاله:

بازشناسی نویسه از جمله عناوین پژوهشی است که در بسیاری از کاربردهای تجاری و اداری نقش مهمی ایفا میکند. امروزه نسبت به گذشته کتب، اسناد و مدارک، پیش از پیش به سمت تولید و نگهداری دیجیتال پیشرفته اند. این پیشرفت باعث ایجاد نیازهای جدیدی در کاربران شده است که عبارتند از؛ جستجو در متن- ویرایش محتوای فایلهای دیجیتالی و ذخیره سازی فایلها با فرمت دلخواه. از آنجایی که خط نستعلیق از عمومی ترین و کاربردیترین خطوط محبوب در شعر و ادب فارسی میباشد، شناسایی کاراکترهای خط نستعلیق به دلیل خاصیت همپوشانی و مورب بودن حروف، بسیار دشوارتر از سایر خطوط میباشند. در مقاله ی جاری به منظور شناسایی حروف تایپی تصاویر دیجیتالی با فونت نستعلیق، داده های ورودی را به وسیله ی کامپیوتر با نرم افزار فتوشاپ با فونت ایران نستعلیق ایجاد نمودیم. با توجه به سیستم پیشنهادی، در مرحله ی پیش پردازش داده های ورودی را برای تسهیل در روند اجرای مراحل بعدی آماده کرده و در مرحله ی تقطیع کلمه ی ورودی را به حروف سازنده اش تقسیم نمودیم، سپس در مرحله ی استخراج ویژگی با استفاده از آنالیز اجزای اصلی ویژگیهای تصاویر را استخراج نموده و در نهایت در مرحله ی شناسایی با کمک تکنیک ترکیب گروهی به شناسایی داده های ورودی میپردازیم. در پایان کار، با سنجش کارایی سیستم دریافتیم روش جنگل تصادفی با میزان صحت بالا، عملکرد مناسبی دارد. برای اثبات این ادعا روش جنگل تصادفی را با روش های SVM و DT مقایسه نمودیم، نتایج نشان می دهد استفاده از روش جنگل تصادفی عملکرد سیستم را نسبت به درخت تصمیم منفرد و ماشین بردار پشتیبان بطور قابل توجهی بهبود داده است.

نویسندگان

مهسا شکوهی

دانشجوی دوره کارشناسی ارشد فناوری اطلاعات موسسه آموزش عالی ادیبان

حامد شیدائیان

دانشجوی دوره دکتری مهندسی کامپیوتر دانشگاه تهران