ارایه روشی جهت جداسازی زیر کلمات در اسناد تایپی فارسی به کمک پردازش تصویر و ویژگی های آماری

سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 548

فایل این مقاله در 12 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CEITECH01_042

تاریخ نمایه سازی: 17 آبان 1396

چکیده مقاله:

هدف این مقاله ارایه روش جهت جداسازی زیرکلمات با استفاده از ویژگی های آماری استخراج شده از اسناد تایپیفارسی میباشد. جداسازی زیرکلمات در یک سند یکی از مهمترین مراحل پیشپردازش، جهت آنالیز مکانیابی و بازشناسیکلمات در یک سند است. کلمات فارسی برخلاف کلمات انگلیسی از زیرکلمات تشکیل شدهاند. با جستجوی زیرکلمات میتوانبا استفاده از ویژگیهای استخراج شده آنها کلمه مورد نظر را در صورت اینکه در سند موجود باشد مکانیابی نمود. اینبررسی پس از جداسازی خطوط و زیرکلمات در سند با استفاده از ویژگی های آماری و ساختاری آنها به ایجاد الگو برای تکتک زیرکلمات و ذخیرهسازی در یک آرایه به عنوان پایگاه داده میپردازد. با فرض بر اینکه اسناد موجود برای جداسازیخطوط، باینری میباشد و خطوط موجود در اسناد در آرایه ای از ماتریس ها به صورت جداگانه در اندیس های آرایه ای ذخیرهشده است. در ابتدا برای تک تک خطوط جدا شده در اسناد مورد نظر الگوریتم نوشته شده اجرا می گردد و با تشخیص وجداسازی زیرکلمات آنها را در ماتریس های جداگانه برای استفاده ذخیره می نماید. در این روش با استفاده از مقادیر بدستآمده از ویژگی های آماری ماتریس خطوط، با در نظر گرفتن پیوستگی ستونی زیرکلمات جدا سازی آنها انجام می شود. نتایجبدست آمده از بررسی روش بکاربرده شده برای 55 سند تایپی با فونت های متداول و اندازه های مختلف نشان می دهد کهجداسازی تقریبا برای 99 % زیرکلمات در این اسناد، با فونت های رایج Nazanin, BNazanin, Zar, BZar, Mitra, Lotus, Blotus و همچنین فونت های مشابه با موفقیت انجام می پذیرد.

نویسندگان

احسان قمی

دانش آموخته کارشناسی ارشد مهندسی کامپیوتر گرایش نرم افزار دانشگاه آزاد اسلامی واحد چالوس

رضا طاولی

عضو هیات علمی دانشگاه آزاد اسلامی واحد چالوس گروه مهندسی کامپیوتر