ارایه روشی جهت جداسازی زیر کلمات در اسناد تایپی فارسی به کمک پردازش تصویر و ویژگی های آماری

احسان قمی; رضا طاولی

ارایه روشی جهت جداسازی زیر کلمات در اسناد تایپی فارسی به کمک پردازش تصویر و ویژگی های آماری

محل انتشار: اولین همایش ملی مهندسی کامپیوتر و فناوری اطلاعات

سال انتشار: 1395

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 548

فایل این مقاله در 12 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > پردازش تصویر

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/668562

شناسه ملی سند علمی:

CEITECH01_042

تاریخ نمایه سازی: 17 آبان 1396

چکیده مقاله:

هدف این مقاله ارایه روش جهت جداسازی زیرکلمات با استفاده از ویژگی های آماری استخراج شده از اسناد تایپیفارسی میباشد. جداسازی زیرکلمات در یک سند یکی از مهمترین مراحل پیشپردازش، جهت آنالیز مکانیابی و بازشناسیکلمات در یک سند است. کلمات فارسی برخلاف کلمات انگلیسی از زیرکلمات تشکیل شدهاند. با جستجوی زیرکلمات میتوانبا استفاده از ویژگیهای استخراج شده آنها کلمه مورد نظر را در صورت اینکه در سند موجود باشد مکانیابی نمود. اینبررسی پس از جداسازی خطوط و زیرکلمات در سند با استفاده از ویژگی های آماری و ساختاری آنها به ایجاد الگو برای تکتک زیرکلمات و ذخیرهسازی در یک آرایه به عنوان پایگاه داده میپردازد. با فرض بر اینکه اسناد موجود برای جداسازیخطوط، باینری میباشد و خطوط موجود در اسناد در آرایه ای از ماتریس ها به صورت جداگانه در اندیس های آرایه ای ذخیرهشده است. در ابتدا برای تک تک خطوط جدا شده در اسناد مورد نظر الگوریتم نوشته شده اجرا می گردد و با تشخیص وجداسازی زیرکلمات آنها را در ماتریس های جداگانه برای استفاده ذخیره می نماید. در این روش با استفاده از مقادیر بدستآمده از ویژگی های آماری ماتریس خطوط، با در نظر گرفتن پیوستگی ستونی زیرکلمات جدا سازی آنها انجام می شود. نتایجبدست آمده از بررسی روش بکاربرده شده برای 55 سند تایپی با فونت های متداول و اندازه های مختلف نشان می دهد کهجداسازی تقریبا برای 99 % زیرکلمات در این اسناد، با فونت های رایج Nazanin, BNazanin, Zar, BZar, Mitra, Lotus, Blotus و همچنین فونت های مشابه با موفقیت انجام می پذیرد.

کلیدواژه ها:

زیرکلمات ، اسناد تایپی فارسی ، ویژگی آماری ، پردازش تصویر ، پایگاه داده ، مکانیابی کلمات

نویسندگان

احسان قمی

دانش آموخته کارشناسی ارشد مهندسی کامپیوتر گرایش نرم افزار دانشگاه آزاد اسلامی واحد چالوس

رضا طاولی

عضو هیات علمی دانشگاه آزاد اسلامی واحد چالوس گروه مهندسی کامپیوتر