جداسازی خطوط متن و استخراج برون خط دنباله ای از مولفه های متصل در دست نوشته فارسی

سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 715

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICMVIP09_040

تاریخ نمایه سازی: 6 اسفند 1395

چکیده مقاله:

در این مقاله روشی برای جداسازی خطوط متن در دست نوشته فارسی با استفاده از استخراج برون خط دنباله ای از مولفه های متصل ارائه شده است. در این روش ابتدا کل مولفه های متصل موجود در متن استخراج شده سپس مولفه ی متصل که شروع کننده هر خط است مشخص می شود. در ادامه با اعمال روش نزدیک ترین همسایه، تمام مولفه های متصل هر خط بصورت یک زنجیره و به همان ترتیبی که در متن قرار دارند بدست می ایند. در نتیجه بعد از این مرحله، هر یک از مولفه های متصل موجود در متن به یکی از خطوط اختصاص یافته اند. در واقع می توان هر خط را با مولفه های متصلش به طور مستقل از مابقی خطوط نمایش داد. نتیجه این مرحله جداسازی خطوط از یکدیگر می باشد. در مرحله ی بعدی با در نظر گرفتن این قانون که اکثر حروف اضافه و کلمات فارسی از ترکیب دو تا هفت مولفه متصل تشکیل شده اند استخراج کلمات متن انجام می شود. مولفه های متصلی که مربوط به یک کلمه مستقل در متن هستند به همان ترتیبی که در کلمه وجود دارند با این روش شناسایی شده اند. نرخ آشکارسازی در مرحله جداسازی خطوط برابر با ۹۹.۵ درصد می باشد. درصد دقت در مرحله استخراج دنباله ای از مولفه های متصل، ۹۴.۳۶ برای کلمات و ۹۷.۶ برای حروف اضافه است.

کلیدواژه ها:

جداسازی خطوط متن ، پردازش اسناد دست نویس فارسی ، مولفه متصل

نویسندگان

بهاره اسدی

دانشگاه شاهرود، بخش مهندسی برق

علیرضا احمدی فرد

دانشگاه شاهرود، بخش مهندسی برق

مجید ایران پور مبارکه

دانشگاه شاهرود، بخش مهندسی کامپیوتر و فناوری اطلاعات