استخراج خطوط در اسناد دست نویس فارسی مبتنی بر خوشه بندی سلسله مراتبی

سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 573

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICIKT08_079

تاریخ نمایه سازی: 5 بهمن 1395

چکیده مقاله:

استخراج خط از اسناد دست نویس یکی از مهمترین مراحل پیش پردازش درآنالیز اسناد مانند درک اسناد تصویری، شناسایی متوندستنویس یا چاپی و جستجوی کلمه در اسناد تصویری (Word Spotting) است. تنوع در فاصله بین خطوط، فاصله بین کلمات یک خطو شیب خط و همچنین اتصال و همپوشانی بین خطوط باعث شده که این مسئله یک چالش بزرگ باقی بماند. این مشکل در زبانهایی بارسم الخط بهم چسبیده، مانند فارسی و عربی، بخاطر وجود فاصله بین زیرکلمات و همچنین تنوع در تعداد و محل نقاط و وجود سرکشبسیار پیچیده تر می باشد. در این مقاله یک رهیافت جدید برای استخراج و قطعه بندی خطوط در متن دستنویس فارسی ارائه شده است. یکروش خوشه بندی سلسله مراتبی (Hierarchical Clustering) براساس نزدیکترین فاصله (Single-Linkage) با یک معیار فاصله جدیدکه ساختار نگارش فارسی را در نظر می گیرد برای خوشه بندی اجزاء متصل ((Connected Component (CC) مورد استفاده قرار گرفتهاست. سپس یک سری قواعد براساس شیب خط و ساختار زبان فارسی جهت اتصال و جداسازی خوشه های بدست آمده اعمال شده است.پارامترهای مورد استفاده براساس سند بصورت وفقی تعیین می گردند. تست این روش روی دو مجموعه داده استاندارد نتایج قابل قبولی رانشان می دهد.

کلیدواژه ها:

آنالیز اسناد تصویری ، استخراج خط ، اسناد دست نویس فارسی ، خوشه بندی سلسله مراتبی

نویسندگان

مجید ایرانپورمبارکه

دانشجوی دکتری دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی شاهرود

علیرضا احمدی فرد

دانشیاردانشکده مهندسی برق و رباتیک، دانشگاه صنعتی شاهرود