استخراج خطوط در اسناد دست نویس فارسی مبتنی بر خوشه بندی سلسله مراتبی
محل انتشار: هشتمین کنفرانس بین المللی فناوری اطلاعات ودانش
سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 671
فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ICIKT08_079
تاریخ نمایه سازی: 5 بهمن 1395
چکیده مقاله:
استخراج خط از اسناد دست نویس یکی از مهمترین مراحل پیش پردازش درآنالیز اسناد مانند درک اسناد تصویری، شناسایی متوندستنویس یا چاپی و جستجوی کلمه در اسناد تصویری (Word Spotting) است. تنوع در فاصله بین خطوط، فاصله بین کلمات یک خطو شیب خط و همچنین اتصال و همپوشانی بین خطوط باعث شده که این مسئله یک چالش بزرگ باقی بماند. این مشکل در زبانهایی بارسم الخط بهم چسبیده، مانند فارسی و عربی، بخاطر وجود فاصله بین زیرکلمات و همچنین تنوع در تعداد و محل نقاط و وجود سرکشبسیار پیچیده تر می باشد. در این مقاله یک رهیافت جدید برای استخراج و قطعه بندی خطوط در متن دستنویس فارسی ارائه شده است. یکروش خوشه بندی سلسله مراتبی (Hierarchical Clustering) براساس نزدیکترین فاصله (Single-Linkage) با یک معیار فاصله جدیدکه ساختار نگارش فارسی را در نظر می گیرد برای خوشه بندی اجزاء متصل ((Connected Component (CC) مورد استفاده قرار گرفتهاست. سپس یک سری قواعد براساس شیب خط و ساختار زبان فارسی جهت اتصال و جداسازی خوشه های بدست آمده اعمال شده است.پارامترهای مورد استفاده براساس سند بصورت وفقی تعیین می گردند. تست این روش روی دو مجموعه داده استاندارد نتایج قابل قبولی رانشان می دهد.
کلیدواژه ها:
نویسندگان
مجید ایرانپورمبارکه
دانشجوی دکتری دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی شاهرود
علیرضا احمدی فرد
دانشیاردانشکده مهندسی برق و رباتیک، دانشگاه صنعتی شاهرود