An efficient hierarchical method for text region extraction in degraded document images
- سال انتشار: 1387
- محل انتشار: پنجمین کنفرانس ماشین بینایی و پردازش تصویر
- کد COI اختصاصی: ICMVIP05_046
- زبان مقاله: انگلیسی
- تعداد مشاهده: 2723
نویسندگان
Department of Electrical Engineering, tarbiat modares university,Tehran, Iran
Department of Electrical Engineering, tarbiat modares university,Tehran, Iran
Department of Electrical Engineering, tarbiat modares university,Tehran, Iran
چکیده
This paper presents a clustering based method to extract text regions from degraded document images. In this method the gray scale image is decomposed into four sub-bands using discrete wavelet transform. For each pixel, the corresponding components of 3 detail sub-bands are considered as feature vector. Potential text regions are extracted by k-means clustering algorithm. We propose several heuristic constrains by which candidate text regions are refined to eliminate non-text regions. Evaluation over a set of degraded documents captured with camera, our method shows satisfactory results.کلیدواژه ها
text extraction, degraded document, clustering, discrete wavelet transform, document segmentationمقالات مرتبط جدید
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.