بهبود بازشناسی متن فارسی با استفاده از اطلاعات در سطح کلمات
- سال انتشار: 1396
- محل انتشار: سومین کنفرانس بین المللی بازشناسی الگو و تحلیل تصویر ایران
- کد COI اختصاصی: IPRIA03_058
- زبان مقاله: فارسی
- تعداد مشاهده: 956
نویسندگان
دانشجو مقطع کارشناسی ارشد دانشگاه الزهرا (س)
دانشیارگروه مهندسی کامپیوتر دانشگاه الزهرا (س)
چکیده
در این مقاله روشی برای بهبود بازشناسی تصاویر متون چاپی فارسی با استفاده از اطلاعات آماری زبان در سطح کلمات ارایه شده است. در این روش ابتدا تصویر براساس روش مبتنی بر شکل کلی زیرکلمات بازشناسی می شود و برای هر زیرکلمه، زیرکلمات محتمل دیگر ازخروجی سیستم OCR دریافت می گردند، سپس تصحیح خطا با استفاده از اطلاعات مدل زبانی بایگرم در سطح کلمه انجام می گردد. در این روشبرای به دست آوردن کلمات محتمل از مدل مخفی مارکوف استفاده شده است. برای آزمایش روش های پیشنهادی، 19 سند با چهار فونتB Lotus, B Mitra, B Nazanin و B Yagut با اندازه های 14، 16، 18، 20 فراهم گردید. بازشناسی در سطح زیر کلمه با دقت حدود 88 درصد و اصلاح خطا در سطح کلمات دقت را به حدود 92 درصد افزایش داده است.کلیدواژه ها
؛OCR، پردازش زبان طبیعی، مدل مخفی مارکوف، مدل بایگرم، متن چاپیمقالات مرتبط جدید
- سودآوری مشتریان در خردهفروشی قطعات یدکی ماشین آلات راهسازی با رویکرد یادگیری ماشین
- ارائه روشی کارآمد جهت شناسایی کودکان نیازمند به پیوند مغز استخوان با استفاده از ترکیب طبقه بند ماشین بردار پشتیبان و الگوریتم بهینه سازی فاخته
- استخراج بهینه پارامترهای تاثیر گذار الگوریتم بهینه سازی بوفالوی آفریقایی با هدف استخراج ویژگی های مهم به منظور افزایش کارایی طبقه بندی داده ها
- ارائه روشی کارآمد برای بهبود عملکرد الگوریتم بهینه سازی کلاغ سیاه به منظور افزایش صحت خوشه بندی داده ها
- استفاده از الگوریتم باور بیزین در لایه کاملا متصل شبکه عصبی کانولوشن با هدف افزایش دقت تشخیص تصاویر
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.