طبقهبندی زبان نوشتار در تصاویر اسناد تایپیبا زبان های متفاوت

سال انتشار: 1392
محل انتشار: اولین همایش منطقه ای بهینه سازی و روش های محاسبه نرم در مهندسی برق و کامپیوتر
کد COI اختصاصی: ELECOM01_019
زبان مقاله: فارسی
تعداد مشاهده: 685

دانلود فایل این مقاله

نویسندگان

راضیه خدیوی گلکارزاده

دانشجوی کارشناسی ارشد، دانشگاه بین المللی امام رضا(ع)، مشهد

سعید شعرباف

استادیارگروه برق، دانشگاه بین المللی امام رضا(ع)، مشهد

عادل قاضی خانی

مربی گروه کامپیوتر، دانشگاه بین المللی امام رضا(ع)، مشهد

چکیده

دیدگاه جهان بدون کاغذ، محققان را بر آن داشت تا الگوریتمهای گوناگونی بهمنظور ورود اطلاعات موجود در اسناد، مدارک و سایر مکتوبات به داخل کامپیوتر ارائه دهند. اکثر مقالات با بیان اینکه هر زبان نوشتار ویژگیهای خاص خود را دارا میباشد، فقط میتوانند حروف سندی را شناسایی کنند که دارای یک زبان خاص است. در بررسی اسناد، موارد زیادی وجود دارد که سند دارای دو یا چند زبان متفاوت است. لذا سیستمهای تشخیص متون نیاز به شناسایی چند زبان به صورت همزمان دارند. در این مقاله با انتخاب چند زبان متداول بر مبنای ویژگیهای استخراج شده از ظاهر نوشتار، الگوریتمی برای خوشه بندی زبان در یک سند چند زبانه پیشنهاد شده است. مدل به کار رفته برای طبقهبندی، مدل سلسله مراتبی و طبقه بند مورد استفاده ساختار تصمیمگیری درختی با سطوح آستانه وفقی است. درصد تشخیص به دست آمده بر روی دادههای آزمون شامل تصاویر با سایز، فونت و زبان نوشتار متفاوت 97.1 درصد است که اثر بخشی مدل ارائه شده را اثبات میکند.

کلیدواژه ها

استخراج ویژگی، درخت وفقی، شناسایی زبان نوشتار، طبقهبندی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.