طبقهبندی زبان نوشتار در تصاویر اسناد تایپیبا زبان های متفاوت
- سال انتشار: 1392
- محل انتشار: اولین همایش منطقه ای بهینه سازی و روش های محاسبه نرم در مهندسی برق و کامپیوتر
- کد COI اختصاصی: ELECOM01_019
- زبان مقاله: فارسی
- تعداد مشاهده: 645
نویسندگان
دانشجوی کارشناسی ارشد، دانشگاه بین المللی امام رضا(ع)، مشهد
استادیارگروه برق، دانشگاه بین المللی امام رضا(ع)، مشهد
مربی گروه کامپیوتر، دانشگاه بین المللی امام رضا(ع)، مشهد
چکیده
دیدگاه جهان بدون کاغذ، محققان را بر آن داشت تا الگوریتمهای گوناگونی بهمنظور ورود اطلاعات موجود در اسناد، مدارک و سایر مکتوبات به داخل کامپیوتر ارائه دهند. اکثر مقالات با بیان اینکه هر زبان نوشتار ویژگیهای خاص خود را دارا میباشد، فقط میتوانند حروف سندی را شناسایی کنند که دارای یک زبان خاص است. در بررسی اسناد، موارد زیادی وجود دارد که سند دارای دو یا چند زبان متفاوت است. لذا سیستمهای تشخیص متون نیاز به شناسایی چند زبان به صورت همزمان دارند. در این مقاله با انتخاب چند زبان متداول بر مبنای ویژگیهای استخراج شده از ظاهر نوشتار، الگوریتمی برای خوشه بندی زبان در یک سند چند زبانه پیشنهاد شده است. مدل به کار رفته برای طبقهبندی، مدل سلسله مراتبی و طبقه بند مورد استفاده ساختار تصمیمگیری درختی با سطوح آستانه وفقی است. درصد تشخیص به دست آمده بر روی دادههای آزمون شامل تصاویر با سایز، فونت و زبان نوشتار متفاوت 97.1 درصد است که اثر بخشی مدل ارائه شده را اثبات میکند.کلیدواژه ها
استخراج ویژگی، درخت وفقی، شناسایی زبان نوشتار، طبقهبندیمقالات مرتبط جدید
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.