طبقهبندی زبان نوشتار در تصاویر اسناد تایپیبا زبان های متفاوت
سال انتشار: 1392
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 525
فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ELECOM01_019
تاریخ نمایه سازی: 9 تیر 1393
چکیده مقاله:
دیدگاه جهان بدون کاغذ، محققان را بر آن داشت تا الگوریتمهای گوناگونی بهمنظور ورود اطلاعات موجود در اسناد، مدارک و سایر مکتوبات به داخل کامپیوتر ارائه دهند. اکثر مقالات با بیان اینکه هر زبان نوشتار ویژگیهای خاص خود را دارا میباشد، فقط میتوانند حروف سندی را شناسایی کنند که دارای یک زبان خاص است. در بررسی اسناد، موارد زیادی وجود دارد که سند دارای دو یا چند زبان متفاوت است. لذا سیستمهای تشخیص متون نیاز به شناسایی چند زبان به صورت همزمان دارند. در این مقاله با انتخاب چند زبان متداول بر مبنای ویژگیهای استخراج شده از ظاهر نوشتار، الگوریتمی برای خوشه بندی زبان در یک سند چند زبانه پیشنهاد شده است. مدل به کار رفته برای طبقهبندی، مدل سلسله مراتبی و طبقه بند مورد استفاده ساختار تصمیمگیری درختی با سطوح آستانه وفقی است. درصد تشخیص به دست آمده بر روی دادههای آزمون شامل تصاویر با سایز، فونت و زبان نوشتار متفاوت 97.1 درصد است که اثر بخشی مدل ارائه شده را اثبات میکند.
کلیدواژه ها:
نویسندگان
راضیه خدیوی گلکارزاده
دانشجوی کارشناسی ارشد، دانشگاه بین المللی امام رضا(ع)، مشهد
سعید شعرباف
استادیارگروه برق، دانشگاه بین المللی امام رضا(ع)، مشهد
عادل قاضی خانی
مربی گروه کامپیوتر، دانشگاه بین المللی امام رضا(ع)، مشهد
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :