استفاده از یادگیری استقرایی قوانین برای جداسازی تصویری کلمات فارسی و لاتین
- سال انتشار: 1381
- محل انتشار: هشتمین کنفرانس سالانه انجمن کامپیوتر ایران
- کد COI اختصاصی: ACCSI08_031
- زبان مقاله: فارسی
- تعداد مشاهده: 1433
نویسندگان
دانشگاه تربیت مدرس، دانشکده فنی و مهندسی، بخش مهندسی برق
دانشگاه تربیت مدرس، دانشکده فنی و مهندسی، بخش مهندسی برق
دانشگاه تربیت مدرس، دانشکده فنی و مهندسی، بخش مهندسی برق
چکیده
برای بازشناسی اسناد چند زبانه باید بتوان بهطور خودکار نوع زبان هر کلمه را تشخیص داد. در این مقاله، با استفاده از یادگیری استقرایی قوانین، روشی برای جداسازی تصویری کلمات فارسی و لاتین در متون چاپی ارائه میشود. در روش پیشنعادی از 6 ویژگی تصویری استفاده شده است. مجموعه ویژگی های استخراجشده از 896 نمونه آموزشی تصاویر کلمات فارسی و لاتین با انودع قلم ها به عنوان ورودی به ابزار یادگیری قانون c4.5 داده شد. این ابزار بر اساس این ویژگی ها 13 قانون برای جداسازی کلمات فارسی و لاتین تولید کرد. با استفاده از این قوانین در یک مجموعه ازمون 1420 کلمه ای، حدود 94% از کلمات به درستی طبقه بندی شدند.کلیدواژه ها
بازشناسی متون چاپی ، متون چند زبانه ، جداسازی تصویری کلمات ، یادگیری استقرایی قوانین ، C4.5مقالات مرتبط جدید
- طراحی فیلتر میان گذر قابل تنظیم RF با استفاده از سلف فعال
- تحلیل نظرات کاربران سایت طاقچه با استفاده از هوش مصنوعی
- تشخیص نفوذ حملات در شبکه های حسگر بیسیم با استفاده از الگوریتم بهینه ساز گرگ خاکستری
- Design and Construction of the Receiver Section of a Multi-Channel Neural Signal Recording System Based on TDMA Architecture, Along with a User Interface
- مروری کوتاه بر نرم افزارهایCAD و مقایسه تطبیقی خروجی آن ها
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.