تقطیع هجایی خودکار واژه های زبان فارسی بر اساس اصول هجابندی پولگرام

سال انتشار: 1396
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,341

فایل این مقاله در 15 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ELSCONF05_024

تاریخ نمایه سازی: 26 مرداد 1397

چکیده مقاله:

یکی از اطلاعات کلیدی موردنیاز در تحلیل های زبانشناسی خصوصا زبان شناسی پیکرهای، آگاهی از مرزهای هجایی واژههاست که به آن هجابندی نیز گفته میشود. هجابندی به دو روش دستی و خودکار انجام می شود که در مطالعات پیکرهای، به دلیل حجم بالای داده ها استفاده از روش خودکار، امری ضروری است.رویکردهای مطرح در هجابندی خودکار، رویکرد مبتنی بر قاعده و رویکرد مبتنی بر استخراج داده است. در رویکرد اول، مرزهای هجایی بر اساس قواعد زبانشناسی تعیین میشود، اما در رویکرد دوم، ابتدا الگوهای هجایی از داده های هجابندی شده استخراج و سپس این الگوها برای هجابندی داده های جدید استفاده می شود.روش های موجود در رویکرد دوم، به پیکره های هجابندی شده نیاز دارند و این امر، یکی از مشکلات اصلی در استفاده از این روش هاست. براین اساس در مقاله ی حاضر، الگوریتمی برای هجابندی خودکار واژه های واج نگاری شده ارایه شده است که بر پایه ی یک رویکرد مبتنی بر قاعده عمل میکند و مبنای نظری آن اصول هجابندی پول گرام است. الگوریتم مذکور، برای هجابندی خودکار دادگان گفتاری زبان فارسی پیکره فارس دات کوچک استفاده و سپس این هجابندی با هجابندی دستی انجام شده توسط زبان شناسان خبره مقایسه شده است. نتایج حاصل، حاکی از آن است که این الگوریتم می تواند مرزهای هجایی را بدون خطا شناسایی کند. این برنامه که طبق اطلاع نویسندگان برای اولین بار در فارسی نوشتاری گزارش شده است میتواند در پردازش های آواشناختی و واج شناختی مختلف خصوصا در سیستم های بازشناسی گفتار و تبدیل متن به گفتار، در تحلیل های ساخت شناختی مختلف خصوصا در حوزه ی آموزش زبان فارسی و نیز در سایر پژوهش های زبانشناختی، به عنوان مثال در مطالعات مربوط به پیچیدگی های زبانی، مورداستفاده قرار گیرد.

نویسندگان

طاهره احمدی

دانشجوی کارشناسی ارشد زبان شناسی رایانشی، گروه زبانشناسی، دانشکده ی زبان های خارجی، دانشگاه اصفهان، اصفهان، ایران

حسین کارشناس

استادیار گروه هوش مصنوعی، دانشکده ی کامپیوتر، دانشگاه اصفهان، اصفهان، ایران

بتول علی نژاد

دانشیار گروه زبان شناسی، دانشکده ی زبانهای خارجی، دانشگاه اصفهان، اصفهان، ایران

مصطفی نقوی راوندی

دانشجوی کارشناسی ارشد زبانشناسی رایانشی، گروه زبانشناسی، دانشکده ی زبان های خارجی، دانشگاه اصفهان، اصفهان، ایران