ارزیابی واحدسازهای مرسوم زبان فارسی به کمک یک مجموعه دادگان طلایی برگرفته از نهج البلاغه

سال انتشار: 1399
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 299

نسخه کامل این مقاله ارائه نشده است و در دسترس نمی باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IISC01_047

تاریخ نمایه سازی: 22 آذر 1400

چکیده مقاله:

در پردازش زبان طبیعی، یکی از مهمترین فرآیند های تجزیه و تحلیل واژگانی پیش پردازشی،واحدسازی است. قبل از انجام هر نوع از پردازش روی متون زبان طبیعی، هر دنباله از کار اکترهاباید به دنباله ای از واحدهای معنادار متمایز با نام واحد تبدیل شود. واحدسازی نقش مهمی در روندتحلیل واژگانی دارد. عملیات های پی شپردازشی، از جمله واحدسازی در زبان فارسی و به خصوصدر متون فقهی، به دلیل وجود موارد استثناء مانند نیم فاصله و همینطور وجود واژگان مرکب وپیچیده، برای الگوریتم ها کاری دشوار است. بنابراین آگاهی از کیفیت الگوریتم های واحدسازیموجود در زبان فارسی اهمیت زیادی دارد.در این مقاله، پرکاربرد ترین واحدسازهای موجود در زبان فارسی را معرفی می کنیم و با استفادهاز یک الگوریتم ساده و با معرفی یک مجموعه دادگان طلایی فقهی، کیفیت عملکرد آنها را رویمتون اسلامی مقایسه و ارزیابی می کنیم. مجموعه دادگان طلایی پیشنهادی، از متون نهج البلاغهبرگرفته و به صورت دستی برچسب گذاری شده است. داده های خام هرکدام از واحدسازها دادهشده و خروجی آن ها به سیستم ارزیاب داده می شود. در سیستم ارزیاب نتیجه نهایی هر یک ازواحدسا زها با استفاده از داده برچسب خورده ارزیابی می شود. در انتها پس از ارزیابی واحد سازهایمعرفی شده با معیار F۱ ، واحد ساز فارسی ورب با نمره ۹۸ / ۲۹ % بهترین عملکرد را از خود نشان داد.

نویسندگان

دانیال کمالی

دانشجو،کارشناسی مهندسی کامپیوترگرایش نرم افزار

آرش امانی

دانشجو، کارشناسی ارشد، مهندسی کامپیوتر گرایش نرم افزار

بهروز جان فدا

دانشجو، کارشناسی ارشد، مهندسی کامپیوتر گرایش نرم افزار

بهروز مینایی بیدگلی

دانشیار، (دانشگاه علم وصنعت ایران)، دکتری هوش مصنوعی