معرفی یک الگوریتم ریشه یابی و لمیابی مبتنی بر قانون برای زبان فارسی
- سال انتشار: 1394
- محل انتشار: اولین همایش جویشگر بومی
- کد COI اختصاصی: DIDRAS01_017
- زبان مقاله: فارسی
- تعداد مشاهده: 1672
نویسندگان
گروه پردازش صوت زبان طبیعی، پژوهشگاه توسعه فناوری های پیشرفته خواجه نصیرالدین طوسی ، تهران،
گروه پردازش صوت زبان طبیعی، پژوهشگاه توسعه فناوری های پیشرفته خواجه نصیرالدین طوسی ، تهران
چکیده
با توجه به ذات زایا و اشتقاق پذیر زبان فارسی و همپنین نیاز برنامه های کاربردی مختلف مرتبط با پردازش زبان طبیعی و بازیابی اطلاعات، ریشه یابی و لمیابی از مسایل مهم پیش پردازشی در پردازش زبان طبیعی فارسی به شمار می رود. در این راستا در این مقاله یک الگوریتم مناسب برای یافتن خودکار ریشه و لمای کلمات پیشنهاد شده است. این الگوریتم و ابزار پیاده سازی شده بر اساس آن، دارای چند حالت برای ریشه یابی و لمیابی انواع مختلف کلمات است که با روش مبتنی بر قانون و با استفاده از چندین منبع زبانی از جمله فهرستی از افعال زبان فارسی، جمع مکسر، واژگان زایای زبان فارسی و ... طراحی شده است. روال کلی انجام کار به این صورت است که ابتدا بررسی میشود که کلمه باید ریشهیابی شود یا خیر و در صورت لزوم الگوریتم اصلی اعمال میشود. برای لمیابی ابتدا برچسب اجزای کلام برای هر کلمه مشمول ریشه یابی تعیین میگردد و سپس اعمال قوانین صورت می گیرد. این امکان در ریشهیاب قرار داده شده که به تفکیک آرگومان، فعل ها، اسامی و صفت ها به تنهایی ریشه یابی شده و یا هر 3 مورد در متن ریشه یابی شوند. همچنین با توجه به بار پردازشی برچسب زن اجزای کلام و زمانبری روال، یک مد ریشهیابی سبک نیز در برنامه لحاظ شده است که در آن فقط با توجه به شکل ظاهری کلمات، قوانین تعیین شده و ریشه یابی انجام میگیرد. نکته مورد توجه، جامعیت در قوانین و استثنایات مورد پوشش و استفاده از منابع متنی و پیش پردازشی دقیق در الگوریتم پیشنهادی است. نتایج ارزیابی نشان دهنده عملکرد مناسب سیستم پیشنهادی در هر دو حالت ریشهیابی و لمیابی است.کلیدواژه ها
ریشه یابی، لمیابی، برچسب اجزای کلام، واژگان زایا، پردازش زبان طبیعیمقالات مرتبط جدید
- مسیریابی مبتنی بر یادگیری تقویتی با تابع پاداش ترکیبی در شبکه های کم مصرف و ناپایدار اینترنت اشیاء (LLNS)
- تشخیص حمله کپی کت در شبکه های اینترنت اشیاء مبتنی بر RPL با استفاده از طبقه بندی درخت تصمیم
- مروری بر روشهای مدیریت دسترسی انبوه در اینترنت اشیاء مبتنی بر شبکه های سلولی از چالش ها تا راهکارهای هوشمند
- بهبود مصرف انرژی و تاخیر مسیریابی در اینترنت اشیاء با استفاده از توسعه پروتکل مسیریابی شبکه های کم توان و پراتلاف
- بهینه سازی جایگذاری ماشین مجازی در زیرساخت های اینترنت اشیا-ابر از طریق الگوریتم کپک مخاطی الهام گرفته از کوانتوم
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.