ارائه روشی جهت برچسب گذاری اجزای واژگانی کلام در زبان فارسی

  • سال انتشار: 1392
  • محل انتشار: اولین کنفرانس ملی نوآوری در مهندسی کامپیوتر و فنآوری اطلاعات
  • کد COI اختصاصی: CEIT01_439
  • زبان مقاله: فارسی
  • تعداد مشاهده: 1365
دانلود فایل این مقاله

نویسندگان

دانیا تمدن

دانشجوی کارشناسی ارشد، دانشگاه آزاد اسلامی واحد علوم و تحقیقات خوزستان، گروه مهندسی کامپیوتر، اهواز، ایران

محمد حسین یکتایی

استادیار دانشگاه آزاد اسلامی واحد علوم و تحقیقات خوزستان، گروه مهندسی کامپیوتر، اهواز ، ایران

ماشالله عباسی دزفولی

استادیار، دانشگاه آزاد اسلامی واحد علوم و تحقیقات خوزستان، گروه مهندسی کامپیوتر، اهواز، ایران

چکیده

یکی از کارهای اساسی در پردازش زبان طبیعی، برچسب گذاری اجزای واژگانی کلام است. کار برچسب گذار، نشانه گذاری هر لغت در متن با مناسبت ترین دسته نحوی است. در سیستم های برچسب گذار، برچسب گذاری کلمات ناشناخته و رفع ابهام از برچسب ها حائز اهمیت است و در روش پیشنهاد شده در این مقاله این دو حوزه بهبود داده شده است. داشتن یک برچسب گذار دقیق در بسیاری حوزه های اطلاعات مانند بازیابی اطلاعات، استخراج اطلاعات، سیستم تبدیل گفتار به متن، تجزیه و تحلیل زبانی وغیره کاربرد دارد. نتایج حاصل از آزمایشات انجام شده، نشان دهنده افزایش درصد درستی در برچسب گذاری لغات ناشناخته در زبان فارسی با استفاده از روش پیشنهادی در مقایسه با سایر روش های برچسب گذاری مانند برچسب گذار تریگرام و برچسب گذار تخمین احتمال بیشینه می باشد.

کلیدواژه ها

برچست گذاری اجزای واژگانی کلام ، زبان فارسی، لغات ناشناخته

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.