پیکره ساخت های فعل سبک زبان فارسی

  • سال انتشار: 1401
  • محل انتشار: پژوهش های زبان شناسی، دوره: 14، شماره: 1
  • کد COI اختصاصی: JR_JRLU-14-1_009
  • زبان مقاله: فارسی
  • تعداد مشاهده: 298
دانلود فایل این مقاله

نویسندگان

مهدیه اسحاقی

پژوهشگر پسادکتری زبان شناسی، دانشکده ادبیات و علوم انسانی، دانشگاه تهران، تهران، ایران

غلامحسین کریمی دوستان

استاد زبان شناسی، دانشکده ادبیات و علوم انسانی، دانشگاه تهران، تهران، ایران

چکیده

پیکره زبانی مجموعه ای بزرگ از داده های زبانی مبتنی بر کاربرد سخنوران زبان هاست که الگوهای واقعی کاربرد زبانی را در اختیار پژوهشگران قرار می دهند. برتری پیکره ها در مقایسه با سایر منابع داده ای علاوه بر حجم زیاد داده ، ایجاد امکان به کارگیری رایانه در بررسی های زبانی است. مقاله حاضر به معرفی اولین پیکره ساخت های فعل سبک زبان فارسی می پردازد. آشنایی با ماهیت این ساخت ها و دسترسی به فهرستی از آن ها، علاوه بر اهمیت نظری به لحاظ کاربردی نیزحائز اهمیت است. این یافته ها در حوزه بررسی های هوش مصنوعی مرتبط با پردازش زبان های طبیعی، ترجمه ماشینی، آموزش زبان فارسی، دستورنویسی و فرهنگ نگاری کاربرد می یابد. پیکره هدف این پژوهش «پیکره زبانی ساخت های فعل سبک زبان فارسی» یا  LCP نام دارد. برای ایجاد آن پیکره تک زبانه پژوهشگاه ارتباطات و فناوری اطلاعات (بی جن خان، ۱۳۹۷) که حاوی ۹۵۰۰۰۰ فایل متنی است، به عنوان پیکره مبنا برگزیده شد. ساخت های فعلی مرکب مربوط به ۲۱ فعل سبک زایای زبان فارسی از آن استخراج شده است و پس از برچسب زنی در چارچوب صرف توزیعی (Halle & Marantz, ۱۹۹۳; Marantz, ۲۰۱۳) در قالب پیکره ای مشتمل بر بیش از ۶۰۰۰ ساخت فعل سبک در بیش از ۲۰۰۰۰۰۰ بافت زبانی ارائه شده است که در بیش از ۲۰۰۰۰۰ بافت زبانی ارائه شده اند. مقایسه تعداد فعل های واژگانی زبان فارسی با تعداد ساخت های فعل سبک موجود در پیکره حاضر، بدیهی ترین عاملی است که وجود چنین پیکره ای در میان منابع زبان فارسی را ضرورت می بخشد. از سوی دیگر، ماهیت این پیکره، یعنی نمایش ساخت های فعل سبک در بافت های زبانی متفاوت، می تواند به پژوهشگران در یافتن پاسخ پرسش های موجود در رابطه با این ساخت ها، رد یا تایید فرضیه ها و طرح نظریه های جدید کمک کند.

کلیدواژه ها

زبان فارسی, منابع داده ای, پیکره زبانی, ساخت های فعل سبک, پردازش زبان طبیعی

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.