ارائه یک روش جدید برای تولید سوپرسِن س در شبکه واژگانی وردنت

سال انتشار: 1399
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 863

فایل این مقاله در 15 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CONFITC05_010

تاریخ نمایه سازی: 2 آذر 1399

چکیده مقاله:

وردنت به عنوان یکی از بزرگترین پایگاه داده های واژگانی، در بسیاری از پژوهش های مربوط به پردازش زبان طبیعیمورد استفاده قرار گرفته است. این شبکه واژگانی بزرگ و پیچیده علاوه بر کاربردهایی که تا به امروز داشته است از نگاهبرخی پژوهشگران دارای نقاط ضعفی نیز می باشد. این گروه از پژوهشگران بر این باور هستند که شبکه واژگانی وردنت بهصورت ریزدانه است که همین امر می تواند سبب کاهش کارایی در برخی از کارهای مرتبط با پردازش زبان طبیعی ازجمله بازیابی اطلاعات، ترجمه ماشینی، گسترش پرس وجو و ابهام زداها شود. از سویی، وردنت به هر یک از هم نشیم هایموجود در درون خود و در زمان تولید یک برچسب اختصاص داده است که این عمل تماماً توسط زبان شناسان صورتپذیرفته است. مجموع برچسب های اختصاص داده شده به هم نشیم ها عدد 45 را نشان می دهد که بیانگر این موضوع استکه می توان به جای 117 هزار هم نشیم، 45 هم نشیم بزرگتر به نام سوپرسِنس را در بسیاری از کارهای علمی در نظر گرفت.ما در این پژوهش و در یک رویکرد جدید اقدام به تولید 45 سوپرسِنس جدید کردیم. برای مقایسه کیفیت سوپرسِنس هایایجاد شده از یک ابهام زدا به نام UKB که بالاترین دقت در میان ابهام زداهای مبتنی بر متن را در اختیار دارد، بهره گرفتیم.نتایج آزمایش ها نشان می دهند که سنجه-اف حاصل شده از سوپرسِنس های ارائه شده توسط ما بهتر از سوپرسِنس هایایجاد شده توسط انسان عمل کرده است. همچنین، با توجه به کاهش ابعاد گراف وردنت سرعت عملکرد ابهام زدا بیش ازپانصد برابر سریع تر از زمانی است که از وردنت استاندارد با 117 هزار همنشیم استفاده می کند و این در حالی است کهدقت نهایی تنها در حدود یک درصد کاهش می یابد.

نویسندگان

مهرداد محمدیان

دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران

بهروز مینایی بیدگلی

دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران