ارائه یک روش جدید برای تولید سوپرسِن س در شبکه واژگانی وردنت
سال انتشار: 1399
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 863
فایل این مقاله در 15 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
CONFITC05_010
تاریخ نمایه سازی: 2 آذر 1399
چکیده مقاله:
وردنت به عنوان یکی از بزرگترین پایگاه داده های واژگانی، در بسیاری از پژوهش های مربوط به پردازش زبان طبیعیمورد استفاده قرار گرفته است. این شبکه واژگانی بزرگ و پیچیده علاوه بر کاربردهایی که تا به امروز داشته است از نگاهبرخی پژوهشگران دارای نقاط ضعفی نیز می باشد. این گروه از پژوهشگران بر این باور هستند که شبکه واژگانی وردنت بهصورت ریزدانه است که همین امر می تواند سبب کاهش کارایی در برخی از کارهای مرتبط با پردازش زبان طبیعی ازجمله بازیابی اطلاعات، ترجمه ماشینی، گسترش پرس وجو و ابهام زداها شود. از سویی، وردنت به هر یک از هم نشیم هایموجود در درون خود و در زمان تولید یک برچسب اختصاص داده است که این عمل تماماً توسط زبان شناسان صورتپذیرفته است. مجموع برچسب های اختصاص داده شده به هم نشیم ها عدد 45 را نشان می دهد که بیانگر این موضوع استکه می توان به جای 117 هزار هم نشیم، 45 هم نشیم بزرگتر به نام سوپرسِنس را در بسیاری از کارهای علمی در نظر گرفت.ما در این پژوهش و در یک رویکرد جدید اقدام به تولید 45 سوپرسِنس جدید کردیم. برای مقایسه کیفیت سوپرسِنس هایایجاد شده از یک ابهام زدا به نام UKB که بالاترین دقت در میان ابهام زداهای مبتنی بر متن را در اختیار دارد، بهره گرفتیم.نتایج آزمایش ها نشان می دهند که سنجه-اف حاصل شده از سوپرسِنس های ارائه شده توسط ما بهتر از سوپرسِنس هایایجاد شده توسط انسان عمل کرده است. همچنین، با توجه به کاهش ابعاد گراف وردنت سرعت عملکرد ابهام زدا بیش ازپانصد برابر سریع تر از زمانی است که از وردنت استاندارد با 117 هزار همنشیم استفاده می کند و این در حالی است کهدقت نهایی تنها در حدود یک درصد کاهش می یابد.
کلیدواژه ها:
نویسندگان
مهرداد محمدیان
دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران
بهروز مینایی بیدگلی
دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران