ارائه یک روش جدید برای تولید سوپرسِن س در شبکه واژگانی وردنت

مهرداد محمدیان; بهروز مینایی بیدگلی

ارائه یک روش جدید برای تولید سوپرسِن س در شبکه واژگانی وردنت

محل انتشار: پنجمین کنفرانس بین المللی پژوهش های کاربردی در کامپیوتر، برق و فناوری اطلاعات

سال انتشار: 1399

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 1,029

فایل این مقاله در 15 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > پردازش زبان طبیعی

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/1123549

شناسه ملی سند علمی:

CONFITC05_010

تاریخ نمایه سازی: 2 آذر 1399

چکیده مقاله:

وردنت به عنوان یکی از بزرگترین پایگاه داده های واژگانی، در بسیاری از پژوهش های مربوط به پردازش زبان طبیعیمورد استفاده قرار گرفته است. این شبکه واژگانی بزرگ و پیچیده علاوه بر کاربردهایی که تا به امروز داشته است از نگاهبرخی پژوهشگران دارای نقاط ضعفی نیز می باشد. این گروه از پژوهشگران بر این باور هستند که شبکه واژگانی وردنت بهصورت ریزدانه است که همین امر می تواند سبب کاهش کارایی در برخی از کارهای مرتبط با پردازش زبان طبیعی ازجمله بازیابی اطلاعات، ترجمه ماشینی، گسترش پرس وجو و ابهام زداها شود. از سویی، وردنت به هر یک از هم نشیم هایموجود در درون خود و در زمان تولید یک برچسب اختصاص داده است که این عمل تماماً توسط زبان شناسان صورتپذیرفته است. مجموع برچسب های اختصاص داده شده به هم نشیم ها عدد 45 را نشان می دهد که بیانگر این موضوع استکه می توان به جای 117 هزار هم نشیم، 45 هم نشیم بزرگتر به نام سوپرسِنس را در بسیاری از کارهای علمی در نظر گرفت.ما در این پژوهش و در یک رویکرد جدید اقدام به تولید 45 سوپرسِنس جدید کردیم. برای مقایسه کیفیت سوپرسِنس هایایجاد شده از یک ابهام زدا به نام UKB که بالاترین دقت در میان ابهام زداهای مبتنی بر متن را در اختیار دارد، بهره گرفتیم.نتایج آزمایش ها نشان می دهند که سنجه-اف حاصل شده از سوپرسِنس های ارائه شده توسط ما بهتر از سوپرسِنس هایایجاد شده توسط انسان عمل کرده است. همچنین، با توجه به کاهش ابعاد گراف وردنت سرعت عملکرد ابهام زدا بیش ازپانصد برابر سریع تر از زمانی است که از وردنت استاندارد با 117 هزار همنشیم استفاده می کند و این در حالی است کهدقت نهایی تنها در حدود یک درصد کاهش می یابد.

کلیدواژه ها:

وردنت ، شباهت ، پردازش زبان طبیعی ، ابهام زدا

نویسندگان

مهرداد محمدیان

دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران

بهروز مینایی بیدگلی

دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران