ارائه روشی جدید برای تشخیص جملات متشابه با استفاده از روش های یادگیری ماشین

سال انتشار: 1400
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 293

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CONFSKU01_004

تاریخ نمایه سازی: 17 آبان 1400

چکیده مقاله:

با افزایش روزافزون وسایل ارتباطی اعم از کامپیوترهای شخصی، دستگاههای کتاب خوان، موبایل ها و دیگر وسایل ارتباطی، حجم زیادی از اطلاعات در حال تولید و انتشار می باشد. این حجم از داده ها، در مواقعی مانند کشف سرقت علمی، بازیابی جملات متشابه به یک درخواست، پاسخ به پرسش های کاربر، اعتبارسنجی مقالات نسبت به دیگر مقالات و دیگر موارد مربوط به بازیابی اطلاعات، نیاز به مقایسه و تشخیص میزان شباهت دارند. بر همین اساس، در این پژوهش سعی شده روشی ارائه شود که قادر به تشخیص شباهت جملات یک جفت سند با دقت بالا در زبان فارسی باشد.روش پیشنهادی این پژوهش شامل سه زیر مرحله است. در مرحله اول جفت سند منبع و مشکوک به واحدهای کوچک تری به نام جمله، سپس به واحدهای کوچک تر از جمله به نام کلمه تقسیم بندی شدند. پس از آن کلمات تهیه شده به منظور شباهت یابی برداری به بردار کلمات تبدیل شدند. در مرحله دوم، یک خزنده با اندازه ثابت بر روی دو متن منبع و مشکوک حرکت کرده و هرکجا شباهت یکسان بین دو قسمت (به اندازه طول خزنده) از متن وجود داشت، هر قسمت از دو متن را از دو طرف گسترش داده و اقدام به بررسی شباهت بین آنها می کند. در مرحله سوم قسمت های استخراج شده که شباهت بیشتر از حد آستانه داشته و در نزدیکی یکدیگر قرار داشته باشند، به منظور یکپارچه سازی و کاهش قسمت های پراکنده با یکدیگر ادغام شده و نتیجه گیری نهایی انجام شد. مشاهده شد که مدل پیشنهادی به دلیل ترکیب روش های شباهت یابی، توانست بالاترین امتیاز را بر روی دو مجموعه داده معرفی شده کسب کند.

نویسندگان

سعید جعفری ولدانی

دانشجوی کارشناسی ارشد، دانشگاه شهرکرد

هادی خسروی فارسانی

استادیار، دانشگاه شهرکرد

تقی جاودانی گندمانی

استادیار، دانشگاه شهرکرد