از بین بردن نویز در صفحات وب با استفاده از الگوریتم پیشنهادی

سال انتشار: 1397
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 479

متن کامل این مقاله منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل مقاله (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICIRES01_026

تاریخ نمایه سازی: 5 آبان 1397

چکیده مقاله:

در این مقاله ، ما روش های متنوعی برای حذف نویز ، براساس مشاهدات پیشنهاد می کنیم. در یک وب سایت معین ، بلوک های نویزدار معمولا0 به اشتراک گذاری محتواها و سبک های نمایشی و یا ارایه ای رایج می پردازند ، در حالیکه محتوای اصلی بلوکها از صفحات اغلب متنوع هستند و درونشان مطالب واقعی و یا سبکهای نمایشی(ارایه ای) وجود دارد. براساس این مشاهدات ، ساختارهای درختی ، مثل درخت شیء سند DOM و سبک درخت STT و الگوریتم هایی مثل استدلال مبتی برمورد یا وضعیت CBRو الگوریتم اخیرا0 کمتر استفاده شده LRU وشبکه های عصبی مصنوعی ANN را برای رفع نویز پیشنهاد می کنیم. همچنین استدلال ها و الگوریتم هایی که در داده کاوی ، بخصوص کاربرد داده کاوی کمک می کنند را معرفی می کنیم تا با کشف و استخراج محتوای اصلی از بلوکهای متن از صفحه وب ، کار را برای کشف و رفع نویز راحت کند. در واقع این الگوریتم ها هر کدام به الگوریتم های کشف نویز کمک می کنند. بسیاری از تکنیکها در رشته های مختلف مانند بازیابی اطلاعاتIR و پردازش زبان طبیعی (NLP) نیز در این تحقیق استفاده می شود. روشهای پیشنهاد شده به ارزیابی داده با کاوش در صفحات وب می پردازد. نتایج تجربی نشان می دهد که روش حذف نویز قادر به بهبودی قابل توجهی در نتایج کاوش ما دارد.

نویسندگان

سیدحسن مرتضوی زارچ

عضو هییت علمی گروه کامپیوتر دانشگاه میبد ، میبد ، ایران

مجید رفعتی فرد

عضو هییت علمی گروه برق آموزشکده فنی شهید مطهری تفت ، یزد ، ایران