بکارگیری رویکرد رتبه بندی مبتنی بر یادگیری برای محتوای فارسی وب

سال انتشار: 1398
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 467

فایل این مقاله در 14 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IRANWEB05_025

تاریخ نمایه سازی: 8 تیر 1398

چکیده مقاله:

استفاده از اطلاعات نحوه رفتار کاربران حین جستجوی اطلاعات در وب که اصطلاحا اطلاعات کلیک از گذر داده نامیده می شود، در بهبود عملکرد این س امانه ها بسیار مفید می باشد. با این وجود، این قبیل اطلاعات، در اغلب مجموعه های داده محک موجود برای رتبه بندی مبتنی بر یادگیری و به تبع آن، در اکثر روش های مطرح ش ده در این زمینه، مغفول مانده است . همچنین، تعدد ویژگی های ارایه شده در این مجموعه های داده، ضمن تحمیل هزینه های محاسباتی به روش های رتبه بندی مطرح شده، کاربرد آنها را در شرایط واقعی، د شوار می کند. به منظور پرداختن به این چالش ها، در سال های اخیر، رویکرد نوینی برای حل مساله ایجاد رتبه بندی مبتنی بر یادگیری، بر پایه طرح مفهوم ویژگی های کلیک از گذر داده و تلفیق آن با تکنیک های یادگیری تقویتی ارائه شده است که منجر به معرفی الگوریتم QRC - Rank شده است. عملکرد موفق این الگوریتم روی مجموعه های داده محک مطرح انگلیسی نظیر LETOR و WCL2R، ایده اصلی این مقاله جهت بررسی نحوه عملکرد این الگوریتم ها در حوزه خط و زبان فارسی بوده است. ارزیابی عملکرد این الگوریتمها روی مجموعه داده محک فارسی dotIR، حاکی از عملکرد برتر این روش نسبت به الگوریتم های پایه رتبه بندی، بخصوص در نتایج نخست جستجوها است که غالبا بیشتر مورد توجه کاربران، واقع می شوند.

کلیدواژه ها:

رتبه بندی مبتنی بر یادگیری ، یادگیری تقویتی ، محتوای فارسی وب ، داده محک dotIR

نویسندگان

امیرحسین کیهانی پور

استادیار، دانشکده مهندسی، پردیس فارابی، دانشگاه تهران