طبقه بندی موضوعی خودکار مقالات فارسی در وب

سال انتشار: 1387
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 2,637

فایل این مقاله در 15 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IDMC02_091

تاریخ نمایه سازی: 14 فروردین 1388

چکیده مقاله:

صفحات وب با سرعت زیادی در حال گسترش هستند ولی تمام اسناد موجود در وب، از جمله مقالات علمی بصورت منطقی سازماندهی نشده اند. و این مورد باعث شده تا استفاده و بازیابی آنها با مشکل مواجه شود. طبقه بندی موضوعی صفحات وب و به ویژه مقالات علمی دسترسی به اطلاعات را بسیار آسانتر، سریعتر و دقیق تر می سازد. در حال حاضر طبقه بندی موضوعی مقالات فارسی به صورت پراکنده، محدود به صورت دستی و غیر خودکار صورت می گیرد که با توجه به وفور اطلاعات و رشد روزافزون با مشکل مواجه است به خاطر ذات صفحات وب که به صورت نیمه ساخت یافته هستند می توان اطلاعاتی از ساختار صفحات وب استخراج کرد که به روشهای معمول طبقه بندی متون کمک می کند. در این مقاله روشی پیشنهاد شده که الگویی برای تشخیص مقالات فارسی در وب به وسیله ربات خزنده ارائه می دهد و درگام بعدی با کمک وب کاوی ساختار رابطه موضوعی بین صفحات وب کشف و از آن در حدس زدن بهتر موضوع مقاله بهره گرفته می شود.