تشخیص زبان به منظور دسته بندی و پالایش مبتنی بر محتوای صفحات وب

سال انتشار: 1390
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,126

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICEEE03_155

تاریخ نمایه سازی: 18 مهر 1390

چکیده مقاله:

با توجه به گسترش اسنادی که روزانه به زبانهای مختلف روی اینترنت قرار میگیرند مساله تشخیص زبان خودکار متون اهمیت می یابد دراین مقاله از سیستم تشخیص زبان به منظور دسته بندیو پالایش صفحات غیراخلاقی وب براساس محتوا استفاده کرده ایم این سیستم قابلیت تشخیص 10 زبان پرکاربرد در صفحات غیراخلاقی وب از جمله زبان فارسی را دارا می باشد بدین منظور یک روش ترکیبی جدید پیشنهاد شده است که از سه قسمت پردازش URL پردازش Encoding صفحه و پردازش متن موجوددر صفحه تشکیل شده است این سیستم همچنین دارای یک رای دهنده است که نتایج هر سه قسمت را برای تولید خروجی مناسب ترکیب می کند. همچنین از مجموعه وب سایت های غیراخلاقی تهیه شده و برچسب خورده به عنوان مجموعه داده ها جهت ایجاد یک مدل زبانی برای هر زبان و ارزیابی سیستم پیشنهادی بهره گرفته ایم که به میانگین دقتی در حدود 95% رسیده ایم.

کلیدواژه ها:

دسته بندی متن ، تشخیص خودکار زبان ، پالایش صفحات وب ، وب سایت های غیراخلاقی و تصفیه محتوایی متون

نویسندگان

سامان باشباغی

آزمایشگاه مهندسی زبان گروه کامپیوتر دانشگاه بوعلی سینا همدان

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • J. Ropelato, Internet Pornography Statistics, TopTenRevi eWs, 2007. ...
  • G. Churcher, Distinctive character sequences, Personal communic ation, 1994. G. ...
  • identification schemes"، In Proceedings of JADT 1995، 3rd International Conference ...
  • text N-gram-basedء [4] W.B. Cavnar، J. M. Trenkle _ categorization"، ...
  • Eda Baykan, Monika Henzinger, Ingmar Weber, _ page language identification ...
  • Lena Grothe, Ermesto William De Luca and Andreas Nurberger, _ ...
  • Penelope Sibun, Jeffery C. Reynar, "Language Identification. Examining the Issue", ...
  • Lins, R. and Gonxalves, P.: Automatic Language Identification of Written ...
  • نمایش کامل مراجع