تشخیص زبان به منظور دسته بندی و پالایش مبتنی بر محتوای صفحات وب
محل انتشار: سومین کنفرانس مهندسی برق و الکترونیک ایران
سال انتشار: 1390
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,217
فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ICEEE03_155
تاریخ نمایه سازی: 18 مهر 1390
چکیده مقاله:
با توجه به گسترش اسنادی که روزانه به زبانهای مختلف روی اینترنت قرار میگیرند مساله تشخیص زبان خودکار متون اهمیت می یابد دراین مقاله از سیستم تشخیص زبان به منظور دسته بندیو پالایش صفحات غیراخلاقی وب براساس محتوا استفاده کرده ایم این سیستم قابلیت تشخیص 10 زبان پرکاربرد در صفحات غیراخلاقی وب از جمله زبان فارسی را دارا می باشد بدین منظور یک روش ترکیبی جدید پیشنهاد شده است که از سه قسمت پردازش URL پردازش Encoding صفحه و پردازش متن موجوددر صفحه تشکیل شده است این سیستم همچنین دارای یک رای دهنده است که نتایج هر سه قسمت را برای تولید خروجی مناسب ترکیب می کند. همچنین از مجموعه وب سایت های غیراخلاقی تهیه شده و برچسب خورده به عنوان مجموعه داده ها جهت ایجاد یک مدل زبانی برای هر زبان و ارزیابی سیستم پیشنهادی بهره گرفته ایم که به میانگین دقتی در حدود 95% رسیده ایم.
کلیدواژه ها:
نویسندگان
سامان باشباغی
آزمایشگاه مهندسی زبان گروه کامپیوتر دانشگاه بوعلی سینا همدان
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :