شناسایی موجودیتهای نامدار در متون فارسی رسانه های اجتماعی با دیدگاه یادگیری ماشین
محل انتشار: پنجمین کنفرانس بین المللی وب پژوهی
سال انتشار: 1398
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 860
فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
IRANWEB05_033
تاریخ نمایه سازی: 8 تیر 1398
چکیده مقاله:
ش ناسایی موجودیت های نامدار از مهم ترین پیش پردازش ها برای بسیاری از مسائل پردازش زبان طبیعی است. با وجود پژوهش های صورت گرفته در مورد شناسایی موجودیت های نامدار فارسی، عملکرد راه حل های پیشنهادی هنوز با جایگاه کنونی این عملیات در زبان انگلیسی برابری نمی کند. علاوه بر این، بنا بر اطلاعاتی که ما داریم، تمام پیکره های متنی تشخیص موجودیتهای نامدار در فارسی (از جمله ParsNER و ArmanPersoNERCorpus) بر اساس مجموعه ی بیجن خان ساخته شده است، که از محتویات روزنامه ی همشهری، به عنوان محبوب ترین مجموعهی دارای برچسب های ادات سخن در زبان فارسی ایجاد شده است. به این ترتیب، تمام روش های شناسایی موجودیت های نامدار در زبان فارسی، بر روی داده های خبری آموزش داده شده است و این روش ها برای اجرا روی کاربردهای دیگر مانند متون رسانه های اجتماعی به اندازه کافی منعطف نیستند. در این مقاله، پیکره متنی ParsNER - Social معرفی می شود که مبتنی بر مجموعه داده های شبکه های اجتماعی و روشی مبتنی بر میدان های تصادفی شرطی به منظور شناسایی موجودیت های نامدار پیاده سازی شده است. این روش با پیشرفته ترین روش های شناسایی موجودیت های نامدار در زبان فارسی مقایسه شده و نتایج بدست آمده نشان دهنده ی برتری روش پیشنهادی بر آنها است.
کلیدواژه ها:
نویسندگان
مجید عسگری بیدهندی
دانشجوی دکتری، دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران، تهران،
بهروز مینایی بیدگلی
دانشیار، دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران، تهران،