شناسایی موجودیتهای نامدار در متون فارسی رسانه های اجتماعی با دیدگاه یادگیری ماشین

سال انتشار: 1398
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 860

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IRANWEB05_033

تاریخ نمایه سازی: 8 تیر 1398

چکیده مقاله:

ش ناسایی موجودیت های نامدار از مهم ترین پیش پردازش ها برای بسیاری از مسائل پردازش زبان طبیعی است. با وجود پژوهش های صورت گرفته در مورد شناسایی موجودیت های نامدار فارسی، عملکرد راه حل های پیشنهادی هنوز با جایگاه کنونی این عملیات در زبان انگلیسی برابری نمی کند. علاوه بر این، بنا بر اطلاعاتی که ما داریم، تمام پیکره های متنی تشخیص موجودیتهای نامدار در فارسی (از جمله ParsNER و ArmanPersoNERCorpus) بر اساس مجموعه ی بیجن خان ساخته شده است، که از محتویات روزنامه ی همشهری، به عنوان محبوب ترین مجموعهی دارای برچسب های ادات سخن در زبان فارسی ایجاد شده است. به این ترتیب، تمام روش های شناسایی موجودیت های نامدار در زبان فارسی، بر روی داده های خبری آموزش داده شده است و این روش ها برای اجرا روی کاربردهای دیگر مانند متون رسانه های اجتماعی به اندازه کافی منعطف نیستند. در این مقاله، پیکره متنی ParsNER - Social معرفی می شود که مبتنی بر مجموعه داده های شبکه های اجتماعی و روشی مبتنی بر میدان های تصادفی شرطی به منظور شناسایی موجودیت های نامدار پیاده سازی شده است. این روش با پیشرفته ترین روش های شناسایی موجودیت های نامدار در زبان فارسی مقایسه شده و نتایج بدست آمده نشان دهنده ی برتری روش پیشنهادی بر آنها است.

کلیدواژه ها:

شناسایی موجودیت های نامدار ، پردازش زبان طبیعی ، پیکره متنی رسانه های اجتماعی ، زبان فارسی

نویسندگان

مجید عسگری بیدهندی

دانشجوی دکتری، دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران، تهران،

بهروز مینایی بیدگلی

دانشیار، دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران، تهران،