شناسایی موجودیتهای نامدار در متون فارسی رسانه های اجتماعی با دیدگاه یادگیری ماشین
- سال انتشار: 1398
- محل انتشار: پنجمین کنفرانس بین المللی وب پژوهی
- کد COI اختصاصی: IRANWEB05_033
- زبان مقاله: فارسی
- تعداد مشاهده: 1038
نویسندگان
دانشجوی دکتری، دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران، تهران،
دانشیار، دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران، تهران،
چکیده
ش ناسایی موجودیت های نامدار از مهم ترین پیش پردازش ها برای بسیاری از مسائل پردازش زبان طبیعی است. با وجود پژوهش های صورت گرفته در مورد شناسایی موجودیت های نامدار فارسی، عملکرد راه حل های پیشنهادی هنوز با جایگاه کنونی این عملیات در زبان انگلیسی برابری نمی کند. علاوه بر این، بنا بر اطلاعاتی که ما داریم، تمام پیکره های متنی تشخیص موجودیتهای نامدار در فارسی (از جمله ParsNER و ArmanPersoNERCorpus) بر اساس مجموعه ی بیجن خان ساخته شده است، که از محتویات روزنامه ی همشهری، به عنوان محبوب ترین مجموعهی دارای برچسب های ادات سخن در زبان فارسی ایجاد شده است. به این ترتیب، تمام روش های شناسایی موجودیت های نامدار در زبان فارسی، بر روی داده های خبری آموزش داده شده است و این روش ها برای اجرا روی کاربردهای دیگر مانند متون رسانه های اجتماعی به اندازه کافی منعطف نیستند. در این مقاله، پیکره متنی ParsNER - Social معرفی می شود که مبتنی بر مجموعه داده های شبکه های اجتماعی و روشی مبتنی بر میدان های تصادفی شرطی به منظور شناسایی موجودیت های نامدار پیاده سازی شده است. این روش با پیشرفته ترین روش های شناسایی موجودیت های نامدار در زبان فارسی مقایسه شده و نتایج بدست آمده نشان دهنده ی برتری روش پیشنهادی بر آنها است.کلیدواژه ها
شناسایی موجودیت های نامدار، پردازش زبان طبیعی، پیکره متنی رسانه های اجتماعی، زبان فارسیمقالات مرتبط جدید
- طبقه بندی صفحات وب برای بهینه سازی موتورهای جستجو با استفاده از مدل ترکیبی یادگیری عمیق
- تحول دیجیتال با قراردادهای هوشمند بر پایه فناوری بلاکچین
- تحلیل و شناسایی آسیبپذیریهای ناش ی از حملات شرایط رقابتی در برنامه های وب مدرن
- مروری بر الگوریتم بهینه سازی ازدحام ذرات و کاربردها
- بهینه سازی زمانبندی و ذخیره سازی نتایج وظایف در محیطهای مه-ابر با یادگیری تقویتی
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.