پیونددهی موجودیت ها با روش بدون نظارت در متون فارسی رسانه های اجتماعی

  • سال انتشار: 1398
  • محل انتشار: پنجمین کنفرانس بین المللی وب پژوهی
  • کد COI اختصاصی: IRANWEB05_013
  • زبان مقاله: فارسی
  • تعداد مشاهده: 732
دانلود فایل این مقاله

نویسندگان

مجید عسگری بیدهندی

دانشجوی دکتری، دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران، تهران،

بهروز مینایی بیدگلی

دانشیار، دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران، تهران،

چکیده

داده های رسانه های اجتماعی در سال های اخیر به طور نمایی رشد کرده است به طوریکه می توان آن را یکی از بزرگ ترین منابع داده در جهان به شمار آورد. قسمت عمده ای از این داده ها، متون زبان طبیعی هستند. اما زبان طبیعی، بسیار مبهم است. پیونددهی موجودیت، وظیفه ی پیوند یاد کردهای موجودیت در متن به موجودیت های مرتبط به آنها در یک پایگاه دانش است . بیشتر سامانه های پیونددهی موجودیت با جستجوی موجودیت های نامزد شروع کرده و سپس آنها را ابهام زدایی نموده و در نهایت بهترین نامزد را انتخاب می کنند. در سالهای اخیر، به خاطر نبود یک گراف دانش فارسی، این عملیات در زبان فارسی انجام نشده بود. خوشبختانه، در سال 1397 فارس پیس به عنوان یک گراف دانش فار سی با تقریبا نیم میلیون موجودیت معرفی شد. بر این اساس، در این مقاله یک سامانه ی پیونددهی موجودیت فارسی بدون نظارت را با استفاده از ویزگی های وابسته به محتوا و مستقل از محتوا برای پیونددهی موجودیت های یک متن به پایگاه دانش فارس بیس پیشنهاد می کنیم. برای این منظور، اولین پیکره متنی پیونددهی موجودیت بر روی زبان فارسی متشکل از متون رسانه ی اجتماعی را که بر اساس تعدادی از کانال های فارسی معروف در رسانه ی اجتماعی تلگرام ساخته شده است را منتشر می کنیم. نتایج آزمایش، عملکرد بسیار کارآمد این روش پیشنهادی را نشان می دهد که با جدیدترین روش های مربوطه در زبان انگلیسی قابل مقایسه است.

کلیدواژه ها

پیونددهی موجودیت، ابهام زدایی موجودیت، زبان فارسی، فارس پیس، گراف دانش، مجموعهی نوشتار رسانه ی اجتماعی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.