تشخیص حضور عبارات کنایه دار در جملات زبان فارسی
- سال انتشار: 1395
- محل انتشار: سومین کنگره بین المللی کامپیوتر، برق و مخابرات
- کد COI اختصاصی: ITCC03_236
- زبان مقاله: فارسی
- تعداد مشاهده: 911
نویسندگان
دانشجوی کارشناسی ارشد هوش مصنوعی دانشگاه صنعتی مالک اشتر تهران
دانشیار دانشگاه صنعتی مالک اشتر تهران
دانشجوی دکترای هوش مصنوعی دانشگاه صنعتی مالک اشتر تهران
چکیده
کنایه را می توان استفادهای خلاقانه از ویژگی های زبان جهت ابراز منظور به روش غیرمستقیم دانست. اخیرا تشخیص خودکار کنایه درزمینه اندیشه کاوی نظرات در شبکه های اجتماعی توجه زیادی را به خود جلب کرده است. در این پژوهش داده های سه سایت خبری موردبررسی قرار گرفته و ویژگی هایی برای تشخیص حضور عبارات کنایه دار در جملات زبان فارسی استخراج شده است. در ویژگی های به کاررفته علاوه بر توجه به کلمات به صورت مستقل، به ارتباط میان کلمات هم اهمیت داده شده است. دستهبندهای درخت تصمیم، k نزدیک-ترین همسایه و دو روش پایه بیزین ساده و کیسه کلمات برای تشخیص کنایه به کار رفتهاند که طبق نتایج به دست آمده درخت تصمیمساخته شده مقدار 0.65 را برای معیار f و خطای 0.02 را دارد. با روش k نزدیکترین همسایه و تقسیم بندی به روش holdout مقدار0.73 را برای معیار f و خطای 0.001 به دست آمده است. روش k نزدیکترین همسایه در روشهای دیگر تقسیم بندی هم نتایج خوبیداشته است. این در حالی است که روشهای پایه خطاهای بالا و معیارهای f پایین دارند. علت این امر این است که در روش کیسه کلمات،هر کلمه به طور مستقل در نظر گرفته می شود و در روش بیزین ساده هم فرض استقلال ویژگی ها وجود دارد.کلیدواژه ها
تشخیص کنابه، زبان فارسی، درخت تصمیم، اندیشه کاوی، پردازش زبان طبیعیمقالات مرتبط جدید
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.