استخراج ویژگی ها و بسط لغتنامه در اندیشه کاوی مورد استفاده در متون فارسی

  • سال انتشار: 1393
  • محل انتشار: دومین همایش ملی پژوهش های کاربردی در علوم کامپیوتر و فناوری اطلاعات
  • کد COI اختصاصی: CITCONF02_083
  • زبان مقاله: فارسی
  • تعداد مشاهده: 924
دانلود فایل این مقاله

نویسندگان

عفت گلپر رابوکی

استادیار و عضو هیئت علمی گروه ریاضی، دانشگاه قم، قم، ایران

جلال رضایی نور

استادیار و عضو هیئت علمی گروه فنی و مهندسی ، دانشگاه قم، قم، ایران،

ساقی السادات ضرغامی فر

کارشناسی ارشد گروه فنی و مهندسی ، دانشگاه قم، قم، ایران،

چکیده

اندیشه کاوی به تحلیل اظهار نظرات کاربران جهت استخراج نظرات، احساسات و خواسته های کاربران در یک روز خاص می پردازد. دانستن نظرات افراد در یک حوزه خاص می تواند نقش مهمی در تصمیم گیری های کلان آن حوزه ایفا کند. به طور کلی اندیشه کاوی در سه سطح سند، جمله و ویژگی به استخراج نظرات کاربران می پردازد. اندیشه کاوی در سطح ویژگی به دلیل تحلیل جهت گیری جنبه های مختلف یک روز از دو سطح دیگر بیشتر مورد توجه قرار دارد. در این مقاله بررسی به منظور استخراج ویژگی ها و بسط لغت نامه اندیشه کاوی ارائه شده است. این لغت نامه به منظور تبیین جهت گیری نظرات کاربران مورد استفاده قرار می گیرد. روش پیشنهادی شامل چهار گام اصلی است. در گام نخست لغت نامه اندیشه کاوی برای زبان فارسی ایجاد می شود. گام دوم مرحله پیش پردازش شامل تقطیع، ایجاد برچسب های ادات سخن و برچسب وابستگی نحوی اسناد است . گام سوم استخراج ویژگی ها و پست لغت نامه با استفاده از روش انتشار بوکان است و در گام چهارم ویژگی ها و قطبیت کلمات حاوی نظر استخراج شده در مرحله قبلی اصلاح شده و در نهایت قطبیت ویژگی ها تعیین می گردد. برای ارزیابی روش پیشنهادی، نتایج حاصل را با روش استخراج ویژگی بر اساس تکرار در متون فارسی که قبلاً ارائه شده از مقایسه خواهیم نمود.

کلیدواژه ها

اندیشه کاوی، استخراج ویژگی، بسط لغتنامه اندیشه کاوی، برچسب ادات سخن، برچسب نحوی، انتشار دوگانه

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.