ارائه روشی مبتنی بر تحلیل آماری منبع واژگانی وردنت و محتوا به منظور تحلیل عقاید در اسناد فارسی

  • سال انتشار: 1398
  • محل انتشار: سومین کنفرانس ملی مباحث نوین در کامپیوتر و فناوری اطلاعات
  • کد COI اختصاصی: CITI03_010
  • زبان مقاله: فارسی
  • تعداد مشاهده: 825
دانلود فایل این مقاله

نویسندگان

یاسمن ناصحی

گروه مهندسی کامپیوتر - دانشگاه آزاد اسلامی واحد ماهشهر

مرجان عبدیزدان

گروه مهندسی کامپیوتر - دانشگاه آزاد اسلامی واحد ماهشهر

چکیده

روزانه میلیون ها کاربر در سرتاسر دنیا داده های خود را از طریق اینترنت به اشتراک می گذارند. تحلیل و بررسی این داده ها دانش مفیدی را در اختیار ماقرار میدهد. در این پژوهش روشی مبتنی بر با تحلیل آماری مجموعه واژگانی وردنت برای دسته بندی نظرات در زبان فارسی ارائه شده است و از منبعواژگانی سنتیوردنت به منظور گروه بندی ویژگی ها و انتخاب ویژگی استفاده کردیم.روش پیشنهادی در این مقاله به چندین مرحله تقسیم میشود دراولین گام بعد از گرفتن اسناد آن را به جملات تجزیه می کردیم بعد از ان عملیات پیش پردازش را بر روی جملات انجام شد در ادامه عملیات برچسب زنیانجام شد که جهت زدن برچسب نقش کلمات فارسی بر روی کلمات از نرمافزار برچسب نقش کلمات فارسی دانشگاه فردوسی مشهد بهره بردیم در گامبعد ویژگی های تشدید کننده و تضعیف کننده را مشخص و نقش آنها در جملات را تحلیل کرده ایم و به سراغ اعمال تجزیه گر بر روی جملات رفتیم تا بااین عملیات سریالی ویژگی های خود را جهت عملیات وزن گذاری آماده کنیم. در روش پیشنهادی این پژوهش از مجموعه داده استاندارد همشهری جهتارزیابی بهره گرفته ایم و از چهار معیار دقت،صحت، بازخوانی و معیار F1 جهت ارزیابی روش پیشنهادی استفاده کرده ایم نتایج نشان دادند که روش پیشنهادی این پژوهش دارای کیفیت بالاتری نسبت به روشهای پیشین است. نتایج ارزیابی نشان میدهد که معیار صحت 5 درصد و معیار F1 یک درصد بهینه تر شده است و نرخ اشتباهات به میزان 6 درصد نسبت به روشهای پیشین کاهش داشته است.

کلیدواژه ها

دسته بندی، وردنت، ویژگی، پیش پردازش، POS

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.