روش ماشینهای بردار پشتیبان آبشاری جهت طبقه بندی داده های نامتوازن متنی

سال انتشار: 1398
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 631

فایل این مقاله در 12 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

THCONF02_244

تاریخ نمایه سازی: 30 دی 1398

چکیده مقاله:

امروزه حجم عظیمی از داده های مختلف در حال تولید شدن هستند. بخش زیادی از این داده ها به صورت متن در اینترنت، آرشیوها، اسناد سازمانی و مکاتبات تولید میشوند. این حجم از داده فرصتها و چالشهای بیشماری را ایجاد می کند و نهادهای متعددی به دنبال تبدیل این متون به اطلاعات قابل لمس هستند. طبقه بندی1 از مهمترین کارکردهای داده کاوی2 است که میتواند این نوع داده را تبدیل به دانش کند. در عین حال، در طبقه بندی متون، همواره یکی از چالشها عدم توازن میان کلاسهای مختلف داده ها است. این عدم توازن به معنی پنهان بودن داده های مطلوب اندک، در میان انبوه داده های غیرمفید است. اکثر الگوریتمهای طبقه بندی بر حداکثر کردن دقت کلی، بدون در نظر گرفتن دقت هر کلاس تمرکز کرده که سطح بالایی از دقت را برای کلاس اکثریت و دقت کمتری برای اقلیتها به ارمغان می آورد. تاکنون روشهای مختلفی را برای این مسئله پیشنهاد شده که در چهار زیرگروه قرار میگیرد : در سطح داده، در سطح الگوریتم، با ایجاد هزینه برای طبقهبندی و روشهای ترکیب الگوریتمها. در روشهای موسوم به ترکیب3، سعی میشود که با ترکیب الگوریتمها از چند طبقه بند ضعیف یک طبقه بند قوی بسازند که روشهای Boosting و Bagging و زیرمجموعه های آنان از مهمترین اقدامات در این حوزه میباشند؛ اما محدودیتهایی در مورد استفاده از روشهای ترکیب در حوزه طبقهبندی متنی مبتنی بر ماشین بردار پشتیبان 4 وجود دارد که در ادامه به آن اشاره میشود. لذا ما در این تحقیق روش ماشینهای بردار پشتیبان آبشاری را که زین پس C-SVMs نامیده میشود پیشنهاد نمودیم. این روش بر مبنای روشهای ترکیب و با استفاده از الگوریتمهای خانواده ماشین بردار پشتیبان است. ما برای ارزیابی این روش، آن را روی دیتاستی شامل داده های متنی فارسی که از کانالهای نرم افزار تلگرام استخراج نمودیم، آزموده و نتایج به دست آمده را تحلیل کردیم.

نویسندگان

مهدی زارع

دانشجوی ارشد، مهندسی نرم افزار، دانشگاه پیام نور، واحد تهران شمال

احمد فراهی

استادیار گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه پیام نور، واحد تهران شمال،