استفاده از کرنل rbf rbf ماشین بردار پشتیبان برای بهبود سیستم دسته بندی متون

  • سال انتشار: 1396
  • محل انتشار: سومین کنفرانس ملی رویکردهای نوین در مهندسی کامپیوتر و برق
  • کد COI اختصاصی: BPJ03_196
  • زبان مقاله: فارسی
  • تعداد مشاهده: 1466
دانلود فایل این مقاله

نویسندگان

مریم یوسفیان

دانشجو، کارشناسی ارشد نرم افزار کامپیوتر، دانشگاه آزاد اسلامی خرم آباد

حسام فولادوند

استادیار، دانشکده فنی مهندسی، گروه کامپیوتر، دانشگاه آزاد اسلامی خرم آباد

چکیده

روشن است که حجم اطلاعات فارسی روی اینترنت در حال افزایش است . این رشد عظیم اطلاعاتی، محققان را وادار می کند تا به فکر ایجاد و توسعه ابزارهایی برای مدیریت بهتر، پالایش و دسته بندی اطلاعات باشند تا بدین ترتیب، کاربر بتواند به راحتی نیازهای اطلاعاتی خود را در حداقل زمان ممکن برآورده سازد . برای مثال، کاربران اینترنت در هر زمان، نیاز به ابزارهایی دارند که ایمیل های دریافتیشان را مرتب و ایمیل های قدیمی و تکراری را پاک کنند . این ها مثال هایی از سیستم های دسته بندی متون می باشند . در این رساله، هدف اولیه ایجاد زیرساختی برای ارزیابی کارایی ماشین برداری پشتیبان به کمک الگوریتم ریشه یابی و بهبود عملکرد آن بود . برای رسیدن به این هدف، ابتدا مجموعه داده همشهری که یک مجموعه استاندارد در زبان فارسی است دانلود و برای انجام آزمایش ها آماده شد . از این مجموعه هم به عنوان مجموعه تست و هم به عنوان مجموعه آموزش استفاده شد . در ابتدا مجموعه آموزش با اعمال تقریب ا تمام تکنیک های پیش پردازش موجود از قبیل شاخص گذاری اسناد، الگوریتم ریشه یابی، حذف کلمات توقف، اعداد و همچنین استفاده از ماشین برداری پشتیبان آموزش داده شد. سپس برای ارزیابی دقت این مدل، از مجموعه تست در سه حالت تمام متن، حذف کلمات توقف و همچنین ریشه کلمات استفاده کردیم . نتایج آزمایش ها نشان داد که دقت، فراخوانی و کارایی ماشین برداری پشتیبان در حالتی که کلمات توقف از اسناد حذف شده باشند و همچنین ریشه کلمات به دست آمده باشد، نسبت به حالتی که اسناد در حالت تمام متن هستند بهبود داشته است

کلیدواژه ها

ماشین بردار پشتیبان، دسته بندی اسناد، سیستم های دسته بندی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.