دسته بندی خودکار متون فارسی با استفاده از شبکه های عصبی

سال انتشار: 1389
محل انتشار: اولین کنفرانس ملی محاسبات نرم و فن آوری اطلاعات
کد COI اختصاصی: NCSCIT01_014
زبان مقاله: فارسی
تعداد مشاهده: 3773

دانلود فایل این مقاله

نویسندگان

محمد حسین بیات

گروه کامپیوتر - دانشگاه آزاد اسلامی واحد تفرش

سید محمد حسینی خوزانی

گروه کامپیوتر - دانشگاه آزاد اسلامی واحد تفرش

محبوبه گاپله

گروه کامپیوتر - دانشگاه آزاد اسلامی واحد تفرش

چکیده

گسترش اینترنت باعث افزایش نمایی حجم اسناد الکترونیکی نه تنها به زبان انگیلسی بلکه به زبان سایر کشورها شده است.دسته بندی متون بر اساس روش های مختلفی مانند مدل فضای برداری (VSM) , شبکه عصبی مصنوعی (ANN) , kهمسایه نزدیک (KNN) در میان محققین بازیابی اطلاعات و متون عمومیت یافته سات.در این مقاله کاربرد دو روش مدل فضای برداری و شبکه عصبی مصنوعی برای سدته بندی متون فارسی با استفاده از اسناد پیکره همشهری بررسی شده است.در روش های ارائه شده , با استفاده از تخصیص وزن , اهمیت کلمات در اسناد مشخص می شود. روش مدل فضا برداری نیازمند فضای برداری با ابعاد زیاد است در حالی که روش ارائه شده نیازمند تعداد ویژگی های کمتری است. نتایج آزمایشات نشان می دهد که استفاده از شبکه های عصبی برای دسته بندی اسناد فارسی در مقایسه با مدل فضا برداری از کارایی مناسب نری برخوردار است.

کلیدواژه ها

دسته بندی خودکار متون فارسی , مدل فضای برداری , شبکه های عصبی , یادگیری

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.