بررسی اثر روابط بین خصیصه های سندها و دست هها در ضابط ههای روش های آماری انتخاب خصیصه در بهبود دسته بندی متون
- سال انتشار: 1382
- محل انتشار: یازدهمین کنفرانس مهندسی برق
- کد COI اختصاصی: ICEE11_037
- زبان مقاله: فارسی
- تعداد مشاهده: 1050
نویسندگان
دانشگاه تربیت مدرس، دانشکده فنی و مهندسی، گروه کامپیوتر
چکیده
در دسته بندی متون، معمولا از کلمات یک تائی متون بعنوان خصیصه استفاده می شود. در این مقاله تاثیر استفاده از کلما ت دوتائی، روی کارائی الگوریتم های دسته بندی بررسی می شود. نتایج بدست آمده نشان می دهد استفاده از ترکیبات دوتا ئی کلمات در متون، اطلاعات ارزشمندی در رابطه با دسته بندی به مجموعه اطلاعات اولیه اسناد (کلمات یک تائی) اضافه می کند و به این طریق کارائی روش های دسته بندی افزایش می یابد. بنابراین استفاده از روش نمایش اسناد به صورت مجموعه ای از خصیصه های یک تائی و دوتائی می تواند بعنوان روشی مناسب جهت نمایش اسناد در دست هبندی متون استفاده گردد. همچنین با توجه به وجود تعداد بسیار زیاد خصیصه متنی، روش هائی نیز به منظور کاهش تعداد خصیص ه ها و انتخاب خصیصه های مرتبط، پیشنهاد شده است. اکثر روش های انتخاب خصیصه از دو رابطه مثبت و دو رابطه منفی بین خصیصه های سندها و دسته استفاده می کنند که در این مقاله با در نظر گرفتن کلیه روابط مثبت و منفی بین خصیصه های سندها و دسته ها در ضابط ههای انتخاب خصیصه، یکبار کلیه روابط مثبت و منفی را با اثر مثبت و بار دیگ ر روابط مثبت را با اثر مثبت و روابط منفی را با اثر منفی در ضابطه انتخاب خصیصه لحاظ می کند . ضمن ارزیابی های انجام گرفته روی مجموعه های داده ای رویتر و نیگام، ملاحظه می شود که کلیه روابط مثبت و منفی، نقش موثری را در تعیین دسته سندها دارند و همچنین بهتر بودن نتایج ضابطه دوم، نشان دهنده تاثیر بیشتر روابط مثبت، نسبت به روابط منفی م یباشدکلیدواژه ها
دسته بندی متون، انتخاب خصیصه، نمایش اسناد، دسته بند، خصیصه های دوتائی، رابطه مثبت، رابطه منفیمقالات مرتبط جدید
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.