ارائه مدل دسته بندی متون فارسی با استفاده از ترکیب مدل گوسین وبیزین
- سال انتشار: 1398
- محل انتشار: پنجمین کنفرانس پردازش سیگنال و سیستم های هوشمند
- کد COI اختصاصی: SPIS05_006
- زبان مقاله: فارسی
- تعداد مشاهده: 932
نویسندگان
دانشجوی کارشناسی ارشد دانشگاه صنعتی شاهرود
عضو هیئت علمی دانشگاه صنعتی شاهرود
چکیده
هدف از دسته بندی اسناد، نگاشت اسناد متنی به چند دسته از قبل تعیین شده است. به دلیل رشد روز افزون متون، توجه زیادی به دسته بندی اسناد شده است. اما تجمیع نظر کارشناسان، امری چالش پذیر بوده و باعث اتلاف زمان می شود. بنابراین در سال های اخیر الگوریتم های گوناگونی برای دسته بندی خودکار اسناد، پیشنهاد شده است که البته اکثر آن ها در زمینه متون لاتین ارائه گردیده است و اخیرا به بررسی متون چینی و عربی و فارسی توجه شده است. هدف این مقاله، بررسی دسته بندی داده های فارسی می باشد که از ترکیب دو الگوریتم بیزین وگوسین، برای بهره بردن از مزیت های این دو الگوریتم، استفاده کرده ایم. در روش ارائه شده، دسته بندی متون فارسی به وسیله ی پیکره ی همشهری 2 مورد آزمایش قرار داده شده است و با روش نرمال شده ی تکرار کلمه درمعکوس تکرارسند (TF-IDF) به ویژگی ها وزن داده می شود و سپس مدل پیشنهادی پیاده سازی می شود. روش پیشنهادی برای دسته بندی این پیکره به 6 دسته، به دقت 93.04 درصد رسیده است که در مقایسه با سایر روش های ارائه شده برای متون فارسی دقت بیشتری داشته است.کلیدواژه ها
دسته بندی متون فارسی، تئوری بیزین، تئوری گوسین، فرکانس کلمه و معکوس سندمقالات مرتبط جدید
- بررسی تاثیر سود آوری بر ساختار سرمایه و سرعت تعدیل اهرم مالی در شرکت های پذیرفته شده در بورس اوراق بهادار تهران
- بررسی تاثیر هوش معنوی بر رفتار برنامه ریزی شده در بین سهام داران یزدی در بورس اوراق بهادار تهران
- بررسی تاثیر دانش مالی، تجربه مالی بر رفتار برنامه ریزی شده در بین سهام داران یزدی در بورس اوراق بهادار تهران
- تاثیر سیستم های اطلاعاتی بر موفقیت شرکت با نقش میانجی کیفیت اطلاعات غیر مالی
- بررسی رابطه بین انگیزش و کارایی در سازمان (مطالعه موردی: اداره راه و شهرسازی شهرستان لارستان)
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.