طبقه بندی متون فارسی با استفاده از ماشین بردار پشتیبان و فازی
- سال انتشار: 1396
- محل انتشار: دومین کنفرانس بین المللی پژوهش های دانش بنیان در مهندسی کامپیوتر و فناوری اطلاعات
- کد COI اختصاصی: CITCOMP02_171
- زبان مقاله: فارسی
- تعداد مشاهده: 712
نویسندگان
گروه کامپیوتر، دانشکده فنی و مهندسی، واحد شبستر، دانشگاه آزاد اسلامی، شبستر، ایران
استادیار گروه کامپیوتر، دانشکده فنی و مهندسی، واحد شبستر، دانشگاه آزاد اسلامی، شبستر، ایران
چکیده
با رشد سریع و روز افزون اطلاعات، طبقه بندی مستندات یکی از ابزارهای کلیدی برای سازماندهی و مدیریت داده های متنی به شمار می آید که در کاربردهایی مانند تقسیم بندی اخبار، نامه های الکترونیکی و اطلاعات آنلاین مورد استفاده قرار می گیرد. در واقع طبقه بندی متون، انتساب یک سند نامشخص به کلاس های از پیش تعریف شده ی اسناد است و هر سند می تواند به یک یا چند کلاس تعلق داشته باشد. با وجود کارهای خوب صورت گرفته در زمینه متون فارسی، هنوز برخی از چالش ها به صورت حل نشده باقی مانده اند. از جمله چالش های اساسی در حوزه طبقه بندی متون فارسی، نبود روش استخراج ویژگی مناسب و متناسب با تکنیک های موجود طبقه بندی دقیق است.ما در این مقاله، یک روش جدید طبقه بندی برای اسناد فارسی با استفاده از ترکیب روش ماشین بردار پشتیبان و تصمیم گیری چندمعیاره فازی ارایه کرده ایم. معیارهای موثر در طبقه بندی اسناد، سه معیار فراوانی یک کلمه در کل اسناد پیکره، نسبت تعداد تکرار یک کلمه در یک سند به تعداد کل کلمات آن سند و عضویت یک کلمه در اسناد پیکره هستند. به منظور ارزیابی کارایی روش پیشنهادی، نتایج آزمایش های شبیه سازی با روش طبقه بندی بیزین ساده و نزدیکترین همسایه مقایسه شده اند. نتایج بدست آمده از اجرای روش پیشنهادی بر روی مجموعه استاندارد همشهری در چهار حوزه ورزشی، سیاسی، علمی و اقتصادی بیانگر بهبود دقت، فراخوانی و میزان خطاست.کلیدواژه ها
طبقه بندی متون، منطق فازی، اسناد فارسی، استخراج ویژگیمقالات مرتبط جدید
- مرور سیستماتیک کاربرد هوش مصنوعی در موسیقی
- In-silico Analyses for Finding Potential Key Genes and Pathways Associated with Guillain-Barré Syndrome Using Computational Tools
- OCD Severity Based on EEG Signals
- Investigating the (non) -Impact of Customizing Knowledge Bases of Artificial Intelligence -Driven Robot on Language for Specific Purposes Learning
- The Need for Telehealth and Tele-Educationon in Optimizing Measles Surveillance and Reducing Healthcare Costs
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.