مروری بر روش ها و پژوهش های دسته بندی خودکار متون فارسی

سال انتشار: 1398
محل انتشار: مجله علوم رایانشی، دوره: 4، شماره: 2
کد COI اختصاصی: JR_CSJI-4-2_003
زبان مقاله: فارسی
تعداد مشاهده: 45

نویسندگان

استادیار دانشکده علوم و فنون نوین، دانشگاه تهران

کارشناسی ارشد پردیس بین المللی، دانشگاه تهران

چکیده

دسته بندی اسناد متنی یا تشخیص عنوان به فرآیند شناسایی خودکار موضوع یک سند متنی (مانند هنری، ورزشی، سیاسی، `علمی و ...) گفته می شود که در کاربردهای مختلف پردازش زبان طبیعی مانند بازیابی اطلاعات و تحلیل متون مورد استفاده است. یک سامانه دسته بندی کننده خودکار متون، مشابه اغلب سامانه های بازشناسی الگو، از دو گام مهم استخراج ویژگی و دسته بندی تشکیل شده است. در این مقاله، مروری بر روش های رایج برای استخراج ویژگی و دسته بندی در این سامانه ها صورت گرفته و پژوهش هایی که در این حوزه برای زبان فارسی انجام شده است، مرور شده اند. همچنین، تحلیلی از نقاط قوت و ضعف روش های موجود و مقایسه کارهای صورت گرفته با همدیگر ارائه شده است.

کلیدواژه ها

دسته بندی متون فارسی, پردازش زبان طبیعی, مرور روش ها, استخراج ویژگی و دسته بندی

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.