دسته بندی متون فارسی با استفاده از قواعدانجمنی

سال انتشار: 1389
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 2,050

فایل این مقاله در 13 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IDMC04_032

تاریخ نمایه سازی: 15 دی 1389

چکیده مقاله:

برای دسته بندی متن از تکنیکهای استخراج اطلاعات پردازش زبان طبیعی و یادگیری ماشین بطور وسیع استفاده می شود بطور کلی هدف یک دسته بند متون دسته بندی اسناد در قالب تعداد معینی از دسته های از پیش تعیین شده می باشد هر سند می تواند در یک چند و یا هیچ دسته ای قرار بگیرد دراین تحقیق از روش دسته بندی برمبنای قواعد انجمنی که از روی فرایند کاوش الگوهای مکرر مجموعه داده های اموزشی تولید شده اند برای دسته بندی متون فارسی استفاده می شود این فرایند با فرایندی که در داده کاوی داده های بزرگ پایگاه داده ها استفاده می شود یکسان می باشد یکی از مهمترین الگوریتمهایی که برای تولید قواعد انجمنی بکار می رود الگوریتم Apriori می باشد دراین تحقیق از CBA (Classification Based on Association که برای این کار برد مناسب تشخیص داده شد استفاده شده است. برای استخراج کلمات کلیدی متون از تکنیک TFIDF و از نرم افزار قدرتمند Weka استفاده شده است.

کلیدواژه ها:

طبقه بندی متون فارسی ، دسته بندی متون فارسی ، قواعد انجمنی ، قواعد دسته بندی ، استخراج کلمات کلیدی ، داده کاوی متن

نویسندگان

سیدمحمدحسین احمدی

دانشجوی کارشناسی ارشد مهندسی نرم افزار دانشگاه پیام نور واحد تهران

سیدامیرحسن منجمی

استادیار گروه مهندسی کامپیوتر دانشکده فنی مهندسی دانشگاه اصفهان

سیدسعید آیت

استادیار دانشگاه پیام نور مرکز نجف آباد