گام نخست در کاوش متون فارسی

آذر شاهقلیان; محمدحسین سرایی; علی شالبافزاده

گام نخست در کاوش متون فارسی

محل انتشار: اولین کنفرانس داده کاوی ایران

سال انتشار: 1386

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 4,133

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > یادگیری ماشین

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/32998

شناسه ملی سند علمی:

IDMC01_021

تاریخ نمایه سازی: 20 خرداد 1386

چکیده مقاله:

طبقه بندی بر مبنای فاصله برای طبقه بندی متون فارسی پیشنهاد داده شده است . طبقه بند، در فاز یادگیری، مجموعه - ای از متون آموزشی را برای استخراج ویژگیهای دستهها بررسی میکند تا خصوصیات اصلی ویژه دسته را بدست آورد . بطوریکه در فاز تست طبقهبند، این ویژگیهای مختص دسته برای طبقه بندی متون طبقهبندی نشده بهکار میرود . از stemming برای کاهش دیمانسیون بردارهای ویژگی استفاده میشود . دقت طبقهبند بوسیله اعمال الگوریتم روی مجموعه جمعآوری شدهای از متون فارسی، مورد آزمایش قرار گرفته است . نتایج حاصله نشان میدهد که طبقهبند پیشنهادی از دقت بالایی برخوردار است . مجموعهای از متون فارسی که از روی سایتهای خبری موجود در وب جمع آوری شده است، برای انجام این تحقیق بکار میرود . این متون در ابتدا بوسیله از بین بردن علائم نقطهگذاری و کلمات بیفایده، پیش پردازش میشوند . در طبقهبند برای نمایش هر متن از یک بردار ویژگی استفاده میشود که شامل کلمات شاخص و میزان تکرار آن کلمات در متن میباشد . پیشگویی طبقهبند بر پایه فرضیات آماری استوار است که متونی که در دسته یکسانی قرار میگیرند، ویژگیهای مشابهی دارند . برای طبقهبندی متن جدید، ابتدا بردار ویژگی آن متن ساخته شده، سپس با بردارهای ویژگی دستهها مقایسه میشود . دسته برنده، دستهای است که به متن جدید نزدیکتر است . این ایده طبقهبندی k-NN میباشد

کلیدواژه ها:

طبقهبندی متن ، یادگیری ماشین ، زبان فارسی ، K-NN Classifier

نویسندگان

آذر شاهقلیان

دانشگاه آزاد اسلامی واحد نجف آباد،

محمدحسین سرایی

عضو هیات علمی دانشگاه صنعتی اصفهان، استاد مدعو دانشگاه آزاد اسلامی و

علی شالبافزاده

دانشگاه صنعتی اصفهان