گام نخست در کاوش متون فارسی
- سال انتشار: 1386
- محل انتشار: اولین کنفرانس داده کاوی ایران
- کد COI اختصاصی: IDMC01_021
- زبان مقاله: فارسی
- تعداد مشاهده: 4050
نویسندگان
دانشگاه آزاد اسلامی واحد نجف آباد،
عضو هیات علمی دانشگاه صنعتی اصفهان، استاد مدعو دانشگاه آزاد اسلامی و
دانشگاه صنعتی اصفهان
چکیده
طبقه بندی بر مبنای فاصله برای طبقه بندی متون فارسی پیشنهاد داده شده است . طبقه بند، در فاز یادگیری، مجموعه - ای از متون آموزشی را برای استخراج ویژگیهای دستهها بررسی میکند تا خصوصیات اصلی ویژه دسته را بدست آورد . بطوریکه در فاز تست طبقهبند، این ویژگیهای مختص دسته برای طبقه بندی متون طبقهبندی نشده بهکار میرود . از stemming برای کاهش دیمانسیون بردارهای ویژگی استفاده میشود . دقت طبقهبند بوسیله اعمال الگوریتم روی مجموعه جمعآوری شدهای از متون فارسی، مورد آزمایش قرار گرفته است . نتایج حاصله نشان میدهد که طبقهبند پیشنهادی از دقت بالایی برخوردار است . مجموعهای از متون فارسی که از روی سایتهای خبری موجود در وب جمع آوری شده است، برای انجام این تحقیق بکار میرود . این متون در ابتدا بوسیله از بین بردن علائم نقطهگذاری و کلمات بیفایده، پیش پردازش میشوند . در طبقهبند برای نمایش هر متن از یک بردار ویژگی استفاده میشود که شامل کلمات شاخص و میزان تکرار آن کلمات در متن میباشد . پیشگویی طبقهبند بر پایه فرضیات آماری استوار است که متونی که در دسته یکسانی قرار میگیرند، ویژگیهای مشابهی دارند . برای طبقهبندی متن جدید، ابتدا بردار ویژگی آن متن ساخته شده، سپس با بردارهای ویژگی دستهها مقایسه میشود . دسته برنده، دستهای است که به متن جدید نزدیکتر است . این ایده طبقهبندی k-NN میباشدکلیدواژه ها
طبقهبندی متن، یادگیری ماشین، زبان فارسی، K-NN Classifierمقالات مرتبط جدید
- کارآفرینی در کتابخانه های عمومی با راه اندازی خدمات مشاوره اطلاعاتی و مشاوره خوانندگان
- متاورس: مباحثی از فرصت های حرفه ای و مشاغل در گستره فناوری نوین
- بررسی معماری و بلوغ کسب و کار رایانش ابری بر مبنای مدیریت امنیت اطلاعات در علم اطلاع شناسی (مطالعه موردی شرکت های دانش بنیان پارک فناوری ارتباطات و اطلاعات)(چارچوب همکاری های بین رشته ای و فرا رشته ای برای کارآفرینی دانش بنیان)
- ایجاد سازمان نظام مدیریت اطلاعات و دانش (نماد)
- لزوم توجه به فرصت های جدید بازارکار در محتوای درسی رشته علم اطلاعات و دانش شناسی
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.