ارائه روشی برای استخراج کلمات کلیدی در زبان فارسی

  • سال انتشار: 1394
  • محل انتشار: دومین کنفرانس بین المللی و سومین همایش ملی کاربرد فناوری های نوین در علوم مهندسی
  • کد COI اختصاصی: ITCC02_273
  • زبان مقاله: فارسی
  • تعداد مشاهده: 1487
دانلود فایل این مقاله

نویسندگان

معین معادی

کارشناس ارشد مهندسی فناوری اطلاعات، دانشگاه پویندگان دانش چالوس

کاظم فولادی قلعه

دانشکده مهندسی برق و کامپیوتر، پردیس دانشکده های فنی، دانشگاه تهران

چکیده

کلمه (یا واژه) واحد سازنده ی متن است و هر کلمه تشکل یافته از واج به عنوان کوچک ترین بخش از نوشتار است. تشخیص نقش و اهمیت کلمه و رابطه ی بین کلمات، شاخص های مهمی در کاوش متن می باشند که کلید حل مسائل مشخصی در پردازش متن است. از این رو در تمامی سیستم های پردازش اطلاعات، کلمه و روابط بین کلمات، پردازش می شود. در این پژوهش روشی جدید برای استخراج کلمات کلیدی با استفاده از ویژگی های آماری و بردار رخداد کلمه در هر متن، ارائه شده است. این روش برای زبان فارسی بر روی متن منفرد و بدون درنظر گرفتن دامنه ی موضوعی متون اجرا می شود. این پیاده سازی با مجموعه دده ی تشکیل شده برای این پژوهش که دربرگیرنده ی 100 مقاله ی معتبر فارسی است، ارزیابی و با کلمات کلیدی مشخص شده توسط نویسنده هر مقاله مقایسه شده است و معیارهای بازیابی و دقت محاسبه شده برای کل مجموعه داده نتایج قابل توجهی را نشان می دهد.

کلیدواژه ها

کلمات کلیدی، کلید واژه ها، متن کاوی، ویژگی آماری

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.