CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

استخراج کلمات کلیدی اسناد فارسی

عنوان مقاله: استخراج کلمات کلیدی اسناد فارسی
شناسه ملی مقاله: ACCSI13_067
منتشر شده در سیزدهمین کنفرانس سالانه انجمن کامپیوتر ایران در سال 1386
مشخصات نویسندگان مقاله:

مسلم محمدی جنقرا - عضو هیئت علمی دانشگاه آزاد اسلامی واحد ملکان
مرتضی آنالویی - استادیار دانشکده مهندسی کامپیوتر دانشگاه علم و صنعت ایران

خلاصه مقاله:
این مقاله، یک روش آماری ترکیبی، برای استخراج کلمات کلیدی ١ اسناد فارسی، پیشنهاد کرده است. روش پیشنهادی مبتنی بر پیکره متنی ٢ میباشد. ابتدا عمل ریشه یابی و حذف کلمات عم می ٣انجام میگیرد. سپس ویژگی های آماری برای کلمات مختلف محاسبه شده و با استفاده از فازی سازی و اعمال قواعد فازی، کلمات کلیدی محتمل، انتخاب می شوند. گام بعدی محاسبه رخداد ه مزمان ٤ پیشین و پسین کلمات کلیدی محتمل، با کلمات تکرار شونده، ٥ در جملات سند است. با اعمال یک آستانه وفقی ٦ روی رخداد همزمان کلمات، کلمات کلیدی دو کلمهای را مشخص می- کنیم. بر خلاف اکثر روش های آماری که فقط کلمات کلیدی یک کلمهای را استخراج می کنند، استفاده از این روش کلمات کلیدی دو کلمهای نیز استخراج می شوند. استفاده از ترکیب روش فازی و رخداد همزمان کلمات بهبود خوبی را نشان می دهد و کلمات کلیدی بامعنیتری پیشنهاد می کند

کلمات کلیدی:
استخراج کلمات کلیدی، اسناد فارسی، رخداد همزمان، فازی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/41661/