استخراج کلمات کلیدی متن فارسی با استفاده از آنالیز معنایی

  • سال انتشار: 1394
  • محل انتشار: کنفرانس بین المللی مهندسی و علوم کاربردی
  • کد COI اختصاصی: ICEASCONF01_029
  • زبان مقاله: فارسی
  • تعداد مشاهده: 1516
دانلود فایل این مقاله

نویسندگان

هادی ویسی

استادیار، دانشکده علوم فنون دانشگاه تهران

نیلوفر افلاکی

دانشجوی کارشناسی ارشد، پردیس بین الملل کیش دانشگاه تهران

چکیده

تمامی متون و اسناد برای ارائه ی یک نظریه، نوآوری و یا اطلاع عمومی نوشته می شوند و هریک ایده ی منحصربه فرد خود را دارا می باشند.این گونه اسناد را می توان در مجموعه ای از لغات خلاصه نمود؛ که این لغات، کلمات کلیدی نام دارند. با مطالعه این مجموعه از کلمات، در طی فرایند جست وجو، می توان به هدف اصلی سند پی برد و اگر متناسب با موضوع مورد جست وجو بودند، به مطالعه کل سند پرداخت. کلمات کلیدی مهم ترین کلمات و عبارات یک متن در نظ ر گرفته می شوند زیرا ایده ی اصلیو بنیادی یک متن را در قالب عباراتی کوتاه، خلاصه و مفید بیان می نمایند. در این مقاله به استخراج کلمات کلیدی متن فارسی با استفاده از آنالیز معنایی پرداختیم. بدین صورت که مجموعه متون گردآوری شده از سایت های خبری فارسی زبان را با کلمات کلیدی پیش فرض شان در نظر گرفته؛ سپس کلمات کلیدی آن ها را توسط آنالیز معنایی با استفاده از الگوریتم لسک، که یک الگوریتم مقایسه ای است، استخراج نموده و کلمات استخراج شده را با کلمات کلیدی پیش فرض مقایسه نموده و نتایج حاصل را به صورت فراخوانی و دقت و مقایسه آن ها با روش فرکانس عبارت، که یکی از روش های متداول استخراج کلمات کلیدی است، ذکر نمودیم.

کلیدواژه ها

، آنالیز معنایی، شباهت معنایی، متن فارسی

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.