شناسایی ماکزیمم کلمات پرتکرار برای زبان های گوناگون

  • سال انتشار: 1396
  • محل انتشار: چهارمین کنفرانس ملی فناوری اطلاعات، کامپیوتر و مخابرات
  • کد COI اختصاصی: ITCT04_301
  • زبان مقاله: فارسی
  • تعداد مشاهده: 490
دانلود فایل این مقاله

نویسندگان

بهاره هاشم زاده

گروه کامپیوتر، دانشکده فنی و مهندسی، دانشگاه تربت حیدریه

مجید عبدالرزاق نژاد

گروه کامپیوتردانشکده فنی و مهندسی دانشگاه بزرگمهرقاینات

سیدمحمد جوادی مقدم

گروه کامپیوتر، دانشکده فنی و مهندسی، دانشگاه بزرگمهر قاینات

چکیده

یکی از چالشهای موجود بر سر راه شناسایی کلمات پرتکرار، وجود زبانهای بسیار متنوع برای اطلاعات متنی و وابستگی روش های موجود شناسایی کلمات پرتکرار به نوع زبان و ساختار کلامی آن زبان خاص می باشد. لذا هدف این پژوهش، طراحی الگوریتمی مستقل از زبان بهمنظور شناسایی کلمات پرتکرار میباشد. از این رو با تمرکز روی خاصیت تکرار کلمات در هر متن و نسبت تکرار آن در سایر متون این امر انجام شده ا ست و در نهایت ماکزیمم بیشترین تکرار به عنوان کلمه پرتکرار انتخاب میگردد. عملکرد الگوریتم پیشنهادی نیز تو سط معیار نرخ دقت ت ش خیص مورد ارزیابی قرار گرفته ا ست . لازم به ذکر ا ست که این الگوریتم با الگوریتم مبتنی بر گراف مقایسه گردیده ا ست، که نرخ دقت کلی الگوریتم پیشنهادی 82.2 %درصد بوده است

کلیدواژه ها

شناسایی، کلمات پرتکرار، زبان، ماکزیمم

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.