بهبود بازیابی اطلاعات بر اساس تشابه معنایی کلمات کلیدی با استفاده از رتبه دهی مبتنی بر گراف

  • سال انتشار: 1396
  • محل انتشار: چهارمین کنفرانس ملی فناوری اطلاعات، کامپیوتر و مخابرات
  • کد COI اختصاصی: ITCT04_149
  • زبان مقاله: فارسی
  • تعداد مشاهده: 762
دانلود فایل این مقاله

نویسندگان

سیدمحمد جوادی مقدم

عضوهییت علمی ،گروه کامپیوتر، دانشگاه بزگمهر ، قاینات

مجید عبدالرزاق نژاد

عضو هییت علمی، گروه کامپیوتر، دانشگاه بزرگمهر، قاینات

مهناز قادری فریز

دانشکده مهندسی کامپیوتر ، گروه نرم افزار ، دانشگاه آزاد اسلامی ، بیرجند

چکیده

کلمات کلیدی در اسناد متنی ، کلماتی از متن اسنادهستند که بیشترین بار مفهومی متن را به همراه داشته و نیزیک نسخه فشرده متن محسوب می شود در نتیجه نیاز به روش های استخراج خودکار کلمات کلیدی را به شدت افزایش داده اخیرا روش های رتبه بندی مبتنی بر گراف کاربرد موفقی در حوزه وب داشته یک مشکل عمده اکثراین روش ها تاکید بیش از حد بر پارامترهم جواری کلمات در ایجاد و وزندهی یال های گراف متنی و صرف نظر از شاخص های آماری شده است . در این پژوهش برانیم شباهت معنایی کلمات کلیدی را به صورت فرمتپیچیده تری از متغیر TF-IDF )روش وزندهی کلاسیک( به عنوان شاخص آماری بیان کنیم. با تعریف متغیر جدید که بیانگر ترتیب کاهنده از احتمال ارتباطشان با پرس وجوی کاربر است و یک روش مشخص به عنوان رتبه بندی احتمال ؛ الگوریتم معروف BM25 است ، در این پژوهش اطلاعات آماری روش رتبه بندی احتمال ارتباطکلمات کلیدی، از جمله تعداد اسناد مشابه و اسناد کل مجموعه در وزندهی گراف استفاده شده است.هدف این مقاله این است که شباهت معنایی اسناد مختلف با سند مورد نظربررسی کنیم با رتبه بندی کلمات کلیدی مجموعه اسناد مرجع ، اسنادی که دارای کلمات کلیدی با بالاترین اولویت اند ، شبیه ترین اسناد به سند مورد بررسی است. مقایسه نتایج روش جدید با روش های قبلی افزایش دقت 93 %در اسناد استخراج شده مشابه سند مورد بررسی را نشان می دهد.

کلیدواژه ها

اطلاعات آماری ، رتبه دهی مبتنی بر گراف ، کلمه کلیدی ، کلمات کلیدی استخراجی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.