ارزیابی کارایی روش مبتنی بر مدل شی سند در استخراج متون اصلی اخبار فارسی

  • سال انتشار: 1394
  • محل انتشار: هفتمین کنفرانس بین المللی فناوری اطلاعات و دانش
  • کد COI اختصاصی: ICIKT07_195
  • زبان مقاله: فارسی
  • تعداد مشاهده: 760
دانلود فایل این مقاله

نویسندگان

مریم شریفی یزدی

دانشجوی کارشناسی ارشد، گروه کامپیوتر نرم افزار، دانشگاه آزاد اسلامی واحد میبد، میبد، ایران

محمد جواد کارگر

عضو هیات علمی، گروه کامپیوتر نرم افزار، دانشگاه آزاد اسلامی واحد میبد، میبد، ایران

محمد رضا ملاخلیلی میبدی

عضو هیات علمی، گروه کامپیوتر نرم افزار، دانشگاه آزاد اسلامی واحد میبد، میبد، ایران

چکیده

استخراج محتوای با کیفیت بالا، از صفحات خبری وب برای بسیاری از برنامه های کاربردی مانند بازیابی اطلاعات، طبقه بندی خودکار متن، ردیابی موضوع، ترجمه ماشین، خلاصه سازی چکیده و کمک به کاربران گوشی های تلفن همراه برای دسترسی آسان به اطلاعات، بسیار مهم است. نتایج استخراج داده اصلی برای بیشتر تجزیه و تحلیل ها حائز اهمیت می باشد. هدف مورد نظر در این تحقیق استخراج محتوا از صفحات فارسی وب می باشد در نتیجه باید از روشی استفاده شود که انعطاف پذیر و مستقل از گرامر متن صفحات وب بوده و مشکلات ناشی از تغییر ساختار صفحات وب را بطور قابل توجهی برطرف نماید و در عین حال وابستگی به زبان خاصی نداشته باشد. روش مورد استفاده ، یک روش تمام اتوماتیک و ساده و موثر برای استخراج محتوا از صفحات فارسی خبری وب می باشد. ایده اصلی آن بر اساس استفاده از ویژگی های مهم درخت مدل شیء سند و مقایسه علائم نقطه گذاری در متن اصلی و نویزها (مانند تبلیغات، لینکها، خبرهای مرتبط) است. نتایج حاصل از این تحقیق نشان می دهد که این روش، متن اصلی صفحات خبری وب را با دقت بالایی استخراج می کند.

کلیدواژه ها

استخراج محتوا، درخت مدل شیء سند، صفحات خبری وب، وب کاوی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.