ارزیابی کارایی روش مبتنی بر مدل شی سند در استخراج متون اصلی اخبار فارسی
- سال انتشار: 1394
- محل انتشار: هفتمین کنفرانس بین المللی فناوری اطلاعات و دانش
- کد COI اختصاصی: ICIKT07_195
- زبان مقاله: فارسی
- تعداد مشاهده: 760
نویسندگان
دانشجوی کارشناسی ارشد، گروه کامپیوتر نرم افزار، دانشگاه آزاد اسلامی واحد میبد، میبد، ایران
عضو هیات علمی، گروه کامپیوتر نرم افزار، دانشگاه آزاد اسلامی واحد میبد، میبد، ایران
عضو هیات علمی، گروه کامپیوتر نرم افزار، دانشگاه آزاد اسلامی واحد میبد، میبد، ایران
چکیده
استخراج محتوای با کیفیت بالا، از صفحات خبری وب برای بسیاری از برنامه های کاربردی مانند بازیابی اطلاعات، طبقه بندی خودکار متن، ردیابی موضوع، ترجمه ماشین، خلاصه سازی چکیده و کمک به کاربران گوشی های تلفن همراه برای دسترسی آسان به اطلاعات، بسیار مهم است. نتایج استخراج داده اصلی برای بیشتر تجزیه و تحلیل ها حائز اهمیت می باشد. هدف مورد نظر در این تحقیق استخراج محتوا از صفحات فارسی وب می باشد در نتیجه باید از روشی استفاده شود که انعطاف پذیر و مستقل از گرامر متن صفحات وب بوده و مشکلات ناشی از تغییر ساختار صفحات وب را بطور قابل توجهی برطرف نماید و در عین حال وابستگی به زبان خاصی نداشته باشد. روش مورد استفاده ، یک روش تمام اتوماتیک و ساده و موثر برای استخراج محتوا از صفحات فارسی خبری وب می باشد. ایده اصلی آن بر اساس استفاده از ویژگی های مهم درخت مدل شیء سند و مقایسه علائم نقطه گذاری در متن اصلی و نویزها (مانند تبلیغات، لینکها، خبرهای مرتبط) است. نتایج حاصل از این تحقیق نشان می دهد که این روش، متن اصلی صفحات خبری وب را با دقت بالایی استخراج می کند.کلیدواژه ها
استخراج محتوا، درخت مدل شیء سند، صفحات خبری وب، وب کاویمقالات مرتبط جدید
- بررسی اجمالی اینترنت اشیاء و مشکلات امنیتی آن
- نقش فرماندهی و کنترل و سامانه های آن در نبرد های آینده
- نقش فناوری های بدون سرنشین در عملیات جنگ نوین
- نقش زیرساخت های نظامی سایبری در کنترل میدان جنگ (اقدامات الکترومغناطیسی سایبری)
- طراحی و شبیه سازی دروازه منطقی تمام نوری AND مبتنی بر بلور فوتونی با ابعاد کم و مناسب برای مدارهای مجتمع نوری
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.