ناشر تخصصی کنفرانس های ایران

لطفا کمی صبر نمایید

Publisher of Iranian Journals and Conference Proceedings

Please waite ..
CIVILICAWe Respect the Science
ناشر تخصصی کنفرانسهای ایران
عنوان
مقاله

استخراج اطلاعات از وب سایت های خبری فارسی با استفاده از ترکیب روش DOM و آنتولوژی

سال انتشار: 1399
کد COI مقاله: ITCT11_043
زبان مقاله: فارسیمشاهد این مقاله: 24
فایل این مقاله در 21 صفحه با فرمت PDF قابل دریافت می باشد

خرید و دانلود فایل مقاله

با استفاده از پرداخت اینترنتی بسیار سریع و ساده می توانید اصل این مقاله را که دارای 21 صفحه است به صورت فایل PDF در اختیار داشته باشید.
آدرس ایمیل خود را در کادر زیر وارد نمایید:

مشخصات نویسندگان مقاله استخراج اطلاعات از وب سایت های خبری فارسی با استفاده از ترکیب روش DOM و آنتولوژی

ابوالفضل باقری - گروه کامپیوتر، دانشکده فنی و مهندسی، واحد اصفهان (خوراسگان)، دانشگاه آزاد اسلامی، خوراسگان، اصفهان، ایران
کیوان محبی - گروه برق و کامپیوتر، واحد مبارکه، دانشگاه آزاد اسلامی، مبارکه، اصفهان، ایران

چکیده مقاله:

استخراج محتوای با کیفیت بالا، از صفحات خبری وب برای بسیاری از برنامه های کاربردی مانند بازیابی اطلاعات، طبقه بندی خودکار متن، ترجمه ماشین، خلاصه سازی چکیده و کمک به کاربران گوشی های تلفن همراه برای دسترسی آسان به اطلاعات، بسیار مهم است. از این رو فراهم سازی تدابیری با چنین قابلیتی، ارزش و اهمیت بالایی در عصر ارتباطات و اطلاعات امروزی دارد. بر همین اساس تحقیقات گسترده ای در این حوزه مهم ارائه شده اند. اما اکثر این تحقیقات تمرکزشان وب کاوی و بازیابی سایت های انگلیسی زبان بوده و پژوهش های اندکی برای استخراج محتوا از صفحات فارسی وب معرفی شده اند. هدف از پژوهش پیشنهادی بهبود این حوزه و به طور تخصصی تر بهبود استخراج محتوا از صفحات فارسی وب سایت های خبری می باشد. در پژوهش پیش رو جهت حذف نویز از درخت DOM استفاده شده است. یکی از روش های استخراج اطلاعات استفاده از آنتولوژی می باشد. با استفاده از پیکره متنی همشهری به ساخت آنتولوژی در حوزه اخبار ورزشی می پردازیم. سپس با استفاده از آنتولوژی ساخته شده اخبار فارسی را از تعدادی وب سایت خبری استخراج می نمائیم. نتایج حاصل از این پژوهش نشان می دهد که این روش، متن اصلی صفحات خبری وب را با دقت بالایی استخراج می کند.

کلیدواژه ها:

وب کاوی، استخراج اطلاعات، وب سایت های خبری فارسی، روش DOM، آنتولوژی

کد مقاله/لینک ثابت به این مقاله

برای لینک دهی به این مقاله می توانید از لینک زیر استفاده نمایید. این لینک همیشه ثابت است و به عنوان سند ثبت مقاله در مرجع سیویلیکا مورد استفاده قرار میگیرد:

https://civilica.com/doc/1197111/

نحوه استناد به مقاله:

در صورتی که می خواهید در اثر پژوهشی خود به این مقاله ارجاع دهید، به سادگی می توانید از عبارت زیر در بخش منابع و مراجع استفاده نمایید:
باقری، ابوالفضل و محبی، کیوان،1399،استخراج اطلاعات از وب سایت های خبری فارسی با استفاده از ترکیب روش DOM و آنتولوژی،یازدهمین کنفرانس بین المللی فناوری اطلاعات،کامپیوتر و مخابرات،،،https://civilica.com/doc/1197111

در داخل متن نیز هر جا که به عبارت و یا دستاوردی از این مقاله اشاره شود پس از ذکر مطلب، در داخل پارانتز، مشخصات زیر نوشته می شود.
برای بار اول: (1399، باقری، ابوالفضل؛ کیوان محبی)
برای بار دوم به بعد: (1399، باقری؛ محبی)
برای آشنایی کامل با نحوه مرجع نویسی لطفا بخش راهنمای سیویلیکا (مرجع دهی) را ملاحظه نمایید.

مدیریت اطلاعات پژوهشی

صدور گواهی نمایه سازی | گزارش اشکال مقاله | من نویسنده این مقاله هستم

اطلاعات استنادی این مقاله را به نرم افزارهای مدیریت اطلاعات علمی و استنادی ارسال نمایید و در تحقیقات خود از آن استفاده نمایید.

علم سنجی و رتبه بندی مقاله

مشخصات مرکز تولید کننده این مقاله به صورت زیر است:
نوع مرکز: دانشگاه آزاد
تعداد مقالات: 9,934
در بخش علم سنجی پایگاه سیویلیکا می توانید رتبه بندی علمی مراکز دانشگاهی و پژوهشی کشور را بر اساس آمار مقالات نمایه شده مشاهده نمایید.

مقالات مرتبط جدید

به اشتراک گذاری این صفحه

اطلاعات بیشتر درباره COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.

پشتیبانی