شناسایی و ردیابی موضوعات ارائه شده در متون اخبار با استفاده از تکنیک خوشه بندی برخط

سال انتشار: 1399
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 322

فایل این مقاله در 10 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ELEMECHCONF06_154

تاریخ نمایه سازی: 22 آذر 1399

چکیده مقاله:

پیگیری جریانهای موضوعات یکی از فناوری هایی است که در زمینه متنکاوی توسعه یافته است. هدف اصلی در ردیابی موضوع، شناسایی و دنبال کردن رویدادهای آینده در منابع مختلف خبری متنی است. ردیابی موضوع، اطلاعات پراکنده را در متون مختلف با هم تجمیع کرده و رسیدن به یک درک کلی را برای کاربر آسان میکند. در این پژوهش شناسایی و ردگیری جریانهای موضوعات خبری با استفاده از الگوریتم های خوشه بندی برخط مورد بررسی قرار گرفته است. عموم روش ها مطرح در این زمینه، امکان شناسایی و ردگیری موضوعات خبری را در قالب گروه های به هم پیوسته اسناد خبری ارائه نمی دهند که باعث خواهد شد تا استفاده کاربر از خروجی این کار دارای کارایی مناسب نبوده و ساده نباشد. برای حل این مشکل در این تحقیق از الگوریتم های خوشه بندی برخط برای حل این مشکل و به منظور حصول امکان شناسایی و ردگیری جریان های موضوعات خبری با کیفیت مناسب استفاده شد. برای ارزیابی از مجموعه داده 1800 سند با 32 موضوع استفاد شده است. زیرمجموعه ای از این اسناد در طی 10 دوره (روز) به عنوان ورودی به فرایند داده شده و داستانهای موجود طی فرایند ردگیری اخبار، استخراج و مورد ارزیابی قرار گرفته است. نتایج تجربی نشان داد که روش پیشنهادی به طور میانگین از دو روش مورد مقایسه Kmeans و DBScan بهتر عمل کرده است.

کلیدواژه ها:

نویسندگان

سینا دامی

استادیار گروه کامپیوتر، دانشکده فنی و مهندسی، واحد تهران غرب، دانشگه آزاد اسلامی، تهران، ایران

رضا احتشامی فر

دانشجوی کارشناسی ارشد IT، دانشکده فنی و مهندسی، واحد تهران غرب، دانشگه آزاد اسلامی، تهران، ایران