ریشه یابی کلمات با استفاده از شبکه ی بیزین ساده و کاربرد آن به همراه استفاده از یک الگوریتم جدید درتعیین میزان مشابهت متون

فاطمه کاظمی ونهری; علی احمدی; مهران محسن زاده

ریشه یابی کلمات با استفاده از شبکه ی بیزین ساده و کاربرد آن به همراه استفاده از یک الگوریتم جدید درتعیین میزان مشابهت متون

محل انتشار: یازدهمین کنفرانس سراسری سیستم های هوشمند

سال انتشار: 1391

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 853

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/214689

شناسه ملی سند علمی:

ICS11_107

تاریخ نمایه سازی: 14 مهر 1392

چکیده مقاله:

امروزه از ریشه یاب ها استفاده های بسیاری در مسائل مربوط به حوزه زبان طبیعی، داده کاوی و بازیابی اطلاعات میشود. از جمله مسائل مورد بحث در حوزه ی زبان طبیعی، مسئلهی تشخیص میزان مشابهت متون است. قبل از تشخیص میزان مشابهت متون، عملیاتی تحت عنوان پیش پردازش بر روی متون انجام می گیرد. پیش پردازش ها شامل انجام فعالیت هایی بر روی متن است که باعث می شوند نتایج الگوریتم پیدا کردن تشابه، بهتر گردد. پیش پردازشها به طور کلی شامل مراحل حذف علائم نقطه گذاری، جداسازی کلمات، حذف اعداد، حذف کلمات پرتکرار و ریشه یابی است. در این مقاله پس از انجام چهار مرحله ی ابتدایی پیش پردازش، با ارائه ی یک الگوریتم جدید مبتنی بر شبکه ی بیزین ساده، به انجام یک مرحله ی اضافی دیگر تحت عنوان دسته بندی کلمات می پردازیم و از نتایج دسته بندی در مرحله ی ریشه یابی استفاده می کنیم. سپس به بررسی کاربرد آن الگوریتم به همراه استفاده از یک الگوریتم جدید بر مبنای تئوری احتمال کل، و فاصله یابی در فضای برداری، به تشخیص میزان مشابهت متون می پردازیم. بررسی های ما نشان می دهد که الگوریتم های ارائه شده توانسته اند نتایج بسیار خوبی را در زمینهی ریشه یابی و تعیین میزان مشابهت متون بدست آورند

کلیدواژه ها:

دسته بندی کلمات ، ریشه یابی ، شینگل ، فضای برداری ، میزان مشابهت

نویسندگان

فاطمه کاظمی ونهری

دانشگاه آزاد اسلامی واحد علوم و تحقیقات تهران

علی احمدی

دانشگاه صنعتی خواجه نصیرالدین طوسی

مهران محسن زاده

دانشگاه آزاد اسلامی واحد علوم و تحقیقات تهران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

A. G. Jivani et al, _ Comparative Study of Stemming ...
Taghva, Beckley and Sadeh. 2005. A stemming algorithm for the ...
Z. Ceska , C. Fox, The Influence of Text Pre-processing ...
M. R. D a varpanah, Farsi Lexical analysis and stopword ...
http://www. emeraldin sight.com/i ournal s.htm?i ssn=0737-883 1 ...
T. M. Mitchell, "Machin Learning", McG raw-Hill S c ience/Engineeri ...
M. Potthast and B. Stein, " New Issues in Near-duplicate ...
D. Anzelemi, D. Carlone, F. Ri zello, ;Plagiari STm detection ...
Dougla s, Wendy, Randy, "Copy detection system for digital ...

نمایش کامل مراجع