PersianWord Sense Disambiguation Corpus Extraction Based onWeb CrawlerMethod
- سال انتشار: 1394
- محل انتشار: مجله بین المللی پیشرفت در علوم کامپیوتر، دوره: 4، شماره: 5
- کد COI اختصاصی: JR_ACSIJ-4-5_015
- زبان مقاله: انگلیسی
- تعداد مشاهده: 529
نویسندگان
Artificial Intelligence MSc. Student ICT Department, Malek-e-Ashtar University of Technology Tehran, Iran
Assistant Professor ICT Department, Malek-e-Ashtar University of Technology Tehran, Iran
چکیده
Finding an appropriate dataset for natural language processing applications is one of the main challenges for researches of this field. This issue is more problematic in Non-Latin languagesespecially Persian language. Access to an appropriate dataset that can be used in development of practical programs in languageprocessing field, helps us to validate the obtained results and provide the feasibility for comparison and precise analysis of theresearch studies in this field. This paper presents the procedure for extracting a standard dataset in Persian language. This datasetcan only be used for research studies in the field of word-sensedisambiguation in Persian language. The required documents that include the ambiguous words of interest are collected by acrawling robot; then these words are processed and registered in Persian dataset for ambiguous words. In this research, threeprevalent Persian ambiguous word are used for extracting appropriate phrases that included these words. Finally, aframework for creating the proper configuration for applicationin word-sense disambiguation problems is presented. By using of this method, we have a solution for absence of suitable word sense disambiguation corpus in Persian languageکلیدواژه ها
Natural language processing, Word sense disambiguation, Information Extraction, Corpus, Machine learningمقالات مرتبط جدید
- سیستم تشخیص نفوذ در محیط رایانش ابری با استفاده از یادگیری ویژ گی
- کاهش هزینه تعمیراتی ماشین های سنگین از طریق بهبود الگوریتم درخت تصمیم با الگوریتم های انتخاب ویژگی Information Gain ،Correlation و SVM
- پردازش کوانتومی تصاویر پزشکی و تشخیص لبه آن با استفاده از الگوریتم QHED
- بررسی و مقایسه روشهای تشخیص اکانت های جعلی در شبکه های اجتماعی
- مکان یابی و مقدار بهینه منابع تولید پراکنده به منظورکاهش تلفات و بهبود انحراف ولتاژ شبکه نامتعادل توزیع
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.