دسته بندی حودکار اسناد فارسی به کمک هستان شناسی فارسی نت

سال انتشار: 1391
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,330

فایل این مقاله در 9 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICS11_112

تاریخ نمایه سازی: 14 مهر 1392

چکیده مقاله:

روش های رایج برای نمایش اسناد به مانند کیسه لغات (Bag of Word) ، تنها شکل ظاهری عبارات را مورد بررسی قرار می دهند.، در حالی که در این روش ها، وابستگی و روابط میان عبارات کمتر مورد توجه قرار می گیرد. به همین منظور در این مقاله، از مشخصه معنایی برای غلبه بر این محدودیت و توجه به بافت معنایی متون، استفاده شده است. در رویکرد پیشنهادی، ابتدا مفاهیم توسط هستان شناسی لغوی فارس نت استخراج شده و پس از اعمال فرایند رفع ابهام، با توجه به بافت متن، اوزان مفهوم مرتط در حین فرایند وزن دهی به وزن عبارات کلیدی اضافه می شود. این مقاله، رویکردی جدید در حین استفاده از روش اولین مفهوم به منظور رفع ابهام از مفاهیم استخراج شده، معرفی می کند که کارایی این روش را بهبود می دهد. در این مقاله، الگوریتم χ2 در بخش انتخاب مشخصه و روش وزن دهی ویژگی نرمال شده TFIDF در وزن دهی به کار گرفته می شود. نتایج به دست آمده نشان می دهد که اعمال دانش معنایی حاصل ار هستان شناسی لغوی در فرایند طبقه بندی متون یک گام موثر در بهبود کارایی دسته بند است

کلیدواژه ها:

دسته بندی خودکار متون فارسی ، استخراج کلمات کلیدی ، هستان شناسی فارس نت ، مشخصات معنایی ، رفع ابهام ، روابط معنایی ، روش اولین مفهوم

نویسندگان

حمید حسن پور

دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی شاهرود

صبا سادات مدنی

دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی شاهرود

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • _ Management and Service (IMS), 2010 6th International Conference on, ...
  • A. Bawakid and M. Oussalah, "A semantic-based text classification system, ...
  • Q. Luo, E. Chen, and H. Xiong, "A semantic term ...
  • A. Khan, B. Baharudin, and K. Khan, "Efficient Feature Selection ...
  • G. A. Miller, "WordNet: a lexical database for English, " ...
  • M. Shamsfard, A. Hesabi, H. Fadaei, N. Mansoory, A. Famian, ...
  • M. Zanjani and A. Baraani Dastjerdi, "New Method for Electronic ...
  • S. Arabi Naraei, M. Vahidi Asl, and B. Minaei Bigdeli, ...
  • M. Hassel and N. Mazdak, "FarsiSum: a Persian text summarizer, ...
  • K. Taghva, R. Beckley, and M. Sadeh, "A stemming algorithm ...
  • M. Shamsfard, "Towards Semi Automatic Construction of a Lexical Ontology ...
  • th Iranian Conference _ Intelligent Systems February _ & 28th, ...
  • _ _ A survey, " ACW ...
  • A. Hotho, S. Staab, and G. Stumme, "Text Clustering Based ...
  • _ _ _ _ _ _ _ Information and ...
  • H. K. Mohamed, "Automatic documents classification, " in ...
  • _ _ automatic text retrieval, " Information Processing & ...
  • _ _ M. Rahgozar, and f Oroumchian. Hamshahri: A standard ...
  • نمایش کامل مراجع