CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

مروری بر روش های کارآمد و قابل مدیریت در خوشه بندی متن

عنوان مقاله: مروری بر روش های کارآمد و قابل مدیریت در خوشه بندی متن
شناسه ملی مقاله: CEITCONF01_163
منتشر شده در کنفرانس ملی کامیپوتر،فناوری اطلاعات و کاربردهای هوش مصنوعی در سال 1396
مشخصات نویسندگان مقاله:

نصیر قناعت - دانشکده مهندسی کامپیوتر، واحد نجف آباد، دانشگاه آزاد اسلامی، نجف آباد، ایران.
حمید رستگاری - دانشکده مهندسی کامپیوتر، واحد نجف آباد، دانشگاه آزاد اسلامی، نجف آباد، ایران.
مهدی شریفی - دانشکده مهندسی کامپیوتر، واحد نجف آباد، دانشگاه آزاد اسلامی، نجف آباد، ایران.

خلاصه مقاله:
داده کاوی به دنبال کشف الگوی سودمند در میان حجم انبوهی از داده ها است در این میان رشد بی اندازه داده های متنی،اهمیت متن کاوی را دو چندان کرده است. در متن کاوی دانش مفید از میان اسناد بدون ساختار متنی استخراج می شود بدون تردید میتوان ادعا کرد که رایج ترین و محبوبترین شکل داده ها متون هستند. وجود رسانه های اجتماعی مانند وبلاگها و شبکه های اجتماعی خود تایید کننده این موضوع است هرچند میتوان از الگوریتم های داده کاوی در متن کاوی نیز استفاده کرد اما ماهیت این داده ها باعث شده است تا پژوهشگران این حوزه به دنبال روشهای خاص خود باشند. برای درک بهتر متن ،خوشه بندی روشی مفید میباشد که هدف آن سازماندهی دسته های بزرگ اسناد به گروه های کوچک تر معنادار و قابل مدیریت است. الگوریتم های خوشه بندی سنتی روابط معنا شناختی میان لغات را در نظر نمی گیرند و نمی توانند به ارایه ارتباط معنایی اسناد بپردازند.خوشه بندی اسناد یک فرآیند غیر نظارت شده از شرکت دادن یک مجموعه از اسناد است که در گروه هایی شامل موضوعات مشابهی هستند . بر خلاف پیشرفت های اساسی که در سی سال گذشته انجام شده رشد سریع و در دسترس بودن این حجم زیاد از داده های متنی همچون گفتگوهای آنلاین و پیغامهایی که از گروه های بحث گرد آوری شده، نیاز برای خوشه بندی متن را پر رنگ تر کرده است. به ویژه در یک محیط باز ( بیرون از مرز ها ) و همچنین در کنار سایز نامشخص و چند بعدی بودن بسیار زیاد یا ابعاد بزرگ مجموعه داده ها ، اسناد غالبا بوسیله ی نویسندگان متعدد که هر یک روش نوشتن مشخص و مختص خودشان را دارند ، نوشته می شوند . که شامل کلمات خاصی میشود تنوع لغوی در فرهنگ های متعدد حتی در بین اسناد با موضوعات مشابه میتواند به طور معکوس بر عملکرد و الگوریتم خوشه بندی اثر بگذارد. در این مقاله به کاربردی ترین و موثرترین روشهای خوشه بندی میپردازیم. استفاده از بانک اطلاعاتی وردنت که یکی از پر استفاده ترین فرهنگهای جامع انگلیسی است و به منظور بهبود کیفیت خوشه بندی متن و روابط معنایی واژگان می پردازد ولی این روش به تنهایی برای ایجاد خوشه های مناسب و قابل مدیریت کافی نیست! و با چالشهایی نظیر همعنایی و چند معنایی، ویژگیهای واژهای چند بعدی، استخراج معنای اصلی از متن و تعیین توصیفات معنادار و برجسته روبرو هستیم. یکی دیگر از روشهای کارآمد و موثر در تولید خوشه های مناسب و معنادار که در این مقاله به آن پرداخته ایم استفاده از زنجیره واژگان و روابط معنایی واژگان در اسناد مختلف میباشد. که این روابط بخشهای مختلف متن را به یکدیگر متصل مینماید که از توالی واژگان مرتبط سرنخهای مهمی در رابطه با محتوای واژگان متن ارایه میدهد. در هر یک از تحقیقات گذشته محققان درصدد حل یکی از مشکلات و چالش های فوق بوده اند که ما در این مقاله به جمع بندی و بررسی فعالیتهای انجام شده گذشته در زمینه می پردازیم

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/762626/