رده بندی متون فارسی با استفاده از یادگیری عمیق

سال انتشار: 1397
محل انتشار: چهارمین کنفرانس ملی فناوری در مهندسی برق، کامپیوتر
کد COI اختصاصی: TECCONF04_130
زبان مقاله: فارسی
تعداد مشاهده: 903

نویسندگان

دانشکده مهندسی برق و کامپیوتر، دانشگاه صنعتی مالکاشتر، تهران، ایران.

استادیار گروه هوشمصنوعی، دانشگاه صنعتی مالکاشتر، تهران، ایران.

چکیده

با رشد سریع و روز افزون اطلاعات، رده بندی مستندات یکی از ابزارهای کلیدی برای سازماندهی و مدیریت داده های متنی به شمار می آید که در کاربردهایی مانند تقسیم بندی اخبار، نامه های الکترونیکی و اطلاعات آنلاین مورد استفاده قرار میگیرد. در واقع رده بندی موضوعی متون، تعیین موضوع یک متن میباشد. با وجود کارهای خوب صورت گرفته در زمینه متون فارسی، هنوز برخی از چالشها به صورت حل نشده باقی مانده اند. از جمله این چالشها استخراج ویژگی از متون برای رده بندی آنها میباشد . در این مقاله روشی پیشنهاد شده است که با استفاده از شبکه های عصبی پیچشی و مکرر، ویژگیهای متن را استخراج کرده و با استفاده از شبکه های تماما0متصل ، هر متن رده بندی میشود. روش پیشنهادی در مقایسه با سایر روشهای ردهبندی برای زبان فارسی دارای نتایج بهتری میباشد. اکثر روشهای موجود در زبان فارسی دقتی حدود %90 را دارند، این در حالی است که روش پیشنهادی از دقت بالای %94 برخوردار است.

کلیدواژه ها

رده بندی موضوعی، متن فارسی، متن کاوی، داده کاوی، یادگیری عمیق، استخراج ویژگی، شبکه های عمیق پیچشی، شبکه های عمیق مکرر.

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.