طراحی و تولید مجموعه داده فارسی
محل انتشار: نخستین کنفرانس بین المللی هوش مصنوعی و چشم انداز آینده آن در علوم مهندسی برق ، کامپیوتر ، مکانیک و مخابرات
سال انتشار: 1402
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 251
فایل این مقاله در 13 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ICCPM01_010
تاریخ نمایه سازی: 8 تیر 1403
چکیده مقاله:
کمبود داده برای تحقیقات در زمینه پردازش زبان طبیعی امری بحرانی محسوب می شود، اما این چالش به ویژه درحوزه زبان فارسی با شدت بیشتری پدیدار می شود. این مسئله باعث می شود که یافتن مجموعه داده با کیفیت و جامعدر زبان فارسی به یک وظیفه چالش برانگیز تبدیل گردد. همچنین باید به این نکته توجه داشت که وجود برخی ازمشکلات از جمله قابلیت دسته بندی و عدم رعایت استانداردهای ذخیره سازی در نمونه ها، به عنوان عیب هایی متداولدر مجموعه داده های موجود آشکار است. این مشکلات می توانند تاثیر مستقیمی بر یادگیری مدل، نتایج، و میزانخطا در آزمایشات داشته باشند. با توجه به این چالش ها، تصمیم گرفتیم به دنبال جمع آوری و تهیه یک مجموعه دادهباشیم که توانمندی پوشش و حل این مشکلات را داشته باشد و با استفاده از آن، میزان خطا در مدل های مختلف بهحداقل برسد. در این پژوهش، از خزشگر به منظور جمع آوری داده های متنی استفاده نموده ایم. این خزشگر با اجرایخزش بر روی پایگاه خبر آنلاین، توانسته است مجموعه ای از داده ها را در شش دسته عنوان، خلاصه، متن، برچسباصلی، زیر برچسب و تاریخ انتشار خبر جمع آوری نماید. داده های متنی با استفاده از یکی از کتابخانه های مخصوص زبان فارسی در زبان برنامه نویسی پایتون نرمال سازی شده و در دو فرمت CSV و XML ذخیره سازی شده اند. برچسب های این مجموعه داده شامل دوازده دسته اصلی همچون ورزش، چندرسانه، فرهنگ، دانش و فناوری، سیاست،وبلاگ، گردشگری، جامعه، چهره ها، بین الملل، اقتصاد و استان ها می باشد. این مجموعه داده امکان انجام وظایفمتنوعی از جمله دسته بندی متن، استخراج متن، خلاصه سازی متن و تشخیص عنوان را فراهم می سازد. ویژگی هایبارز این مجموعه داده شامل جامعیت، تعداد داده های مناسب، وجود ویژگی های مفید، دارا بودن ویژگی های منحصربه فرد و همچنین ذخیره سازی در قالب استاندارد می باشد.
کلیدواژه ها:
نویسندگان
هادی وظیفه آبان
دانشجوی کارشناسی ارشد دانشگاه جامع امام حسین (ع)
محمدرضا حسنی آهنگر
استاد تمام دانشگاه جامع امام حسین (ع)
محسن نوروزی
مربی دانشگاه جامع امام حسین (ع)