طراحی و تولید مجموعه داده فارسی

  • سال انتشار: 1402
  • محل انتشار: نخستین کنفرانس بین المللی هوش مصنوعی و چشم انداز آینده آن در علوم مهندسی برق ، کامپیوتر ، مکانیک و مخابرات
  • کد COI اختصاصی: ICCPM01_010
  • زبان مقاله: فارسی
  • تعداد مشاهده: 257
دانلود فایل این مقاله

نویسندگان

هادی وظیفه آبان

دانشجوی کارشناسی ارشد دانشگاه جامع امام حسین (ع)

محمدرضا حسنی آهنگر

استاد تمام دانشگاه جامع امام حسین (ع)

محسن نوروزی

مربی دانشگاه جامع امام حسین (ع)

چکیده

کمبود داده برای تحقیقات در زمینه پردازش زبان طبیعی امری بحرانی محسوب می شود، اما این چالش به ویژه درحوزه زبان فارسی با شدت بیشتری پدیدار می شود. این مسئله باعث می شود که یافتن مجموعه داده با کیفیت و جامعدر زبان فارسی به یک وظیفه چالش برانگیز تبدیل گردد. همچنین باید به این نکته توجه داشت که وجود برخی ازمشکلات از جمله قابلیت دسته بندی و عدم رعایت استانداردهای ذخیره سازی در نمونه ها، به عنوان عیب هایی متداولدر مجموعه داده های موجود آشکار است. این مشکلات می توانند تاثیر مستقیمی بر یادگیری مدل، نتایج، و میزانخطا در آزمایشات داشته باشند. با توجه به این چالش ها، تصمیم گرفتیم به دنبال جمع آوری و تهیه یک مجموعه دادهباشیم که توانمندی پوشش و حل این مشکلات را داشته باشد و با استفاده از آن، میزان خطا در مدل های مختلف بهحداقل برسد. در این پژوهش، از خزشگر به منظور جمع آوری داده های متنی استفاده نموده ایم. این خزشگر با اجرایخزش بر روی پایگاه خبر آنلاین، توانسته است مجموعه ای از داده ها را در شش دسته عنوان، خلاصه، متن، برچسباصلی، زیر برچسب و تاریخ انتشار خبر جمع آوری نماید. داده های متنی با استفاده از یکی از کتابخانه های مخصوص زبان فارسی در زبان برنامه نویسی پایتون نرمال سازی شده و در دو فرمت CSV و XML ذخیره سازی شده اند. برچسب های این مجموعه داده شامل دوازده دسته اصلی همچون ورزش، چندرسانه، فرهنگ، دانش و فناوری، سیاست،وبلاگ، گردشگری، جامعه، چهره ها، بین الملل، اقتصاد و استان ها می باشد. این مجموعه داده امکان انجام وظایفمتنوعی از جمله دسته بندی متن، استخراج متن، خلاصه سازی متن و تشخیص عنوان را فراهم می سازد. ویژگی هایبارز این مجموعه داده شامل جامعیت، تعداد داده های مناسب، وجود ویژگی های مفید، دارا بودن ویژگی های منحصربه فرد و همچنین ذخیره سازی در قالب استاندارد می باشد.

کلیدواژه ها

مجموعه داده فارسی، پردازش زبان طبیعی، دسته بندی متن، خلاصه سازی متن، تشخیص عنوان

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.