طبقه بندی متون با استفاده از الگوریتم های یادگیری ماشین و مدلBERT

  • سال انتشار: 1401
  • محل انتشار: دومین کنفرانس بین المللی مهندسی و علوم کامپیوتر
  • کد COI اختصاصی: ICCSE02_039
  • زبان مقاله: فارسی
  • تعداد مشاهده: 262
دانلود فایل این مقاله

نویسندگان

مازیار فنایی پور

دانشجوی کارشناسی ارشد، دانشکده مهندسی کامپیوتر، واحد نجف آباد، دانشگاه آزاد اسلامی، نجف آباد، ایران؛

حمید رستگاری

استادیار، دانشکده مهندسی کامپیوتر، واحد نجف آباد، دانشگاه آزاد اسلامی، نجف آباد، ایران؛

چکیده

طبقه بندی خودکار متون از موارد کاربرد الگوریتم های یادگیری ماشین در بازیابی اطلاعات می باشدکه در حوزه های مختلف پردازش زبان طبیعی از جمله تحلیل های پرکاربرد است . یکی از مشکلات رایج امروزدر علوم کتابخانه ای و علوم کامپیوتری طبقه بندی اسناد است . در طول چندین سال گذشته اسناد متنی دیجیتال به صورت تصاعدی رشد یافته است یکی از نتایج این رشد تصاعدی اهمیت پیدا کردن دسته بندی اسناد بر اساس محتوا می باشد. در این تحقیق عملکرد مدلBERT و یادگیری عمیق در مقایسه با سایر الگوریتم های یادگیری ماشین بر روی دو مجموعه داده BBC news summery و Consumer Complaint Database مورد بررسی قرار گرفته است . نتایج آزمایش ها انجام شده حاکی از آن است که عملکرد الگوریتم های یادگیری عمیق در مجموعه ای با داده های کلان دقت بهتر و زمان آموزش بیشتری داشتند ولی با ارزیابی معیار دقت در مجموعه داده کوچک ، الگوریتم های سنتی یادگیری ماشین عملکرد بهتری داشتند.

کلیدواژه ها

یادگیری ماشین ، پردازش زبان طبیعی ، یادگیری عمیق ، طبقه بندی اسناد، مدل BERT

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.