مدل سازی پیش آموزشی زبان در ساخت سیستمهای پاسخگویی (مطالعه تطبیقی زبان اندونزیایی، مالایی و زبان بین المللی اسپرانتو)

ریحانه نوروزی تبریزی نژاد

مدل سازی پیش آموزشی زبان در ساخت سیستمهای پاسخگویی (مطالعه تطبیقی زبان اندونزیایی، مالایی و زبان بین المللی اسپرانتو)

محل انتشار: دومین کنفرانس بین المللی پداگوژی و اسپرانتولوژی زمستان ۱۴۰۳ «آموزش پژوهی و اسپرانتوپژوهی»

سال انتشار: 1404

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 105

متن کامل این مقاله منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل مقاله (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/2267563

شناسه ملی سند علمی:

SPERO02_104

تاریخ نمایه سازی: 2 خرداد 1404

چکیده مقاله:

این پژوهش با هدف ارزیابی عملکرد مدل های مختلف پردازش زبان طبیعی شامل A Lite BERT (ALBERT)، یادگیری موثر رمزگذار (ELECTRA) و مدل های پیش آموزشی بهبود یافته BERT (RoBERTa) انجام شده است. هدف اصلی این تحقیق، توسعه و بهبود مدل های سیستم پرسش و پاسخ برای زبان اندونزیایی است. در این ارزیابی، از زبان های اندونزیایی، مالایی و زبان بین المللی اسپرانتو استفاده شد. زبان اسپرانتو به عنوان یک زبان بی طرف و بین المللی انتخاب شد، زیرا به هیچ فرد یا کشوری تعلق ندارد. این ویژگی باعث می شود که اسپرانتو به عنوان یک معیار منصفانه برای مقایسه با زبان اندونزیایی در نظر گرفته شود. همچنین، ساختار زبانی اسپرانتو نسبتا ساده تر از دیگر زبان هاست، که این امر می تواند در ارزیابی و مقایسه کمک کننده باشد. در این مطالعه، از دو مجموعه داده، یکی ویکی پدیا برای زبان اندونزیایی که از طریق خزیدن در محتوای ویکی پدیا جمع آوری شده و دیگری مجموعه داده Open Super-large Crawled ALMAnaCH corpus (OSCAR) برای زبان بین المللی اسپرانتو استفاده شده است. در این آزمون، اندازه فرهنگ لغت توکن ها تقریبا حدود ۳۰,۰۰۰ توکن فرعی بود. این توکن ها با استفاده از دو روش مختلف الگوریتم SentencePiece و روش رمزگذاری جفت بایت سطحی (ByteLevelBPE) ایجاد شدند. این آزمون با دو نرخ یادگیری مختلف "۱×" 〖"۱۰" 〗^"-۵" و "۵×" 〖"۱۰" 〗^"-۵" برای هر دو زبان، مطابق با اصول مطرح شده در مقاله مرجع بازنمایی های رمزگذار دوطرفه برای تغییردهنده ها (BERT) انجام شد. طبق نتایج نهایی این مطالعه، مدل های ALBERT و RoBERTa در زبان بین المللی اسپرانتو به نتایج مشابهی در محاسبه ضرر (Loss) دست یافتند. به عبارت دیگر، عملکرد این دو مدل در مواجهه با داده های زبان بین الملی اسپرانتو تفاوت چندانی با یکدیگر نداشت، که نشان دهنده کارایی مشابه آن ها در پردازش این زبان است. این پژوهش نشان داد که مدل RoBERTa برای پیاده سازی سیستم پرسش و پاسخ به زبان اندونزیایی عملکرد بهتری دارد.

کلیدواژه ها:

مدل ALBERT ، ELECTRA ، سیستم پرسش و پاسخ اندونزیایی ، مدل سازی زبانی ، مدل RoBERTa.

نویسندگان

ریحانه نوروزی تبریزی نژاد

فارغ التحصیل کارشناسی ارشد فیزیک حالت جامد دانشگاه شهید چمران اهواز