بهینه سازی تنظیم مدل های زبانی بزرگ با استفاده از Few-Shot Learning و روش QLoRA برای کاهش نیاز به داده

سال انتشار: 1404
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 7

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICCPM08_058

تاریخ نمایه سازی: 13 بهمن 1404

چکیده مقاله:

در سال های اخیر مدل های زبانی بزرگ (LLM) به دلیل توانایی قابل توجه در درک و تولید زبان طبیعی به یکی از محورهای اصلی پژوهش در حوزه هوش مصنوعی تبدیل شده اند. با این حال، تنظیم مجدد (Fine-Tuning) این مدل ها برای دامنه های خاص معمولا نیازمند حجم عظیمی از داده و منابع سخت افزاری است که انجام آن را برای بسیاری از پژوهشگران و سازمان ها دشوار می سازد. در این پژوهش رویکردی نوین مبتنی بر ترکیب یادگیری Few-Shot و روش کم منبع QLoRA ارائه می شود تا نیاز به داده در فرآیند تنظیم مدل های زبانی کاهش یابد. در این روش از قابلیت تطبیق سریع Few-Shot برای بهره گیری بهینه از داده های اندک و از مکانیزم کم حافظه ی QLoRA برای کاهش مصرف GPU استفاده شده است. نتایج آزمایش ها بر روی مجموعه داده های متنی استاندارد نشان می دهد که مدل پیشنهادی با وجود استفاده از تنها بخش کوچکی از داده های آموزشی عملکردی قابل مقایسه با مدل های کاملا تنظیم شده دارد. این یافته ها نشان می دهد که ترکیب Few-Shot Learning و QLoRA می تواند به عنوان رویکردی کارآمد برای تنظیم مدل های زبانی بزرگ در محیط های دارای محدودیت منابع مورد استفاده قرار گیرد.

کلیدواژه ها:

نویسندگان

امید جعفرزاده خوشرودی

عضو هیات علمی گروه مهندسی کامپیوتر دانشگاه آزاد اسلامی واحد آیت الله کوهستانی بهشهر

محمد جعفری فوتمی

دانشجوی کارشناسی ارشد مهندسی کامپیوتر - گرایش نرم افزار دانشگاه آزاد اسلامی واحد آیت الله کوهستانی بهشهر