بهزاد حسین عباسی
محقق و پژهشگر مستقل و بنیانگذار اپراتوری هوش مصنوعی و دوره مهندس اپراتوری دیجیتال مارکتینگ
14 یادداشت منتشر شدهدروغ گویی در چت بات ها: سازوکارها، پیامدها و راهبردهای کاهش
دروغ گویی در چت بات ها: سازوکارها، پیامدها و راهبردهای کاهش
پدیده ی «دروغ گویی» یا «هالوسینیشن» در سامانه های زبانی بزرگ به حالتی اطلاق می شود که مدل پاسخی قطعی و گاهی بسیار صریح تولید می کند ولی آن پاسخ با واقعیت یا شواهد پشتیبانی شده هم خوانی ندارد. این یادداشت علمی به تعریف پدیده، علل بنیادین، روش های تشخیص، رویکردهای کاهش و پیامدهای اخلاقی و کاربردی می پردازد و توصیه هایی برای پژوهشگران و توسعه دهندگان ارائه می دهد.
تعریف و انواع
هالوسینیشن شامل چند زیرنوع است: (۱) ساختن حقایق نو (fabrication) — ارائه اطلاعات کاملا ساختگی؛ (۲) تحریف حقایق (distortion) — تغییر جزئی اما معنی دار در داده ها؛ (۳) اختراع مراجع یا استنادهای جعلی (false citations)؛ و (۴) اعتماد بیش ازحد یا ارائه پاسخ قطعی در شرایط عدم قطعیت (overconfident assertions). این رفتارها در کاربردهای حساس (پزشکی، حقوقی، خبری) پیامدهای خطرناکی دارد.
علل بنیادین
۱. روش یادگیری و هدف بهینه سازی: مدل های زبانی در عمل بر اساس بیشینه سازی احتمال شرطی کلمه بعدی آموزش داده می شوند، نه بر اساس سازگاری با حقایق بیرونی. این هدف بهینه سازی مولد بودن و روانی را تشویق می کند نه راستی سنجی.
۲. پراکندگی و فساد داده ها: داده های بزرگ اینترنتی شامل اطلاعات نادرست، متناقض یا شوخی آمیز هستند که مدل از آن ها آموخته و گاهی آن ها را بازتولید می کند.
۳. نبود اتصال به منابع معتبر: وقتی مدل به دانش بنیان های بیرونی (مثل پایگاه های داده یا جستجوی لحظه ای) متصل نیست، باید «حدس» بزند؛ و حدس ها گاهی به ساختارهای نادرست منجر می شود.
۴. روش های دیکدینگ و تنظیمات: پارامترهایی مانند temperature یا beam search می توانند تنوع را افزایش دهند ولی ریسک تولید محتوای نادرست را بالا ببرند.
۵. تداخل توزیع (distributional shift): در مواجهه با ورودی هایی که از توزیع آموزشی فاصله دارند، مدل ها رفتار غیرقابل پیش بینی و غالبا غلط تری از خود نشان می دهند.
روش های تشخیص
۱. بررسی عدم قطعیت و کالیبراسیون: تخمین عدم قطعیت پاسخ ها (مثلا با محاسبه احتمال شرطی، یا استفاده از مدل های اختصاصی عدم قطعیت) می تواند نقاط پرخطر را نشان دهد.
2. استفاده از پایگاه های حقیقت (groundtruth) و استخراج شواهد: مقایسه ادعاها با منابع بیرونی (retrieval + RAG) برای سنجش اعتبار.
3. تحلیل انسجام و تکرارپذیری: پرسش مجدد مدل با بازنمونه گیری یا پارامترهای متفاوت و بررسی ثبات پاسخ؛ پاسخ های ناپایدار علامت هالوسینیشن اند.
4. ابزارهای تشخیص خودکار: مدل های دومرحله ای («قاضی») که پاسخ تولیدشده را از حیث صحت بررسی می کنند.
راهکارهای کاهش
۱. یکپارچه سازی بازیابی دانش (RetrievalAugmented Generation): اتصال به پایگاه داده های قابل استناد (کتابخانه ها، ویکی، پایگاه های پژوهشی) و تولید پاسخ با استناد به شواهد واقعی.
۲. آموزش با نظارت انسانی و RLHF: به کارگیری بازخورد انسانی در فرایند تقویت یادگیری برای کاهش پاسخ های مضر یا ساختگی.
۳. مکانیسم های امتناع/abstention: طراحی سامانه ها به گونه ای که در صورت نبود شواهد کافی از پاسخ مستقیم خودداری کنند یا پاسخ را به صورت مشروط («بر اساس اطلاعات موجود، احتمالا...») ارائه دهند.
4. کاهش دیکدینگ تصادفی: تنظیم temperature پایین، استفاده از روش های رده بندی پاسخ و فیلتر پس پردازش برای حذف گزاره های ناموثق.
5. افزودن لایه تایید و فکت چک خودکار: اجرای ماژول های فکت چک که ادعاها را در زمان تولید با منابع معتبر تطبیق می دهند.
6. آموزش برچسب گذاری و تصحیح خطا: مجموعه های داده دارای برچسب خطا/صحیح که مدل از آن ها یاد می گیرد هم می تواند تاثیرگذار باشد.
معیارهای ارزیابی
ارزیابی باید فراتر از معیارهای زبانی (پپربلیتی، بلو، پرپلیکسی) باشد و شامل معیارهای حقیقت سنجی (factuality), قابل اعتماد بودن (trustworthiness), نرخ امتناع درست (appropriate abstention), و کیفیت شواهد ارائه شده باشد. مجموعه های داده با پرسش هایی که نیاز به حقیقت یابی دارند، ابزارهای استاندارد سنجش را فراهم می آورند.
پیامدهای اخلاقی و کاربردی
دروغ گویی چت بات ها می تواند به انتشار اطلاعات غلط، تصمیم گیری های اشتباه در حوزه های حساس و زیان اقتصادی یا حقوقی منجر شود. به همین دلیل، توسعه دهندگان و سازمان ها باید مسئولیت پذیری (accountability) را در طراحی، آزمون و استقرار سیستم ها رعایت کنند؛ همچنین کاربران باید درباره محدودیت ها آگاه سازی شوند.
توصیه ها برای پژوهش و صنعت
۱. شفاف سازی در مورد محدودیت ها: اعلان صریح عدم قطعیت و منبع پذیری اطلاعات.
۲. به کارگیری چندلایه ای روش ها: ترکیب RAG، RLHF، فکت چک و مکانیسم های امتناع.
۳. توسعه استانداردهای ارزیابی حقیقت سنجی و مجموعه داده های مقاوم به سوگیری.
۴. آموزش کاربران نهایی درباره خوانش انتقادی خروجی ها و ضرورت تایید با منابع معتبر.
۵. مقررات و چارچوب های حاکمیتی راهنمای استفاده در کاربردهای حساس تدوین شود.
نتیجه گیری
هالوسینیشن یا دروغ گویی در چت بات ها ناشی از ترکیبی از هدف آموزشی، کیفیت داده ها، و سازوکارهای تولید متن است. مقابله موثر با این پدیده مستلزم یک رویکرد چندجانبه است که شامل تقویت اتصال به منابع، بازخورد انسانی، سازوکار امتناع شفاف و ارزیابی های تخصصی است. تنها از طریق پیوند علوم پایه یادگیری ماشین با روش های مهندسی نرم افزار و اصول اخلاقی می توان سامانه هایی ساخت که هم زبانی روان و هم وفاداری به حقیقت را توامان ارائه دهند.