بهزاد حسین عباسی
محقق و پژهشگر مستقل و بنیانگذار اپراتوری هوش مصنوعی و دوره مهندس اپراتوری دیجیتال مارکتینگ
25 یادداشت منتشر شدههذیان گویی (Hallucination) در چت بات ها: مسئله ای جدی در هوش مصنوعی
چت بات ها در چند سال اخیر به یکی از مهم ترین ابزارهای هوش مصنوعی تبدیل شده اند. این سامانه ها می توانند متن تولید کنند، به پرسش ها پاسخ دهند و حتی مکالمه ای شبیه انسان داشته باشند. اما در کنار تمام مزایایی که به همراه آورده اند، مشکلی جدی نیز وجود دارد که پژوهشگران آن را «هذیان گویی» یا Hallucination می نامند.
هذیان گویی به وضعیتی گفته می شود که چت بات پاسخی ظاهرا درست و قانع کننده تولید می کند، اما در واقع آن پاسخ نادرست یا ساختگی است. این پدیده یکی از مهم ترین محدودیت های فعلی در مدل های زبانی بزرگ به شمار می رود.
هذیان گویی یعنی چه؟
در روان شناسی، هذیان به باورهای خیالی و نادرست اطلاق می شود. در دنیای هوش مصنوعی، این اصطلاح برای مواقعی به کار می رود که چت بات ها اطلاعاتی غیرواقعی تولید می کنند. برای مثال:
معرفی یک مقاله یا کتابی که وجود ندارد.
بیان یک تاریخ یا عدد غلط اما با اعتماد کامل.
آوردن نقل قول از فردی که هرگز آن جمله را نگفته است.
نکته خطرناک این است که لحن چت بات معمولا مطمئن و قاطع است. همین موضوع باعث می شود کاربران به راحتی فریب بخورند.
چرا چت بات ها هذیان می گویند؟
۱. ساختار آماری مدل ها
مدل های زبانی بزرگ برای پیش بینی کلمه بعدی آموزش دیده اند، نه برای درک حقیقت. بنابراین آن ها متن را بر اساس احتمال آماری می سازند، نه بر اساس واقعیت.
۲. کیفیت داده های آموزشی
این مدل ها روی حجم عظیمی از متون اینترنتی آموزش می بینند. داده ها همیشه درست، به روز یا معتبر نیستند. همین موضوع باعث می شود مدل ها اشتباهات موجود را تکرار کنند.
۳. کمبود اطلاعات به روز
چت بات ها معمولا به اطلاعات زمان آموزش محدود هستند. وقتی از آن ها درباره موضوعات جدید پرسیده شود، ممکن است پاسخی ساختگی تولید کنند تا مکالمه را روان نگه دارند.
۴. اولویت روانی متن
هدف اصلی این مدل ها تولید متن روان شبیه انسان است. بنابراین، گاهی روان بودن متن مهم تر از صحت علمی می شود.
انواع هذیان گویی
1. هذیان واقعی (Factual): اطلاعات غلط درباره واقعیت ها، مثل نام دانشمند یا تاریخ اشتباه.
2. هذیان مرجع (Citation): معرفی منابع و مقالاتی که وجود ندارند.
3. هذیان منطقی (Logical): تناقض در متن، مثل بیان دو ادعای متضاد در یک پاسخ.
4. هذیان ترکیبی: مجموعه ای از چند خطا در یک پاسخ واحد.
چرا این پدیده مهم است؟
۱. اعتماد کاربران
وقتی کاربر چند بار با پاسخ ساختگی روبه رو شود، اعتمادش به کل سامانه از بین می رود.
۲. پیامدهای خطرناک
در پزشکی، حقوق یا آموزش، اطلاعات نادرست می تواند پیامدهای سنگینی ایجاد کند. تصور کنید یک دانشجو مقاله ای را بر اساس منابع ساختگی بنویسد یا یک بیمار درمان اشتباه دریافت کند.
۳. مسئولیت حقوقی
سوال جدی اینجاست: اگر یک چت بات به کاربر آسیب بزند، چه کسی مسئول است؟ توسعه دهنده، کاربر یا سازمان استفاده کننده؟ هنوز پاسخ روشنی وجود ندارد.
راهکارهای کاهش هذیان گویی
1. اتصال به پایگاه داده واقعی
ترکیب چت بات با موتورهای جستجو یا پایگاه های علمی می تواند پاسخ ها را دقیق تر کند (روش RAG).
2. بهبود داده های آموزشی
حذف داده های اشتباه و استفاده از منابع معتبر در آموزش می تواند خطا را کاهش دهد.
3. بازخورد انسانی (RLHF)
آموزش مدل ها با استفاده از بازخورد انسان، باعث می شود نسبت به صحت علمی حساس تر شوند.
4. بیان سطح اطمینان
چت بات ها باید بتوانند مشخص کنند که در پاسخ خود مطمئن هستند یا نه.
5. ارزیابی چندمرحله ای
استفاده از لایه های بررسی خودکار برای کنترل صحت پاسخ ها پیش از نمایش به کاربر.
هذیان گویی را نمی توان کاملا حذف کرد، زیرا ماهیت زبان طبیعی بسیار پیچیده است. اما می توان شدت آن را کاهش داد. در این مسیر، هم پژوهشگران و هم کاربران نقش دارند. پژوهشگران باید مدل ها را به سمت دقت علمی هدایت کنند و کاربران نیز باید یاد بگیرند که همیشه خروجی چت بات را با منابع معتبر مقایسه کنند.
هذیان گویی یکی از مهم ترین چالش های امروز در چت بات های هوش مصنوعی است. این پدیده به دلیل ماهیت آماری مدل ها، کیفیت داده های آموزشی و محدودیت در دسترسی به دانش به روز رخ می دهد.
برای کاهش این مشکل، راهکارهایی مانند اتصال به پایگاه های داده معتبر، پالایش داده های آموزشی، آموزش با بازخورد انسانی و طراحی رابط های شفاف پیشنهاد می شود.
در نهایت، موفقیت آینده چت بات ها به توانایی آن ها در ایجاد تعادل میان روانی زبان و صحت علمی بستگی دارد.