رامین گودرزی
13 یادداشت منتشر شدهفراتر از پرسش و پاسخ: معماری RAG نسل دوم برای استدلال چندمرحله ای و تخصصی
مدل های زبانی بزرگ (LLMs) به تنهایی در استدلال های تخصصی عمیق (مانند حقوق، پزشکی یا مهندسی سیستم ها) محدودیت دارند: توهم زدن، عدم دسترسی به داده های بروز، و ضعف در زنجیره استدلال طولانی. راه حل کلاسیک، بازیابی-افزایش تولید (RAG) است. اما معماری ساده RAG (برداشتن چند قطعه مشابه از دانشنامه) برای استدلال تخصصی کافی نیست.
در سیستم های پیشرفته امروزی، مکانیزم RAG بهبودیافته شامل لایه های زیر است:
- بازیابی سلسله مراتبی (Hierarchical Retrieval): ابتدا اسناد سطح بالا (چکیده ها، سرفصل ها) بازیابی می شوند، سپس بر اساس استدلال اولیه مدل، قطعات ریزدانه از داخل آن اسناد استخراج می گردند.
- بازنویسی پرسش (Query Rewriting): مدل کمکی، پرسش تخصصی کاربر را به ۵-۷ زیرپرسش استدلالی تبدیل می کند تا بخش های مکمل اطلاعات از پایگاه های دانش ناهمگن بازیابی شوند.
- رتبه بندی مجدد حساس به زمینه (Context-Aware Re-ranking): پس از بازیابی اولیه، یک مدل تخصصی (Cross-Encoder) قطعات را نه بر اساس شباهت واژگانی بلکه بر اساس سهم گذاری آن قطعه در زنجیره استدلال نهایی رتبه بندی می کند.
- ساخت حافظه استدلال (Reasoning Memory): مدل، گام های استدلال قبلی را در یک بافر تعبیه دار (embedding cache) ذخیره کرده و در بازیابی بعدی، آن گام ها را به عنوان بافت اضافی استفاده می کند. این کار باعث می شود مدل تناقض های درونی را تشخیص دهد.
جزئیات فنی کلیدی:
برای بهبود واقعی استدلال تخصصی، استفاده از «چندمرحله ای RAG با بازخورد تفکری» (RAG with Thought Feedback) اثربخش است. یعنی به ازای هر گام استدلال، مدل ارزیابی می کند «آیا اطلاعات بازیابی شده برای گام بعدی کافی است؟» اگر خیر، یک درخواست بازیابی اصلاحی ارسال می شود.اغلب پروژه های RAG شکست می خورند چون فکر می کنند یک وکتوربیس ساده و دو خط کد پایتون کافی است. اما استدلال تخصصی نیازمند معماری فعال – نه واکنشی – است. آیا می خواهید بدانید چگونه می توانید نرخ صحت استدلال سیستم RAG خود را در یک حوزه خاص مانند متون فقهی یا استانداردهای مهندسی از ۴۲٪ به ۸۷٪ برسانید؟ >> همراه باشید ;)
رامین گودرزی
17 اردیبهشت 1405