شاهو علی زاده
25 یادداشت منتشر شدهتزریق فرمان غیرمستقیم در مدل های زبانی: تهدیدی نوظهور در امنیت هوش مصنوعی
در ماه های اخیر، پژوهشگران امنیت سایبری به آسیب پذیری هایی در مدل های زبانی بزرگ (LLMs) مانند ChatGPT پی برده اند که نشان می دهد این سامانه ها می توانند هدف حملاتی پیچیده و غیرمستقیم قرار گیرند. یکی از مهم ترین این روش ها، تکنیکی موسوم به تزریق فرمان غیرمستقیم (Indirect Prompt Injection) است.
تزریق فرمان غیرمستقیم چیست؟
در این روش، مهاجم به جای تعامل مستقیم با مدل، دستوراتی مخرب را درون محتوای ظاهرا بی ضرر—مانند صفحات وب، نظرات کاربران، یا لینک های اشتراکی—جاسازی می کند. وقتی کاربر از مدل می خواهد آن صفحه را خلاصه کند یا تحلیل دهد، مدل بدون تشخیص ماهیت مخرب، آن دستور را اجرا کرده و به نوعی «فریب» می خورد.
پیامدهای امنیتی: از گمراهی تا نفوذ حافظه
یکی از خطرناک ترین سناریوها، تزریق به حافظه مدل است. در این حالت، دستور مخرب نه تنها اجرا می شود، بلکه در حافظه موقت یا دائمی مدل باقی می ماند و بر تعاملات بعدی تاثیر می گذارد. این یعنی مهاجم می تواند با یک تعامل غیرمستقیم، رفتار مدل را در آینده تغییر دهد—حتی بدون حضور مستقیم در گفتگو.
توصیه های ایمنی برای کاربران و توسعه دهندگان
1. از خلاصه سازی یا تحلیل سایت های ناشناس یا غیرمعتبر توسط مدل خودداری کنید.
2. در صورت استفاده از مدل هایی با حافظه فعال، حافظه را به صورت دوره ای پاک سازی کنید.
3. توسعه دهندگان باید فیلترهای محتوایی و لایه های تشخیص تزریق را تقویت کنند.
نتیجه گیری
با گسترش استفاده از مدل های زبانی در آموزش، پژوهش، و حتی تصمیم سازی، امنیت این سامانه ها به یک اولویت حیاتی تبدیل شده است. حملاتی مانند تزریق فرمان غیرمستقیم نشان می دهند که تهدیدات سایبری در حوزه هوش مصنوعی نه تنها واقعی، بلکه در حال پیچیده تر شدن هستند.
هوشیاری کاربران و مسئولیت پذیری توسعه دهندگان، دو رکن اصلی مقابله با این تهدیدات اند.