چگونه ماشین ها تصمیم می گیرند؟ نگاهی انسانی به یادگیری تقویتی

22 شهریور 1404 - خواندن 6 دقیقه - 60 بازدید

یکی از پرسش هایی که همواره ذهن من را مشغول کرده، این است که وقتی می گوییم «ماشین تصمیم گرفت»، دقیقا چه اتفاقی در دل آن جعبه فلزی یا کدی که روی سرورها اجرا می شود، رخ می دهد؟ آیا تصمیم ماشین شباهتی به تصمیم ما انسان ها دارد، یا فقط یک محاسبه ی سرد و بی روح است؟

اینجا پای یک شاخه ی جذاب از هوش مصنوعی وسط می آید: یادگیری تقویتی (Reinforcement Learning). این روش، شاید بیش از هر الگوریتم دیگری، به تصمیم گیری های انسانی شباهت دارد. چرا؟ چون مثل ما، با آزمون و خطا یاد می گیرد، با پاداش تشویق می شود و از تنبیه ها دوری می کند.

تصمیم گیری به زبان ساده

فرض کنید کودکی را می بینیم که تازه می خواهد راه رفتن یاد بگیرد. بارها زمین می خورد، گریه می کند، دوباره بلند می شود و در نهایت اولین قدم های موفقیت آمیزش را برمی دارد. مغز او برای هر بار موفقیت، نوعی پاداش درونی صادر می کند؛ همان حس شیرین پیشرفت. یادگیری تقویتی هم دقیقا همین منطق را دنبال می کند.

در این رویکرد، ما محیطی را تعریف می کنیم (مثلا یک بازی شطرنج یا یک ربات که باید از نقطه ای به نقطه ی دیگر برسد)، و عامل یا همان «ماشین» را داخل این محیط قرار می دهیم. ماشین در هر لحظه یک «وضعیت» را می بیند و باید تصمیم بگیرد که چه «عملی» انجام دهد. بعد از هر عمل، محیط به او بازخورد می دهد: پاداش مثبت (مثلا بردن یک مهره ی حریف در شطرنج) یا پاداش منفی (افتادن در چاله برای یک ربات).

ماشین چگونه بهتر می شود؟

در ابتدا، ماشین مثل آن کودک بی تجربه است. تصمیم هایش تصادفی اند، اغلب اشتباه می کند و بارها شکست می خورد. اما نکته ی جالب همین جاست: شکست برایش پایان کار نیست، بلکه داده ی تازه ای است که در حافظه اش ذخیره می کند. هر بار که تنبیه یا پاداش می گیرد، کمی بهتر متوجه می شود که چه کاری ارزش تکرار دارد و چه کاری را باید کنار بگذارد.

با گذشت زمان، ماشین «سیاست تصمیم گیری» (Policy) خودش را بهبود می دهد. این سیاست مثل نقشه ای درونی است که به او می گوید: «اگر در وضعیت X بودی، عمل Y بهترین نتیجه را دارد.» درست همان طور که ما انسان ها از تجربه های گذشته مان قواعدی می سازیم: «اگر باران می بارد، بهتر است چتر بردارم.»

یک مثال ملموس

اجازه بدهید از حوزه ای مثال بزنم که برای همه آشناست: بازی های کامپیوتری. حتما خبر معروف هوش مصنوعی شرکت DeepMind را شنیده اید که توانست بازی Atari را فقط با نگاه کردن به صفحه نمایش یاد بگیرد. هیچ کس به آن نگفت دکمه ها چه کار می کنند یا قوانین بازی چیست. ماشین فقط پیکسل ها را دید، چندین بار شکست خورد، ولی به تدریج یاد گرفت چه حرکاتی باعث افزایش امتیاز می شود. بعد از میلیون ها تکرار، به بازیکنی حرفه ای تبدیل شد که حتی از انسان ها هم بهتر عمل می کرد.

در این داستان، نقطه ی کلیدی همان چرخه ی «آزمایش → بازخورد → اصلاح» بود. درست مثل زندگی ما.

شباهت ها و تفاوت ها با انسان

وقتی این فرایند را کنار تصمیم گیری انسان ها می گذاریم، شباهت ها شگفت انگیز است. ما هم در طول زندگی با آزمون و خطا، پاداش و تنبیه، مسیر خود را پیدا می کنیم. اما تفاوت مهمی وجود دارد: ماشین حافظه ی بی پایان دارد و می تواند میلیون ها تجربه را با سرعتی غیرقابل تصور پردازش کند، در حالی که ما محدودیت شناختی داریم.

از سوی دیگر، تصمیم های انسانی فقط بر اساس پاداش و تنبیه نیستند. ما احساسات، اخلاق، ارزش ها و حتی الهام های لحظه ای داریم که نمی توان به سادگی در قالب عدد و پاداش مدل سازی شان کرد. همین جاست که می فهمیم یادگیری تقویتی یک شبیه سازی ناقص از دنیای انسانی است؛ هرچند برای حل بسیاری از مسائل عملی، کافی و حتی شگفت انگیز است.

چرا این موضوع مهم است؟

یادگیری تقویتی صرفا یک سرگرمی پژوهشی نیست. همین حالا در جاهای حیاتی به کار گرفته می شود:

  • آموزش ربات ها برای حرکت در محیط های ناشناخته
  • بهینه سازی مصرف انرژی در کارخانه ها
  • مدیریت ترافیک شهری با چراغ های هوشمند
  • و حتی طراحی داروهای جدید

هر جا که تصمیم های متوالی و وابسته به هم وجود دارد، این الگوریتم ها می توانند نقش کلیدی ایفا کنند.

جنبه ی فلسفی ماجرا

وقتی به این فناوری فکر می کنم، یک پرسش عمیق تر هم به ذهنم می رسد: آیا ماشین ها واقعا «تصمیم» می گیرند یا فقط احتمال ها را حساب می کنند؟ ما واژه ی «تصمیم» را برای انسان ها به کار می بریم، چون پشت آن آگاهی و قصد وجود دارد. در ماشین ها اما، همه چیز مجموعه ای از محاسبات ریاضی است. با این حال، نتیجه ی عملی یکی است: چه ما بگوییم «ماشین تصمیم گرفت» و چه بگوییم «ماشین محاسبه کرد»، در نهایت عملی رخ می دهد که می تواند مسیر یک ربات، یک خودرو یا حتی یک اقتصاد را تغییر دهد.

آینده ی تصمیم گیری ماشینی

پیشرفت های اخیر نشان می دهد که یادگیری تقویتی قرار است نقشش در آینده بسیار پررنگ تر شود. تصور کنید خودروهای خودران که در خیابان های شلوغ تصمیم های لحظه ای می گیرند، یا سیستم های مالی که در کسری از ثانیه خریدوفروش می کنند، همه از همین منطق پاداش و تنبیه استفاده می کنند.

اما همین جا چالش بزرگی هم وجود دارد: اگر پاداش ها یا معیارهای درست را برای ماشین تعریف نکنیم، ممکن است تصمیم هایی بگیرد که به ظاهر به نفع خودش است اما به ضرر ما انسان ها تمام شود. بنابراین، طراحی درست محیط و پاداش، قلب تپنده ی یادگیری تقویتی است.

سخن پایانی

وقتی به ماجرای یادگیری تقویتی نگاه می کنم، می بینم که در اعماقش یک حقیقت ساده نهفته است: یادگیری یعنی آزمون و خطا. چه برای یک کودک باشد، چه برای یک ماشین، چه برای ما در مسیر زندگی. تفاوت در این است که ماشین ها بی خستگی و با سرعتی غیرانسانی این مسیر را طی می کنند.

شاید روزی برسد که ماشین ها در بسیاری از عرصه ها استاد تصمیم گیری شوند، اما هنوز چیزی در تصمیم های انسانی وجود دارد که جایگزین ندارد: قلب، اخلاق، و توانایی دیدن معنایی فراتر از پاداش و تنبیه.