چرا به هوش مصنوعی متن باز نیاز داریم

27 مهر 1404 - خواندن 4 دقیقه - 44 بازدید

تجربه ی «متن باز» در حوزه ی نرم افزار نشان داده است که با حذف موانع یادگیری، استفاده، اشتراک گذاری و بهبود سامانه های نرم افزاری، مزایای گسترده ای برای همه ایجاد می شود. این مزایا نتیجه ی به کارگیری مجوزهایی است که با تعریف نرم افزار متن باز (Open Source Definition) سازگار هستند.

در حوزه ی هوش مصنوعی نیز جامعه به همان آزادی های بنیادین متن باز نیاز دارد تا توسعه دهندگان، اجراکنندگان و کاربران نهایی بتوانند از مزایایی مشابه بهره مند شوند؛ از جمله:

خودمختاری (Autonomy)

شفافیت (Transparency)

بازاستفاده ی آسان (Frictionless reuse)

بهبود جمعی و همکاری (Collaborative improvement)

هوش مصنوعی متن باز چیست؟

وقتی از «سامانه» سخن می گوییم، منظور ساختاری کامل و کارکردی است که از اجزای گوناگون تشکیل شده است. برای آن که یک سامانه یا مدل هوش مصنوعی «متن باز» محسوب شود، باید الزامات زیر را رعایت کند — چه در سطح کل سامانه و چه در اجزای آن مانند مدل، وزن ها، پارامترها یا دیگر ساختارهای درونی.

آزادی های بنیادین هوش مصنوعی متن باز

یک سامانه ی هوش مصنوعی متن باز باید آزادی های زیر را برای همگان فراهم کند:

  1. استفاده برای هر هدفی بدون نیاز به کسب اجازه.
  2. مطالعه و بررسی عملکرد سامانه و شناخت اجزای آن.
  3. تغییر سامانه برای هر هدفی، از جمله تغییر خروجی های آن.
  4. اشتراک گذاری سامانه با دیگران، با یا بدون تغییر، برای هر نوع استفاده.

این آزادی ها هم برای سامانه ی کامل و هم برای اجزای آن برقرار است. پیش شرط بهره برداری از این آزادی ها، دسترسی به شکل مناسب برای ایجاد تغییرات در سامانه است.

شکل مناسب برای اصلاح سامانه های یادگیری ماشین

برای آن که بتوان یک سامانه ی یادگیری ماشین را واقعا تغییر داد، باید همه ی مولفه های زیر در دسترس باشند:

۱. اطلاعات داده ها (Data Information)

باید جزئیات کافی درباره ی داده های آموزشی سامانه منتشر شود تا یک فرد متخصص بتواند سامانه ای معادل را بازسازی کند. این اطلاعات باید تحت مجوزهای مورد تایید OSI ارائه شوند.

این شامل موارد زیر است:

  • توضیح کامل درباره ی تمام داده های آموزشی، از جمله داده های غیرقابل اشتراک، منشا داده ها، محدوده و ویژگی ها، روش جمع آوری و انتخاب، برچسب گذاری، و پردازش یا فیلتر داده ها.
  • فهرست تمام داده های آموزشی عمومی و محل دسترسی به آن ها.
  • فهرست داده های آموزشی متعلق به اشخاص ثالث و شرایط دسترسی یا خرید آن ها.

۲. کد(Code)

تمام کد منبع مورد استفاده برای آموزش و اجرای سامانه باید منتشر شود. کد باید به طور کامل فرآیندهای پردازش، فیلتر داده ها و نحوه ی آموزش مدل را توضیح دهد و تحت مجوزهای مورد تایید OSI در دسترس باشد.

این شامل کدهای زیر می شود:

  • کدهای پردازش و پالایش داده ها،
  • کد آموزش (به همراه آرگومان ها و تنظیمات)،
  • کدهای ارزیابی و آزمون،
  • کتابخانه های پشتیبان مانند tokenizerها و جست وجوی ابرپارامترها،
  • کد استنتاج و معماری مدل.

۳. پارامترها(Parameters)

پارامترهای مدل — مانند وزن ها و تنظیمات دیگر — نیز باید طبق مجوزهای مورد تایید OSI منتشر شوند. این می تواند شامل نقاط بررسی(checkpoints) از مراحل مختلف آموزش و وضعیت نهایی بهینه ساز(optimizer state) باشد.

مجوزهای مربوط به این مولفه ها می توانند شامل شرط هایی باشند که نسخه های تغییریافته نیز باید تحت همان مجوز اصلی منتشر شوند.

مدل ها و وزن های متن باز

در سامانه های یادگیری ماشین:

  • مدل هوش مصنوعی شامل معماری مدل، پارامترها (از جمله وزن ها) و کد استنتاج برای اجرای مدل است.
  • وزن های هوش مصنوعی مجموعه ای از پارامترهای یادگرفته شده اند که بر معماری مدل اعمال می شوند تا خروجی تولید شود.

شکل مناسب برای اصلاح سامانه های یادگیری ماشین، برای این اجزای منفرد نیز صدق می کند. بنابراین، «مدل های متن باز» و «وزن های متن باز» باید شامل اطلاعات داده ها و کدهایی باشند که برای استخراج آن پارامترها استفاده شده اند.

منبع :

https://opensource.org/ai/open-source-ai-definition

ارتباط با بنده mohammadian.a@iran.ir