بررسی مدل های هوش مصنوعی پیش آموزش دیده شده برای توصیف نویسی تصاویر در صنایع مختلف؛ مقایسه کلیپ کپ و ویت جی پی تی ۲

اشکان مهدوی; فاطمه پورغلامعلی

بررسی مدل های هوش مصنوعی پیش آموزش دیده شده برای توصیف نویسی تصاویر در صنایع مختلف؛ مقایسه کلیپ کپ و ویت جی پی تی ۲

محل انتشار: اولین کنفرانس ملی هوشمند سازی در صنعت

سال انتشار: 1404

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 15

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/2556408

شناسه ملی سند علمی:

KGUT01_026

تاریخ نمایه سازی: 3 اسفند 1404

چکیده مقاله:

در عصر حاضر هوش مصنوعی و مدل های پیش آموزش دیده نقشی کلیدی در پیشرفت فناوری های نوین و همچنین صنایع مختلف ایفا می کنند. این مدل ها توانایی درک و تفسیر معانی پنهان در داده ها را فراهم می آورند و به ویژه در حوزه توصیف نویسی تصاویر کاربردهای گسترده ای دارند. در این مقاله دو مدل کلیپ کپ و ویت جی پی تی ۲ که به طور خاص برای تولید توصیف های زبانی از تصاویر طراحی شده اند، مورد بررسی و مقایسه قرار می گیرند. مدل کلیپ کپ با استفاده از یک انکدر تصویری و یک دیکدر، زبانی به تولید کپشن های دقیق و مفهومی از تصاویر می پردازد و به دلیل آموزش بر روی داده های بزرگ توانایی بالایی در درک مفاهیم انتزاعی و روابط بین اشیاء دارد. از سوی دیگر مدل ویت جی پی تی ۲ به عنوان یک مدل زبانی پیشرفته قادر به تولید متن های گرامری و منسجم است، اما در درک روابط پیچیده و انتزاعی ممکن است دچار محدودیت هایی باشد. این مقاله به بررسی جزئیات فنی هر دو مدل، ارزیابی های کمی و کیفی و مقایسه نتایج با کارهای مشابه پرداخته و به اهمیت انتخاب مدل مناسب در زمینه توصیف نویسی تصاویر تاکید می کند.

کلیدواژه ها:

هوش مصنوعی ، مدل پیش آموزش دیده ، کلیپ کپ ، ویت جی پی تی ۲ ، توصیف نویسی تصویر

نویسندگان

اشکان مهدوی

دانشجوی کارشناسی گروه مهندسی کامپیوتر دانشگاه ولی عصر (عج) رفسنجان

فاطمه پورغلامعلی

استادیار گروه مهندسی کامپیوتر دانشگاه ولی عصر (عج) رفسنجان