بررسی مدل های هوش مصنوعی پیش آموزش دیده شده برای توصیف نویسی تصاویر در صنایع مختلف؛ مقایسه کلیپ کپ و ویت جی پی تی ۲
محل انتشار: اولین کنفرانس ملی هوشمند سازی در صنعت
سال انتشار: 1404
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 15
فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
KGUT01_026
تاریخ نمایه سازی: 3 اسفند 1404
چکیده مقاله:
در عصر حاضر هوش مصنوعی و مدل های پیش آموزش دیده نقشی کلیدی در پیشرفت فناوری های نوین و همچنین صنایع مختلف ایفا می کنند. این مدل ها توانایی درک و تفسیر معانی پنهان در داده ها را فراهم می آورند و به ویژه در حوزه توصیف نویسی تصاویر کاربردهای گسترده ای دارند. در این مقاله دو مدل کلیپ کپ و ویت جی پی تی ۲ که به طور خاص برای تولید توصیف های زبانی از تصاویر طراحی شده اند، مورد بررسی و مقایسه قرار می گیرند. مدل کلیپ کپ با استفاده از یک انکدر تصویری و یک دیکدر، زبانی به تولید کپشن های دقیق و مفهومی از تصاویر می پردازد و به دلیل آموزش بر روی داده های بزرگ توانایی بالایی در درک مفاهیم انتزاعی و روابط بین اشیاء دارد. از سوی دیگر مدل ویت جی پی تی ۲ به عنوان یک مدل زبانی پیشرفته قادر به تولید متن های گرامری و منسجم است، اما در درک روابط پیچیده و انتزاعی ممکن است دچار محدودیت هایی باشد. این مقاله به بررسی جزئیات فنی هر دو مدل، ارزیابی های کمی و کیفی و مقایسه نتایج با کارهای مشابه پرداخته و به اهمیت انتخاب مدل مناسب در زمینه توصیف نویسی تصاویر تاکید می کند.
کلیدواژه ها:
نویسندگان
اشکان مهدوی
دانشجوی کارشناسی گروه مهندسی کامپیوتر دانشگاه ولی عصر (عج) رفسنجان
فاطمه پورغلامعلی
استادیار گروه مهندسی کامپیوتر دانشگاه ولی عصر (عج) رفسنجان