ارزیابی عملکرد مدل CLIP در تطبیق تصویر و متن در زبان فارسی چالش ها و راهکارها

محتشمه اسکندری; زهرا کیوانلو

ارزیابی عملکرد مدل CLIP در تطبیق تصویر و متن در زبان فارسی چالش ها و راهکارها

محل انتشار: هفتمین کنفرانس ملی دستاوردهای نوین در برق، کامپیوتر و صنایع

سال انتشار: 1404

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 74

فایل این مقاله در 9 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/2623795

شناسه ملی سند علمی:

NCAEC07_036

تاریخ نمایه سازی: 17 خرداد 1405

چکیده مقاله:

در سال های اخیر مدل های چندوجهی مانند GPT-۴، CLIP و Gemini نقش مهمی در توسعه هوش مصنوعی ایفا کرده اند. این مدل ها با هدف تحلیل همزمان داده های تصویری، متنی، صوتی و ویدئویی امکان درک عمیق تری از محیط را برای سامانه های هوشمند فراهم می سازند. با وجود پیشرفت های چشمگیر عملکرد این مدل ها در زبان های کم منبع مانند فارسی کمتر مورد ارزیابی دقیق قرار گرفته است. در این مقاله یک چارچوب برای بررسی تجربی عملکرد مدل CLIP در تطبیق تصویر و متن فارسی طراحی و اجرا شده است. ابتدا مجموعه ای از تصاویر عمومی همراه با توضیحات فارسی و معادل های انگلیسی تهیه گردید. سپس مدل CLIP در حالت zero-shot روی این داده ها اجرا شد و امتیازهای شباهت کسینوسی بین تصویر و متن در دو زبان مقایسه گردید. نتایج نشان داد که مدل در زبان انگلیسی به طور میانگین امتیاز بالاتری کسب کرده و در زبان فارسی با افت نسبی دقت مواجه است. این تفاوت را می توان به ساختار نحوی خاص زبان فارسی، ترکیب های وصفی، پیچیده افعال مرکب و نبود داده های فارسی در مرحله آموزش مدل نسبت داد. در پایان پیشنهاداتی برای بهبود عملکرد مدل در زبان فارسی شامل آموزش مجدد، استفاده از مدل های چندزبانه و طراحی مجموعه داده های بومی ارائه شده است.

کلیدواژه ها:

هوش مصنوعی چندوجهی ، CLIP ، زبان فارسی ، تطبیق تصویر و متن ، شباهت کسینوسی ، مدل های چندزبانه

نویسندگان

محتشمه اسکندری

دانشجوی کارشناسی ارشد دانشگاه صنعتی شاهرود

زهرا کیوانلو

استادیار دانشکده برق کامپیوتر و صنایع مجتمع آموزش عالی و فنی مهندسی اسفراین