ارزیابی عملکرد مدل CLIP در تطبیق تصویر و متن در زبان فارسی چالش ها و راهکارها

سال انتشار: 1404
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 74

فایل این مقاله در 9 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

NCAEC07_036

تاریخ نمایه سازی: 17 خرداد 1405

چکیده مقاله:

در سال های اخیر مدل های چندوجهی مانند GPT-۴، CLIP و Gemini نقش مهمی در توسعه هوش مصنوعی ایفا کرده اند. این مدل ها با هدف تحلیل همزمان داده های تصویری، متنی، صوتی و ویدئویی امکان درک عمیق تری از محیط را برای سامانه های هوشمند فراهم می سازند. با وجود پیشرفت های چشمگیر عملکرد این مدل ها در زبان های کم منبع مانند فارسی کمتر مورد ارزیابی دقیق قرار گرفته است. در این مقاله یک چارچوب برای بررسی تجربی عملکرد مدل CLIP در تطبیق تصویر و متن فارسی طراحی و اجرا شده است. ابتدا مجموعه ای از تصاویر عمومی همراه با توضیحات فارسی و معادل های انگلیسی تهیه گردید. سپس مدل CLIP در حالت zero-shot روی این داده ها اجرا شد و امتیازهای شباهت کسینوسی بین تصویر و متن در دو زبان مقایسه گردید. نتایج نشان داد که مدل در زبان انگلیسی به طور میانگین امتیاز بالاتری کسب کرده و در زبان فارسی با افت نسبی دقت مواجه است. این تفاوت را می توان به ساختار نحوی خاص زبان فارسی، ترکیب های وصفی، پیچیده افعال مرکب و نبود داده های فارسی در مرحله آموزش مدل نسبت داد. در پایان پیشنهاداتی برای بهبود عملکرد مدل در زبان فارسی شامل آموزش مجدد، استفاده از مدل های چندزبانه و طراحی مجموعه داده های بومی ارائه شده است.

نویسندگان

محتشمه اسکندری

دانشجوی کارشناسی ارشد دانشگاه صنعتی شاهرود

زهرا کیوانلو

استادیار دانشکده برق کامپیوتر و صنایع مجتمع آموزش عالی و فنی مهندسی اسفراین