Heterogeneous Pretrained Transformers for Complex Control

سال انتشار: 1404
نوع سند: مقاله کنفرانسی
زبان: انگلیسی
مشاهده: 23

متن کامل این مقاله منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل مقاله (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ISME33_495

تاریخ نمایه سازی: 2 دی 1404

چکیده مقاله:

Transformer-based architectures have recently achieved remarkable success in various domains such as language processing, vision, and multi-modal learning. However, most existing approaches rely on homogeneous layers and shared parameters across all modalities, which can lead to inefficiencies when dealing with heterogeneous data in complex control environments. This paper introduces Heterogeneous Pretrained Transformers (HPT), a framework in which specialized transformer blocks process distinct input modalities (textual instructions, visual data, and sensor signals) while maintaining cross-attention for meaningful information fusion. We first present the architecture of HPT, including its modality-specific embedding functions and fusion points. We then demonstrate how the proposed framework can be adapted for a robotic control scenario, where an agent must combine textual commands, real-time camera feeds, and sensor readings to execute fine-grained actions. Experimental results from simulation studies indicate that HPT can outperform baseline multi-modal transformers in task success rate and data efficiency. This work paves the way for more effective use of diverse data streams in complex control applications.

نویسندگان

Arian Sardari

BSc. Student, Sharif University of Technology, Tehran

Ali Moosavi

Professor, Sharif University of Technology, Corresponding Author, Tehran