پیش بینی زمان اجرای کرنلهای هم جوشی شده با استفاده از روشهای یادگیری ماشین

سال انتشار: 1404
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 40

فایل این مقاله در 14 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_JSCIT-14-4_002

تاریخ نمایه سازی: 9 دی 1404

چکیده مقاله:

چکیده- هم‎جوشی کرنل ها یکی از تکنیک‎های رایج در تنظیم کارآیی برنامه های کودا به شمار می‎رود. در این تکنیک دو کرنل با هم ترکیب شده و یک کرنل ایجاد می‎کنند. سه روش برای هم‎جوشی وجود دارد که بسته به ماهیت مسئله و الگوریتم استفاده شده در هر برنامه، یکی از این روش‎ها می‎تواند کارآمدتر باشد. برنامه نویسان معمولا ازطریق روش آزمون و خطا، یکی از این روش‎ها را انتخاب می‎کنند. وجود یک مدل کارآیی که زمان اجرای کرنل‎های هم‎جوشی‎شده را پیش‎بینی کند، می‎تواند از آزمون و خطا توسط برنامه‎نویس جلوگیری کند. در این مقاله ما یک مدل کارآیی ارائه کردیم که براساس ویژگی‎های مستخرج از کرنل‎های اولیه، زمان اجرای کرنل‎های هم‎جوشی‎شده با هریک از این سه تکنیک را پیش‎بینی می‎کند. بنابراین برنامه‎نویس با آگاهی بهتری می‎تواند بهترین روش هم‎جوشی را انتخاب کند. مدل پیشنهادی ما براساس روش‎های یادگیری ماشین ایجاد شده است. مجموعه داده‎های مدل با استفاده از هشت برنامه از مجموعه مثال‎های NVIDIA و محک رودینا ساخته شده‎اند. کرنل‎ها دو به دو با هم و با استفاده از سه تکنیک هم‎جوشی شدند. از هریک ویژگی‎هایی استخراج شده و مجموعه داده آماده شده است. نه روش یادگیری ماشین پیاده‎سازی شده و با استفاده از روش اعتبارسنجی k-دسته‎ای مورد ارزیابی قرار گرفتند. بهترین روش جنگل تصادفی بوده است و برای ساخت مدل زمان استفاه از این روش استفاده شده است. یافته های تجربی نشان می دهند که میانگین خطای مدل پیشنهادی در پیش بینی زمان اجرای کرنل های هم‎جوشی شده کمتر از ۵ درصد بوده است. مدل پیشنهادی با بهره گیری از یادگیری ماشین، فرآیند انتخاب روش هم‎جوشی کرنل را برای برنامه نویسان تسهیل می کند.

نویسندگان

Ali Riahi

گروه مهندسی کامپیوتر، دانشکده مهندسی برق و کامپیوتر، دانشگاه علم و فناوری مازندران، بهشهر، ایران

Hamid khorshidian Mianaee

گروه مهندسی کامپیوتر، دانشکده مهندسی، دانشگاه فردوسی مشهد، مشهد، ایران

Abdorreza Savadi

گروه مهندسی کامپیوتر، دانشکده مهندسی، دانشگاه فردوسی مشهد، مشهد، ایران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • D. Q. Ren, "Algorithm level power efficiency optimization for CPU–GPU ...
  • Y. Oh et al., "Adaptive cooperation of prefetching and warp ...
  • T. L. Falch and A. C. Elster, "Machine learning-based auto-tuning ...
  • H. Wu, G. Diamos, J. Wang, S. Cadambi, S. Yalamanchili, ...
  • M. Korch and T. Werner, "Exploiting limited access distance for ...
  • W. Sun, A. Li, S. Stuijk, and H. Corporaal, "How ...
  • P. Hijma, S. Heldens, A. Sclocco, B. Van Werkhoven, and ...
  • J. Filipovič et al., "Optimizing CUDA code by kernel fusion: ...
  • H. Zhao et al., "Adaptive kernel fusion for improving the ...
  • M. Wahib and N. Maruyama, "Scalable kernel fusion for memory-bound ...
  • G. Wang, "Coordinate strip-mining and kernel fusion to lower power ...
  • A. Li, B. Zheng, G. Pekhimenko and F. Long, "Automatic ...
  • J. Fousek, J. Filipovič, and M. Madzin, "Automatic fusions of ...
  • B. Qiao et al., "Automatic kernel fusion for image processing ...
  • J. Fukuhara and M. Takimoto, "Automated kernel fusion for GPU ...
  • N. D. Gai, "Highly efficient and accurate deep learning–based classification ...
  • J. Lin, J. Liu, E. F. Y. Young, and M. ...
  • A. Riahi, A. Savadi, and M. Naghibzadeh, "Comparison of analytical ...
  • M. Fang, J. Fang, W. Zhang, H. Zhou, J. Liao, ...
  • D.-H. Kim, "Evaluation of the performance of GPU global memory ...
  • NVIDIA C. "NVIDIA’s Next Generation CUDA Compute Architecture: Fermi", NVIDIA ...
  • NVIDIA C. "Whitepaper NVIDIA GeForce GTX ۱۰۸۰", NVIDIA Corp, ۲۰۱۶ ...
  • NVIDIA C. "Whitepaper NVIDIA TESLA V۱۰۰ GPU ARCHITECTURE", NVIDIA Corp, ...
  • Huang, Jen-Cheng, et al. "GPUMech: GPU performance modeling technique based ...
  • NVIDIA C. "CUDA C Programming Guide, Version ۱۲.۹", NVIDIA Corporation, ...
  • S. Tabik, G. Ortega, and E. M. Garzón, "Performance evaluation ...
  • T. P. C. Benchmark and H. T. M., "Standard Specification ...
  • Y. N. Khalid et al., "FusionCL: a machine-learning based approach ...
  • S. M. Atif et al., "Multi-Kernel Fusion for RBF Neural ...
  • A. Ashari et al., "On optimizing machine learning workloads via ...
  • S. K. Shekofteh, H. Noori, M. Naghibzadeh, H. S. Yazdi, ...
  • NVIDIA C. "Profiler Release ۱۲.۹", NVIDIA, ۲۰۲۵ ...
  • A. Riahi, A. Savadi, and M. Naghibzadeh, "Many-BSP: an analytical ...
  • NVIDIA C. "PARALLEL THREAD EXECUTION ISA v۶.۵", NVIDIA, ۲۰۱۹ ...
  • M. A. Hall, Practical Machine Learning Tools and Techniques, ۳rd ...
  • A. Riahi, A. Savadi, and M. Naghibzadeh, "Performance prediction of ...
  • نمایش کامل مراجع