مدل سازی خطی و تحلیل رگرسیون: مروری کوتاه بر مزایا و معایب مدل سازی خطی و شرایط استفاده از مدل رگرسیون

  • سال انتشار: 1403
  • محل انتشار: فصلنامه بیوتکنولوژی و بیوشیمی غلات، دوره: 3، شماره: 2
  • کد COI اختصاصی: JR_CBB-3-2_007
  • زبان مقاله: فارسی
  • تعداد مشاهده: 144
دانلود فایل این مقاله

نویسندگان

آرمین ساعدموچشی

بخش تحقیقات علوم زراعی و باغی، مرکز تحقیقات و آموزش کشاورزی و منابع طبیعی کرمانشاه، مرکز تحقیقات، آموزش و ترویج کشاورزی، کرمانشاه، ایران.

سودابه ساعدی

بخش گیاه پزشکی، دانشکده کشاورزی، دانشگاه رازی، کرمانشاه، ایران.

فاطمه انصارشوریجه

گروه مهندسی منابع طبیعی، دانشکده کشاورزی، دانشگاه شیراز، شیراز، ایران.

عباس زضایی زاد

بخش تحقیقات علوم زراعی و باغی، مرکز تحقیقات و آموزش کشاورزی و منابع طبیعی کرمانشاه، مرکز تحقیقات، آموزش و ترویج کشاورزی، کرمانشاه، ایران.

امین صادقی

گروه گیاه پزشکی، دانشکده کشاورزی، دانشگاه کردستان، سنندج، ایران.

چکیده

مقدمه: امروزه بسته های نرم افزاری قدرتمند و کاربردی، تحلیل داده ها را ساده کرده و در نتیجه کاربرد علم داده را در تمام زمینه های تحقیقاتی توسعه داده است. بر این اساس، رگرسیون تقریبا در تمام جنبه های علوم زیستی، از سلامت انسان گرفته تا کشاورزی و علوم دامی اعمال شده است. اما در دهه های گذشته اشتباهات شایان توجهی در استفاده از این مدل گزارش شده است. هدف از این مقاله بررسی مدل سازی با این روش مهم آماری و آشنا کردن خوانندگان جهت کاربرد درست این روش و مفروضات و شرایط استفاده از آن است.مواد و روش ها: در این مقاله مروری از داده های واقعی استفاده گردیده است و نحوه انجام تحلیل های انجام شده در نرم افزارهای آماری SAS و R و کدهای مربوط به آنها در قسمت پیوست آورده شده است.یافته ها: در مفروضات مورد نیاز مدل رگرسیونی، باقیمانده های مدل باید به طور نرمال توزیع شده باشند، اما انجام آزمون نرمال بودن برای مقادیر واقعی متغیر پاسخ یا هر یک از متغیرهای مستقل اجباری نیست. از سوی دیگر، تقریبا تمام روش های تست توزیع نرمال، مانند Kolmogorov-Smirnov، برای تعداد زیاد داده، طراحی شده اند. این نشان می دهد که استفاده از چنین روش هایی برای آزمون نرمال بودن باقیمانده های مدل تخمین زده شده بر اساس تعداد داده پایین، عمدتا کمتر از صد مورد، چندان دقیق نخواهد بود. موضوع دیگر مربوط به هم خطی بین متغیرهای مستقل است. باید به این نکته توجه کرد که یافتن ضریب همبستگی برابر با صفر (R = ۰) حتی بین هر جفت متغیر تصادفی جداگانه بسیار دشوار است. بنابراین در تمامی مدل های رگرسیونی به نوعی همبستگی بین متغیرهای مستقل وجود خواهد داشت، اما موضوع مهم این است که فقط همبستگی زیاد باعث ایجاد مشکلات شدید در مدل می شود. پیشنهاد می گردد که به جای استفاده از روش ساده همبستگی از روش های تخصصی مانند ضریب تورم واریانس (VIF) یا تجزیه و تحلیل مولفه اصلی (PCA) برای تشخیص شدت هم خطی استفاده گردد. یکی دیگر از مفروضات رگرسیون مربوط به  خطی بودن مدل است که گاهی تبدیل این مشکل را برطرف کند. باید توجه شود که تبدیل داده ها منجر به تغییر واحد متغیرها یا تغییر جهت برداری آنها در یک فضای هندسی و در برخی موارد تغییر ساختار صحیح آنها می شود.نتیجه گیری: در مدل رگرسیون با افزایش تعداد داده، درجه آزادی خطا ​​به سرعت افزایش می یابد و میانگین مجذور خطای نهایی به میزان قابل توجهی کاهش می یابد. مقدار کم میانگین مربعات خطا منجر به یک مدل بسیار معنی دار می شود. در مقابل، پراکندگی نقاط داده در اطراف خط رگرسیون ممکن است بسیار گسترده باشد. به همین دلیل، استفاده از ضریب تبیین که معمولا معیار مناسبی برای تست برازش مدل است. هرچه پراکندگی نقاط مربوط به داده ها در اطراف خط رگرسیون گسترده تر باشد، مقدار ضریب تعیین کمتر است. مقادیر بالای این ضریب نشان دهنده مدل مناسب برای مجموعه داده های مورد استفاده است. یک مقدار مناسب برای ضریب تبیین را نمی توان بین دامنه ای از مقادیر برای همه آزمایش ها توصیه کرد.

کلیدواژه ها

آزمون دوربین واتسون, باقیمانده های مدل, توزیع نرمال باقیمانده, رگرسیون چندگانه, میانگین مربعات خطا

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.