کمترین مربعات خطی

Linear least squares
📅 26 خرداد 1405 📄 2,201 کلمه 🔗 منبع اصلی

چکیده

کمترین مربعات خطی (LLS) روشی برای تقریب توابع خطی به داده‌هاست. این روش شامل فرمول‌بندی‌هایی برای حل مسائل رگرسیون خطی (عادی، وزنی و تعمیم‌یافته) است و با استفاده از روش‌های عددی مانند تجزیه متعامد و معکوس ماتریس، بهترین برازش را به داده‌ها ارائه می‌دهد.

کمترین مربعات خطی چیست؟

کمترین مربعات خطی (LLS) روشی برای تقریب زدن توابع خطی به مجموعه‌ای از داده‌هاست. این روش مجموعه‌ای از فرمول‌بندی‌ها را برای حل مسائل آماری در رگرسیون خطی ارائه می‌دهد؛ مسائلی که شامل انواع باقیمانده‌های عادی (بدون وزن)، وزن‌دار و تعمیم‌یافته (همبسته) هستند. روش‌های عددی مورد استفاده در این حوزه، معکوس کردن ماتریس معادلات نرمال و روش‌های تجزیه متعامد را در بر می‌گیرند.

فرمول‌بندی‌های اصلی

سه فرمول‌بندی اصلی در کمترین مربعات خطی عبارتند از:

  1. کمترین مربعات عادی (OLS): این رایج‌ترین تخمین‌گر است. تخمین‌های OLS را معمولاً برای تحلیل داده‌های آزمایشگاهی و مشاهده‌ای به کار می‌برند. روش OLS مجموع مربعات باقیمانده‌ها را به حداقل می‌رساند و به یک بیان فرم بسته برای مقدار تخمین‌زده‌شده بردار پارامترهای ناشناخته β منجر می‌شود. در این روش، y برداری است که عنصر iام آن، مشاهدات iام متغیر وابسته است و X ماتریسی است که عنصر ij آن، مشاهدات iام متغیر مستقل jام را نشان می‌دهد. اگر خطاها واریانس محدود داشته باشند و با متغیرهای توضیحی همبسته نباشند، این تخمین‌گر نااریب و سازگار خواهد بود. همچنین با فرض واریانس محدود و همگنی واریانس خطاها (یعنی واریانس خطاها به i بستگی نداشته باشد)، این تخمین‌گر کارا است. شرط عدم همبستگی خطاها با متغیرهای توضیحی معمولاً در آزمایش‌ها برقرار است، اما در داده‌های مشاهده‌ای، احتمال وجود یک متغیر پنهان z که هم با متغیرهای مستقل و هم با متغیر پاسخ مرتبط باشد، بعید نیست. چنین متغیری باعث همبستگی متغیرهای توضیحی با پاسخ شده و تخمین‌گر β را ناسازگار می‌کند. شرط همگنی واریانس ممکن است در هر دو نوع داده نقض شود. اگر هدف استنتاج یا مدل‌سازی پیش‌بینی باشد، در حضور هم‌خطی چندگانه (مگر اینکه حجم نمونه بسیار بزرگ باشد)، عملکرد OLS ضعیف خواهد بود.
  2. کمترین مربعات وزنی (WLS): زمانی از این روش استفاده می‌شود که ناهمگنی واریانس در جملات خطای مدل وجود داشته باشد.
  3. کمترین مربعات تعمیم‌یافته (GLS): این روش بسطی از OLS است که اجازه می‌دهد تخمین β در حضور ناهمگنی واریانس، همبستگی خطاها یا هر دو، به صورت کارا انجام شود؛ به شرطی که ساختار ناهمگنی و همبستگی مستقل از داده‌ها مشخص باشد. برای مدیریت ناهمگنی واریانس هنگامی که خطاها با هم همبسته نیستند، GLS یک شکل وزن‌دار از مجموع مربعات باقیمانده‌های OLS را به حداقل می‌رساند، جایی که وزن مورد نیاز برای حالت iام، عکس واریانس خطای آن است. این حالت خاص از GLS، «کمترین مربعات وزنی» نامیده می‌شود. در حل مسئله تخمین با GLS، Ω ماتریس کوواریانس خطاهاست. می‌توان GLS را به عنوان اعمال یک تبدیل خطی روی داده‌ها در نظر گرفت تا فرضیات OLS برای داده‌های تبدیل‌شده برقرار شود. برای اجرای GLS، ساختار کوواریانس خطاها باید تا یک ثابت ضریب‌کننده مشخص باشد.

فرمول‌بندی‌های جایگزین

سایر فرمول‌بندی‌ها شامل موارد زیر هستند:

  • کمترین مربعات وزنی تکرارشونده (IRLS): زمانی استفاده می‌شود که ناهمگنی واریانس یا همبستگی در خطاها وجود داشته باشد، اما اطلاعات کمی درباره ساختار کوواریانس خطاها مستقل از داده‌ها در دسترس باشد. در اولین تکرار، OLS یا GLS با یک ساختار موقتی کوواریانس اجرا شده و باقیمانده‌ها به دست می‌آیند. بر اساس این باقیمانده‌ها، معمولاً می‌توان تخمین بهتری از ساختار کوواریانس خطاها به دست آورد. سپس با استفاده از این تخمین برای تعیین وزن‌ها، تکرار بعدی GLS انجام می‌شود. این فرآیند می‌تواند تا همگرایی تکرار شود، اما در بسیاری از موارد، تنها یک تکرار برای رسیدن به تخمین کارای β کافی است.
  • رگرسیون متغیرهای ابزاری (IV): زمانی قابل اجراست که متغیرهای توضیحی با خطاها همبسته باشند. در این حالت، به متغیرهای ابزاری کمکی (مانند zi) نیاز است تا شرط E[ziεi] = 0 برقرار باشد. اگر Z ماتریس ابزارها باشد، تخمین‌گر به صورت فرم بسته داده می‌شود. رگرسیون ابزارهای بهینه، بسطی از رگرسیون IV کلاسیک است.
  • کمترین مربعات کل (TLS): رویکردی برای تخمین کمترین مربعات در رگرسیون خطی است که متغیرهای مستقل و پاسخ را متقارن‌تر از OLS (از نظر هندسی) در نظر می‌گیرد. این روش یکی از راه‌حل‌های مسئله «خطا در متغیرها» است و گاهی حتی زمانی که فرض می‌شود متغیرهای مستقل بدون خطا هستند نیز استفاده می‌شود.

برازش الگوی خطی (LTF): این روش رگرسیون خطی را با کمترین مربعات (تعمیم‌یافته) ترکیب می‌کند تا بهترین تخمین‌گر را تعیین کند. برازش الگوی خطی مسئله رایجی را حل می‌کند که در آن نمی‌توان باقیمانده‌ها را به صورت تحلیلی بیان کرد یا ارزیابی مکرر آن‌ها زمان‌بر است؛ مشکلی که در الگوریتم‌های تکرارشونده مینیمم‌سازی رایج است. در این روش، باقیمانده‌ها از متغیرهای تصادفی و تقریب خطی مدل حقیقی زیربنایی تخمین زده می‌شوند، در حالی که مدل حقیقی باید حداقل برای چند مقدار مرجع β مشخص شده باشد. توزیع حقیقی سپس با یک رگرسیون خطی تقریب زده می‌شود و بهترین تخمین‌گرها به صورت فرم بسته به دست می‌آیند. LTF را می‌توان برای متغیرهای تصادفی با توزیع لگاریتم-نرمال نیز بیان کرد. تعمیم این روش، برازش الگوی درجه دوم است که رگرسیون مرتبه دوم مدل را فرض می‌کند و از روش نیوتن برای یافتن بهترین تخمین‌گر استفاده می‌کند.

کمترین مربعات درصدی: بر کاهش خطاهای درصدی تمرکز دارد که در پیش‌بینی یا تحلیل سری‌های زمانی بسیار کاربردی است. همچنین در شرایطی که متغیر وابسته بازه وسیعی بدون واریانس ثابت دارد مفید است، زیرا در صورت استفاده از OLS، باقیمانده‌های بزرگ‌تر در انتهای بالای بازه غالب می‌شوند. وقتی خطای درصدی توزیع نرمال دارد، رگرسیون کمترین مربعات درصدی، تخمین‌های درست‌نمایی بیشینه را ارائه می‌دهد. این رگرسیون با مدل خطای ضربی مرتبط است، در حالی که OLS با مدل‌های دارای جمله خطای جمعی سر و کار دارد.

کمترین مربعات مقید: مسأله کمترین مربعات خطی را با محدودیت‌های اضافه‌تر روی راه‌حل نشان می‌دهد.

تابع هدف

در OLS (یعنی با فرض مشاهدات بدون وزن)، مقدار بهینه تابع هدف با جایگذاری بیان بهینه برای بردار ضرایب به دست می‌آید. می‌توان نشان داد که با تخصیص مناسب وزن‌ها، مقدار مورد انتظار S برابر است با درجات آزادی. اگر فرض کنیم وزن‌ها یکانی هستند، مقدار مورد انتظار S برابر است با درجات آزادی ضربدر واریانس هر مشاهدہ. اگر باقیمانده‌ها دارای توزیع نرمال باشند، تابع هدف (که مجموع مربعات باقیمانده‌های وزن‌دار است)، از توزیع کای-دو با m-n درجات آزادی پیروی می‌کند. این مقادیر را می‌توان برای یک معیار آماری در مورد نیکویی برازش به کار گرفت. هنگام استفاده از وزن‌های یکانی، باید این اعداد را بر واریانس یک مشاهدہ تقسیم کرد. در WLS، تابع هدف عادی بالا با میانگین وزنی باقیمانده‌ها جایگزین می‌شود.

بحث و بررسی

در آمار و ریاضیات، کمترین مربعات خطی رویکردی برای برازش یک مدل ریاضی یا آماری به داده‌هاست؛ در مواردی که مقدار ایده‌آل ارائه‌شده توسط مدل برای هر نقطه داده، به صورت خطی بر حسب پارامترهای ناشناخته مدل بیان می‌شود. مدل برازش‌یافته حاصل را می‌توان برای خلاصه‌سازی داده‌ها، پیش‌بینی مقادیر مشاهده‌نشده از همان سیستم و درک مکانیسم‌های زیربنایی سیستم استفاده کرد.

از نظر ریاضی، کمترین مربعات خطی مسأله حل تقریبی یک سیستم بیش‌تعین از معادلات خطی Ax = b است، که در آن b در فضای ستونی ماتریس A قرار ندارد. راه‌حل تقریبی به صورت راه‌حل دقیق Ax = b' محقق می‌شود، که در آن b' تصویر b روی فضای ستونی A است. بهترین تقریب، آنی است که مجموع مربعات تفاضل‌ها بین مقادیر داده‌ها و مقادیر مدل‌شده متناظرشان را به حداقل می‌رساند. از آنجا که تابع فرض‌شده نسبت به پارامترهای تخمینی خطی است، به این روش کمترین مربعات خطی گفته می‌شود. مسائل کمترین مربعات خطی محدبی هستند و تا زمانی که تعداد نقاط داده برای برازش برابر یا بیشتر از تعداد پارامترهای ناشناخته باشد، دارای راه‌حل فرم بسته و یکتایی هستند (مگر در شرایط خاص تنزل‌یافته). در مقابل، مسائل کمترین مربعات غیرخطی معمولاً باید با یک رویه تکرارشونده حل شوند و می‌توانند غیرمحدب با چندین نقطه بهینه برای تابع هدف باشند. اگر توزیع‌های پیشین در دسترس باشند، حتی یک سیستم کم‌تعین نیز می‌تواند با استفاده از تخمین‌گر MMSE بیزی حل شود.

در آمار، مسائل کمترین مربعات خطی به یک مدل آماری بسیار مهم به نام رگرسیون خطی مربوط می‌شوند که به عنوان یک شکل خاص از تحلیل رگرسیون پدیدار می‌گردد. این مقاله بیشتر بر جنبه‌های ریاضی مسائل تمرکز دارد.

ویژگی‌ها

اگر خطاهای آزمایش همبسته نباشند، میانگین صفر و واریانس ثابتی داشته باشند، قضیه گاوس-مارکوف بیان می‌کند که تخمین‌گر کمترین مربعات، در میان تمام تخمین‌گرهایی که ترکیب‌های خطی مشاهدات هستند، حداقل واریانس را دارد. از این نظر، این تخمین‌گر بهترین یا بهینه است. توجه کنید که این ویژگی مستقل از تابع توزیع آماری خطاهاست. به عبارت دیگر، نیازی نیست تابع توزیع خطاها حتماً نرمال باشد. با این حال، برای برخی توزیع‌های احتمالی، تضمینی نیست که راه‌حل کمترین مربعات با توجه به مشاهدات حتی امکان‌پذیر باشد؛ با این وجود، در چنین مواردی این بهترین تخمین‌گری است که هم خطی و هم نااریب است.

به عنوان مثال، نشان دادن اینکه میانگین حسابی مجموعه‌ای از اندازه‌گیری‌های یک کمیت، تخمین‌گر کمترین مربعات مقدار آن کمیت است، بسیار آسان است. اگر شرایط قضیه گاوس-مارکوف برقرار باشد، میانگین حسابی بهینه است، مهم نیست توزیع خطاهای اندازه‌گیری چه باشد.

با این حال، اگر خطاهای آزمایش از توزیع نرمال پیروی کنند، تخمین‌گر کمترین مربعات در عین حال یک تخمین‌گر درست‌نمایی بیشینه (MLE) نیز خواهد بود.

این ویژگی‌ها، پایه و اساس استفاده از روش کمترین مربعات برای انواع برازش داده‌ها را شکل می‌دهند، حتی زمانی که فرضیات کاملاً معتبر نباشند.

محدودیت‌ها

یکی از فرضیات اساسی رویکرد فوق این است که متغیر مستقل (x) بدون خطاست. در عمل، خطاهای اندازه‌گیری متغیر مستقل معمولاً بسیار کوچک‌تر از خطاهای متغیر وابسته هستند و در نتیجه نادیده گرفته می‌شوند. وقتی اینطور نباشد، باید از کمترین مربعات کل یا به طور کلی‌تر مدل‌های خطا در متغیرها استفاده کرد. این کار با تنظیم طرح وزن‌دهی برای در نظر گرفتن خطاهای هر دو متغیر وابسته و مستقل، و سپس پیگیری رویه استاندارد امکان‌پذیر است.

در برخی موارد، ماتریس معادلات نرمال (وزن‌دار) بدحالت است. هنگام برازش چندجمله‌ای، ماتریس معادلات نرمال یک ماتریس وندرموند است که با افزایش مرتبه ماتریس، به شدت بدحالت‌تر می‌شود. در این شرایط، تخمین کمترین مربعات نویز اندازه‌گیری را تقویت کرده و ممکن است به شدت نادقیق باشد. در چنین مواردی می‌توان از تکنیک‌های مختلف منظم‌سازی استفاده کرد که رایج‌ترین آن‌ها رگرسیون ریج نامیده می‌شود. اگر اطلاعات بیشتری درباره پارامترها (مانند بازه مقادیر ممکن) در دسترس باشد، تکنیک‌هایی برای افزایش پایداری راه‌حل وجود دارد؛ برای مثال به کمترین مربعات مقید مراجعه کنید.

نقطه ضعف دیگر تخمین‌گر کمترین مربعات این است که نرم باقیمانده‌ها به حداقل می‌رسد، در حالی که در برخی موارد هدف واقعی دستیابی به خطای کوچک در پارامتر است. از آنجا که پارامتر حقیقی لزوماً ناشناخته است، نمی‌توان این کمیت را مستقیماً حداقل کرد. اگر توزیع پیشین پارامتر مشخص باشد، می‌توان از تخمین‌گر بیزی برای حداقل کردن میانگین مربعات خطا استفاده کرد. روش کمترین مربعات اغلب زمانی به کار می‌رود که هیچ پیش‌دانستی در دست نباشد. شگفت‌آور است که وقتی چندین پارامتر به طور مشترک تخمین زده می‌شوند، می‌توان تخمین‌گرهای بهتری ساخت؛ پدیده‌ای که به نام پدیده استاین معروف است. به عنوان مثال، اگر خطای اندازه‌گیری گاوسی باشد، چندین تخمین‌گر وجود دارند که بر روش کمترین مربعات غلبه می‌کنند؛ معروف‌ترین آن‌ها تخمین‌گر جیمز-استاین است.

کاربردها

  • برازش چندجمله‌ای: مدل‌ها چندجمله‌ای در متغیر مستقل x هستند:
    • خط راست: y = a + bx
    • درجه دوم: y = a + bx + cx²
    • درجه سوم، چهارم و بالاتر. برای رگرسیون با چندجمله‌ای مرتبه بالا، استفاده از چندجمله‌ای متعامد توصیه می‌شود.
  • هموارسازی و مشتق‌گیری عددی: این یک کاربرد از برازش چندجمله‌ای است.
  • چندجمله‌ای‌ها در بیش از یک متغیر مستقل: از جمله برازش سطح
  • برازش منحنی با B-اسپلاین‌ها
  • شیمی‌سنجی، منحنی کالیبراسیون، افزودنی استاندارد، نمودار گران، تحلیل مخلوط‌ها

کاربرد در برازش داده‌ها

کاربرد اصلی کمترین مربعات خطی در برازش داده‌هاست. با داشتن مجموعه‌ای از m نقطه داده شامل مقادیر اندازه‌گیری‌شده در m مقدار از یک متغیر مستقل و یک تابع مدل با پارامترهای ناشناخته، هدف یافتن پارامترهایی است که تابع مدل «بهترین» برازش را با داده‌ها داشته باشد. در کمترین مربعات خطی، خطی بودن نسبت به خود پارامترهاست، بنابراین توابع می‌توانند نسبت به متغیر x غیرخطی باشند.

در حالت ایده‌آل، مدل دقیقاً با داده‌ها مطابقت دارد، اما از آنجا که نقاط داده بیش از پارامترهای تعیین‌شوند وجود دارد، این امر در عمل معمولاً غیرممکن است. رویکرد انتخابی در اینجا، یافتن کمترین مقدار ممکن برای مجموع مربعات باقیمانده‌هاست. پس از جایگذاری، این مسأله مینیمم‌سازی به یک مسأله مینیمم‌سازی درجه دوم تبدیل می‌شود و بهترین برازش با حل معادلات نرمال به دست می‌آید.

مثال

فرض کنید یک پژوهشگر آزمایشی انجام داده و چهار نقطه داده به دست آورده است. به دلیل تحلیل اکتشافی یا دانش قبلی، پژوهشگر مشکوک است که مقادیر y به صورت سیستماتیک به مقادیر x وابسته‌اند. مقادیر x دقیق فرض می‌شوند، اما مقادیر y به دلیل پدیده مورد مطالعه یا نقص اندازه‌گیری دارای عدم قطعیت یا «نویز» هستند.

برازش یک خط

یکی از ساده‌ترین روابط ممکن بین x و y، یک خط y = a + bx است. عرض از مبدا (a) و شیب (b) در ابتدا ناشناخته‌اند. پژوهشگر می‌خواهد مقادیری برای a و b پیدا کند که خط از چهار نقطه داده عبور کند. با چهار معادله و دو مجهول، این سیستم بیش‌تعین است و راه‌حل دقیقی ندارد. برای در نظر گرفتن راه‌حل‌های تقریبی، باقیمانده‌ها را وارد معادلات می‌کنیم. باقیمانده iام، عدم تطابق بین مشاهدہ iام و پیش‌بینی iام است.

در کمترین مربعات، تمرکز روی مجموع مربعات باقیمانده‌هاست. بهترین راه‌حل، آنی است که این مجموع را نسبت به a و b به حداقل برساند. با صفر قرار دادن مشتقات جزئی، معادلات نرمال به دست می‌آیند که یک سیستم از دو معادله خطی با دو مجهول هستند. با حل آن‌ها، بهترین خط برازش پیدا می‌شود. این محاسبه را می‌توان به صورت ماتریسی نیز بیان کرد. اگر ماتریس مربع‌شده معکوس‌پذیر باشد، ماتریس حاصل تصویر متعامد روی فضای ستونی ماتریس X را نشان می‌دهد.

برازش یک سهمی

فرض کنید پژوهشگر بخواهد سهمی‌ای به فرم y = a + bx + cx² را برازش دهد. نکته مهم این است که این مدل همچنان نسبت به پارامترهای ناشناخته (a, b, c) خطی است، بنابراین کمترین مربعات خطی همچنان قابل اجراست. با مشتق‌گیری و صفر قرار دادن مشتقات، پارامترها محاسبه می‌شوند. در نماد ماتریسی، با همان منطق قبلی، راه‌حل با استفاده از ماتریس طرح (Design Matrix) با سه ستون (برای 1, x, x²) و یک ردیف برای هر نقطه داده به دست می‌آید.

برازش سایر منحنی‌ها و سطوح

به طور کلی‌تر، می‌توان p متغیر توضیحی و یک مدل خطی داشت.

جمع‌بندی

کمترین مربعات خطی ابزاری قدرتمند و بنیادی در آمار و ریاضیات برای مدل‌سازی و برازش داده‌هاست. با وجود محدودیت‌هایی مانند حساسیت به نویز در ماتریس‌های بدحالت یا خطای متغیرهای مستقل، این روش به دلیل سادگی، حل تحلیلی و کارایی بالا (طبق قضیه گاوس-مارکوف) همچنان پرکاربردترین راهکار برای تخمین پارامترهاست. استفاده از نسخه‌های تنظیم‌شده یا تعمیم‌یافته، دقت این روش را حتی در شرایط پیچیده نیز تضمین می‌کند.