کمترین مربعات خطی چیست؟
کمترین مربعات خطی (LLS) روشی برای تقریب زدن توابع خطی به مجموعهای از دادههاست. این روش مجموعهای از فرمولبندیها را برای حل مسائل آماری در رگرسیون خطی ارائه میدهد؛ مسائلی که شامل انواع باقیماندههای عادی (بدون وزن)، وزندار و تعمیمیافته (همبسته) هستند. روشهای عددی مورد استفاده در این حوزه، معکوس کردن ماتریس معادلات نرمال و روشهای تجزیه متعامد را در بر میگیرند.
فرمولبندیهای اصلی
سه فرمولبندی اصلی در کمترین مربعات خطی عبارتند از:
- کمترین مربعات عادی (OLS): این رایجترین تخمینگر است. تخمینهای OLS را معمولاً برای تحلیل دادههای آزمایشگاهی و مشاهدهای به کار میبرند. روش OLS مجموع مربعات باقیماندهها را به حداقل میرساند و به یک بیان فرم بسته برای مقدار تخمینزدهشده بردار پارامترهای ناشناخته β منجر میشود. در این روش، y برداری است که عنصر iام آن، مشاهدات iام متغیر وابسته است و X ماتریسی است که عنصر ij آن، مشاهدات iام متغیر مستقل jام را نشان میدهد. اگر خطاها واریانس محدود داشته باشند و با متغیرهای توضیحی همبسته نباشند، این تخمینگر نااریب و سازگار خواهد بود. همچنین با فرض واریانس محدود و همگنی واریانس خطاها (یعنی واریانس خطاها به i بستگی نداشته باشد)، این تخمینگر کارا است. شرط عدم همبستگی خطاها با متغیرهای توضیحی معمولاً در آزمایشها برقرار است، اما در دادههای مشاهدهای، احتمال وجود یک متغیر پنهان z که هم با متغیرهای مستقل و هم با متغیر پاسخ مرتبط باشد، بعید نیست. چنین متغیری باعث همبستگی متغیرهای توضیحی با پاسخ شده و تخمینگر β را ناسازگار میکند. شرط همگنی واریانس ممکن است در هر دو نوع داده نقض شود. اگر هدف استنتاج یا مدلسازی پیشبینی باشد، در حضور همخطی چندگانه (مگر اینکه حجم نمونه بسیار بزرگ باشد)، عملکرد OLS ضعیف خواهد بود.
- کمترین مربعات وزنی (WLS): زمانی از این روش استفاده میشود که ناهمگنی واریانس در جملات خطای مدل وجود داشته باشد.
- کمترین مربعات تعمیمیافته (GLS): این روش بسطی از OLS است که اجازه میدهد تخمین β در حضور ناهمگنی واریانس، همبستگی خطاها یا هر دو، به صورت کارا انجام شود؛ به شرطی که ساختار ناهمگنی و همبستگی مستقل از دادهها مشخص باشد. برای مدیریت ناهمگنی واریانس هنگامی که خطاها با هم همبسته نیستند، GLS یک شکل وزندار از مجموع مربعات باقیماندههای OLS را به حداقل میرساند، جایی که وزن مورد نیاز برای حالت iام، عکس واریانس خطای آن است. این حالت خاص از GLS، «کمترین مربعات وزنی» نامیده میشود. در حل مسئله تخمین با GLS، Ω ماتریس کوواریانس خطاهاست. میتوان GLS را به عنوان اعمال یک تبدیل خطی روی دادهها در نظر گرفت تا فرضیات OLS برای دادههای تبدیلشده برقرار شود. برای اجرای GLS، ساختار کوواریانس خطاها باید تا یک ثابت ضریبکننده مشخص باشد.
فرمولبندیهای جایگزین
سایر فرمولبندیها شامل موارد زیر هستند:
- کمترین مربعات وزنی تکرارشونده (IRLS): زمانی استفاده میشود که ناهمگنی واریانس یا همبستگی در خطاها وجود داشته باشد، اما اطلاعات کمی درباره ساختار کوواریانس خطاها مستقل از دادهها در دسترس باشد. در اولین تکرار، OLS یا GLS با یک ساختار موقتی کوواریانس اجرا شده و باقیماندهها به دست میآیند. بر اساس این باقیماندهها، معمولاً میتوان تخمین بهتری از ساختار کوواریانس خطاها به دست آورد. سپس با استفاده از این تخمین برای تعیین وزنها، تکرار بعدی GLS انجام میشود. این فرآیند میتواند تا همگرایی تکرار شود، اما در بسیاری از موارد، تنها یک تکرار برای رسیدن به تخمین کارای β کافی است.
- رگرسیون متغیرهای ابزاری (IV): زمانی قابل اجراست که متغیرهای توضیحی با خطاها همبسته باشند. در این حالت، به متغیرهای ابزاری کمکی (مانند zi) نیاز است تا شرط E[ziεi] = 0 برقرار باشد. اگر Z ماتریس ابزارها باشد، تخمینگر به صورت فرم بسته داده میشود. رگرسیون ابزارهای بهینه، بسطی از رگرسیون IV کلاسیک است.
- کمترین مربعات کل (TLS): رویکردی برای تخمین کمترین مربعات در رگرسیون خطی است که متغیرهای مستقل و پاسخ را متقارنتر از OLS (از نظر هندسی) در نظر میگیرد. این روش یکی از راهحلهای مسئله «خطا در متغیرها» است و گاهی حتی زمانی که فرض میشود متغیرهای مستقل بدون خطا هستند نیز استفاده میشود.
برازش الگوی خطی (LTF): این روش رگرسیون خطی را با کمترین مربعات (تعمیمیافته) ترکیب میکند تا بهترین تخمینگر را تعیین کند. برازش الگوی خطی مسئله رایجی را حل میکند که در آن نمیتوان باقیماندهها را به صورت تحلیلی بیان کرد یا ارزیابی مکرر آنها زمانبر است؛ مشکلی که در الگوریتمهای تکرارشونده مینیممسازی رایج است. در این روش، باقیماندهها از متغیرهای تصادفی و تقریب خطی مدل حقیقی زیربنایی تخمین زده میشوند، در حالی که مدل حقیقی باید حداقل برای چند مقدار مرجع β مشخص شده باشد. توزیع حقیقی سپس با یک رگرسیون خطی تقریب زده میشود و بهترین تخمینگرها به صورت فرم بسته به دست میآیند. LTF را میتوان برای متغیرهای تصادفی با توزیع لگاریتم-نرمال نیز بیان کرد. تعمیم این روش، برازش الگوی درجه دوم است که رگرسیون مرتبه دوم مدل را فرض میکند و از روش نیوتن برای یافتن بهترین تخمینگر استفاده میکند.
کمترین مربعات درصدی: بر کاهش خطاهای درصدی تمرکز دارد که در پیشبینی یا تحلیل سریهای زمانی بسیار کاربردی است. همچنین در شرایطی که متغیر وابسته بازه وسیعی بدون واریانس ثابت دارد مفید است، زیرا در صورت استفاده از OLS، باقیماندههای بزرگتر در انتهای بالای بازه غالب میشوند. وقتی خطای درصدی توزیع نرمال دارد، رگرسیون کمترین مربعات درصدی، تخمینهای درستنمایی بیشینه را ارائه میدهد. این رگرسیون با مدل خطای ضربی مرتبط است، در حالی که OLS با مدلهای دارای جمله خطای جمعی سر و کار دارد.
کمترین مربعات مقید: مسأله کمترین مربعات خطی را با محدودیتهای اضافهتر روی راهحل نشان میدهد.
تابع هدف
در OLS (یعنی با فرض مشاهدات بدون وزن)، مقدار بهینه تابع هدف با جایگذاری بیان بهینه برای بردار ضرایب به دست میآید. میتوان نشان داد که با تخصیص مناسب وزنها، مقدار مورد انتظار S برابر است با درجات آزادی. اگر فرض کنیم وزنها یکانی هستند، مقدار مورد انتظار S برابر است با درجات آزادی ضربدر واریانس هر مشاهدہ. اگر باقیماندهها دارای توزیع نرمال باشند، تابع هدف (که مجموع مربعات باقیماندههای وزندار است)، از توزیع کای-دو با m-n درجات آزادی پیروی میکند. این مقادیر را میتوان برای یک معیار آماری در مورد نیکویی برازش به کار گرفت. هنگام استفاده از وزنهای یکانی، باید این اعداد را بر واریانس یک مشاهدہ تقسیم کرد. در WLS، تابع هدف عادی بالا با میانگین وزنی باقیماندهها جایگزین میشود.
بحث و بررسی
در آمار و ریاضیات، کمترین مربعات خطی رویکردی برای برازش یک مدل ریاضی یا آماری به دادههاست؛ در مواردی که مقدار ایدهآل ارائهشده توسط مدل برای هر نقطه داده، به صورت خطی بر حسب پارامترهای ناشناخته مدل بیان میشود. مدل برازشیافته حاصل را میتوان برای خلاصهسازی دادهها، پیشبینی مقادیر مشاهدهنشده از همان سیستم و درک مکانیسمهای زیربنایی سیستم استفاده کرد.
از نظر ریاضی، کمترین مربعات خطی مسأله حل تقریبی یک سیستم بیشتعین از معادلات خطی Ax = b است، که در آن b در فضای ستونی ماتریس A قرار ندارد. راهحل تقریبی به صورت راهحل دقیق Ax = b' محقق میشود، که در آن b' تصویر b روی فضای ستونی A است. بهترین تقریب، آنی است که مجموع مربعات تفاضلها بین مقادیر دادهها و مقادیر مدلشده متناظرشان را به حداقل میرساند. از آنجا که تابع فرضشده نسبت به پارامترهای تخمینی خطی است، به این روش کمترین مربعات خطی گفته میشود. مسائل کمترین مربعات خطی محدبی هستند و تا زمانی که تعداد نقاط داده برای برازش برابر یا بیشتر از تعداد پارامترهای ناشناخته باشد، دارای راهحل فرم بسته و یکتایی هستند (مگر در شرایط خاص تنزلیافته). در مقابل، مسائل کمترین مربعات غیرخطی معمولاً باید با یک رویه تکرارشونده حل شوند و میتوانند غیرمحدب با چندین نقطه بهینه برای تابع هدف باشند. اگر توزیعهای پیشین در دسترس باشند، حتی یک سیستم کمتعین نیز میتواند با استفاده از تخمینگر MMSE بیزی حل شود.
در آمار، مسائل کمترین مربعات خطی به یک مدل آماری بسیار مهم به نام رگرسیون خطی مربوط میشوند که به عنوان یک شکل خاص از تحلیل رگرسیون پدیدار میگردد. این مقاله بیشتر بر جنبههای ریاضی مسائل تمرکز دارد.
ویژگیها
اگر خطاهای آزمایش همبسته نباشند، میانگین صفر و واریانس ثابتی داشته باشند، قضیه گاوس-مارکوف بیان میکند که تخمینگر کمترین مربعات، در میان تمام تخمینگرهایی که ترکیبهای خطی مشاهدات هستند، حداقل واریانس را دارد. از این نظر، این تخمینگر بهترین یا بهینه است. توجه کنید که این ویژگی مستقل از تابع توزیع آماری خطاهاست. به عبارت دیگر، نیازی نیست تابع توزیع خطاها حتماً نرمال باشد. با این حال، برای برخی توزیعهای احتمالی، تضمینی نیست که راهحل کمترین مربعات با توجه به مشاهدات حتی امکانپذیر باشد؛ با این وجود، در چنین مواردی این بهترین تخمینگری است که هم خطی و هم نااریب است.
به عنوان مثال، نشان دادن اینکه میانگین حسابی مجموعهای از اندازهگیریهای یک کمیت، تخمینگر کمترین مربعات مقدار آن کمیت است، بسیار آسان است. اگر شرایط قضیه گاوس-مارکوف برقرار باشد، میانگین حسابی بهینه است، مهم نیست توزیع خطاهای اندازهگیری چه باشد.
با این حال، اگر خطاهای آزمایش از توزیع نرمال پیروی کنند، تخمینگر کمترین مربعات در عین حال یک تخمینگر درستنمایی بیشینه (MLE) نیز خواهد بود.
این ویژگیها، پایه و اساس استفاده از روش کمترین مربعات برای انواع برازش دادهها را شکل میدهند، حتی زمانی که فرضیات کاملاً معتبر نباشند.
محدودیتها
یکی از فرضیات اساسی رویکرد فوق این است که متغیر مستقل (x) بدون خطاست. در عمل، خطاهای اندازهگیری متغیر مستقل معمولاً بسیار کوچکتر از خطاهای متغیر وابسته هستند و در نتیجه نادیده گرفته میشوند. وقتی اینطور نباشد، باید از کمترین مربعات کل یا به طور کلیتر مدلهای خطا در متغیرها استفاده کرد. این کار با تنظیم طرح وزندهی برای در نظر گرفتن خطاهای هر دو متغیر وابسته و مستقل، و سپس پیگیری رویه استاندارد امکانپذیر است.
در برخی موارد، ماتریس معادلات نرمال (وزندار) بدحالت است. هنگام برازش چندجملهای، ماتریس معادلات نرمال یک ماتریس وندرموند است که با افزایش مرتبه ماتریس، به شدت بدحالتتر میشود. در این شرایط، تخمین کمترین مربعات نویز اندازهگیری را تقویت کرده و ممکن است به شدت نادقیق باشد. در چنین مواردی میتوان از تکنیکهای مختلف منظمسازی استفاده کرد که رایجترین آنها رگرسیون ریج نامیده میشود. اگر اطلاعات بیشتری درباره پارامترها (مانند بازه مقادیر ممکن) در دسترس باشد، تکنیکهایی برای افزایش پایداری راهحل وجود دارد؛ برای مثال به کمترین مربعات مقید مراجعه کنید.
نقطه ضعف دیگر تخمینگر کمترین مربعات این است که نرم باقیماندهها به حداقل میرسد، در حالی که در برخی موارد هدف واقعی دستیابی به خطای کوچک در پارامتر است. از آنجا که پارامتر حقیقی لزوماً ناشناخته است، نمیتوان این کمیت را مستقیماً حداقل کرد. اگر توزیع پیشین پارامتر مشخص باشد، میتوان از تخمینگر بیزی برای حداقل کردن میانگین مربعات خطا استفاده کرد. روش کمترین مربعات اغلب زمانی به کار میرود که هیچ پیشدانستی در دست نباشد. شگفتآور است که وقتی چندین پارامتر به طور مشترک تخمین زده میشوند، میتوان تخمینگرهای بهتری ساخت؛ پدیدهای که به نام پدیده استاین معروف است. به عنوان مثال، اگر خطای اندازهگیری گاوسی باشد، چندین تخمینگر وجود دارند که بر روش کمترین مربعات غلبه میکنند؛ معروفترین آنها تخمینگر جیمز-استاین است.
کاربردها
- برازش چندجملهای: مدلها چندجملهای در متغیر مستقل x هستند:
- خط راست: y = a + bx
- درجه دوم: y = a + bx + cx²
- درجه سوم، چهارم و بالاتر. برای رگرسیون با چندجملهای مرتبه بالا، استفاده از چندجملهای متعامد توصیه میشود.
- هموارسازی و مشتقگیری عددی: این یک کاربرد از برازش چندجملهای است.
- چندجملهایها در بیش از یک متغیر مستقل: از جمله برازش سطح
- برازش منحنی با B-اسپلاینها
- شیمیسنجی، منحنی کالیبراسیون، افزودنی استاندارد، نمودار گران، تحلیل مخلوطها
کاربرد در برازش دادهها
کاربرد اصلی کمترین مربعات خطی در برازش دادههاست. با داشتن مجموعهای از m نقطه داده شامل مقادیر اندازهگیریشده در m مقدار از یک متغیر مستقل و یک تابع مدل با پارامترهای ناشناخته، هدف یافتن پارامترهایی است که تابع مدل «بهترین» برازش را با دادهها داشته باشد. در کمترین مربعات خطی، خطی بودن نسبت به خود پارامترهاست، بنابراین توابع میتوانند نسبت به متغیر x غیرخطی باشند.
در حالت ایدهآل، مدل دقیقاً با دادهها مطابقت دارد، اما از آنجا که نقاط داده بیش از پارامترهای تعیینشوند وجود دارد، این امر در عمل معمولاً غیرممکن است. رویکرد انتخابی در اینجا، یافتن کمترین مقدار ممکن برای مجموع مربعات باقیماندههاست. پس از جایگذاری، این مسأله مینیممسازی به یک مسأله مینیممسازی درجه دوم تبدیل میشود و بهترین برازش با حل معادلات نرمال به دست میآید.
مثال
فرض کنید یک پژوهشگر آزمایشی انجام داده و چهار نقطه داده به دست آورده است. به دلیل تحلیل اکتشافی یا دانش قبلی، پژوهشگر مشکوک است که مقادیر y به صورت سیستماتیک به مقادیر x وابستهاند. مقادیر x دقیق فرض میشوند، اما مقادیر y به دلیل پدیده مورد مطالعه یا نقص اندازهگیری دارای عدم قطعیت یا «نویز» هستند.
برازش یک خط
یکی از سادهترین روابط ممکن بین x و y، یک خط y = a + bx است. عرض از مبدا (a) و شیب (b) در ابتدا ناشناختهاند. پژوهشگر میخواهد مقادیری برای a و b پیدا کند که خط از چهار نقطه داده عبور کند. با چهار معادله و دو مجهول، این سیستم بیشتعین است و راهحل دقیقی ندارد. برای در نظر گرفتن راهحلهای تقریبی، باقیماندهها را وارد معادلات میکنیم. باقیمانده iام، عدم تطابق بین مشاهدہ iام و پیشبینی iام است.
در کمترین مربعات، تمرکز روی مجموع مربعات باقیماندههاست. بهترین راهحل، آنی است که این مجموع را نسبت به a و b به حداقل برساند. با صفر قرار دادن مشتقات جزئی، معادلات نرمال به دست میآیند که یک سیستم از دو معادله خطی با دو مجهول هستند. با حل آنها، بهترین خط برازش پیدا میشود. این محاسبه را میتوان به صورت ماتریسی نیز بیان کرد. اگر ماتریس مربعشده معکوسپذیر باشد، ماتریس حاصل تصویر متعامد روی فضای ستونی ماتریس X را نشان میدهد.
برازش یک سهمی
فرض کنید پژوهشگر بخواهد سهمیای به فرم y = a + bx + cx² را برازش دهد. نکته مهم این است که این مدل همچنان نسبت به پارامترهای ناشناخته (a, b, c) خطی است، بنابراین کمترین مربعات خطی همچنان قابل اجراست. با مشتقگیری و صفر قرار دادن مشتقات، پارامترها محاسبه میشوند. در نماد ماتریسی، با همان منطق قبلی، راهحل با استفاده از ماتریس طرح (Design Matrix) با سه ستون (برای 1, x, x²) و یک ردیف برای هر نقطه داده به دست میآید.
برازش سایر منحنیها و سطوح
به طور کلیتر، میتوان p متغیر توضیحی و یک مدل خطی داشت.