آزمون‌های یک‌دامنه و دو‌دامنه در آمار

در آزمون اهمیت آماری، آزمون یک‌دامنه (One-tailed test) و آزمون دو‌دامنه (Two-tailed test) دو رویکرد متفاوت برای محاسبه اهمیت آماری یک پارامتر بر اساس داده‌های جمع‌آوری شده هستند. تفاوت اصلی این دو آزمون در منطقه‌ای است که برای رد فرضیه صفر در نظر گرفته می‌شود.

آزمون دو‌دامنه (Two-tailed Test)

آزمون دو‌دامنه زمانی مناسب است که انتظار داریم مقدار تخمینی پارامتر، چه بیشتر و چه کمتر از یک محدوده یا مقدار مرجع باشد. به عنوان مثال، اگر بخواهیم بدانیم آیا نمره یک آزمون‌دهنده بالاتر یا پایین‌تر از یک حد خاص است، از این آزمون استفاده می‌کنیم. در این روش، فرضیه صفر (Null Hypothesis) مورد آزمون قرار می‌گیرد و اگر مقدار آماره آزمون در ناحیه بحرانی (Critical Region) قرار گیرد، فرضیه صفر رد شده و فرضیه جایگزین (Alternative Hypothesis) پذیرفته می‌شود.

آزمون یک‌دامنه (One-tailed Test)

آزمون یک‌دامنه زمانی کاربرد دارد که انتظار داریم مقدار تخمینی پارامتر تنها در یک جهت (چپ یا راست) از مقدار مرجع منحرف شود، نه در هر دو جهت. به عنوان مثال، اگر بخواهیم بررسی کنیم که آیا یک دستگاه، بیش از ۱ درصد محصول معیوب تولید می‌کند یا خیر. در این حالت، اگر مقدار آماره آزمون در ناحیه بحرانی یک‌طرفه (بسته به جهت مورد علاقه، بزرگتر یا کوچکتر از مقدار مرجع) قرار گیرد، فرضیه صفر رد می‌شود.

نام‌های دیگر این آزمون‌ها، آزمون‌های یک‌طرفه و دو‌طرفه هستند. اصطلاح «دامنه» (Tail) به بخش‌های انتهایی توزیع آماری اشاره دارد که در آن‌ها، مشاهدات منجر به رد فرضیه صفر می‌شوند. این بخش‌ها اغلب در توزیع‌هایی مانند توزیع نرمال (منحنی زنگوله‌ای) به سمت صفر میل می‌کنند.

کاربردها

آزمون‌های یک‌دامنه معمولاً برای توزیع‌های نامتقارن که تنها یک دامنه دارند (مانند توزیع کای-دو که در سنجش نیکویی برازش رایج است) یا برای یک سمت از توزیع‌های دو‌دامنه (مانند توزیع نرمال که در تخمین مکان رایج است) به کار می‌روند. این کاربرد، به معنای تعیین یک جهت مشخص برای انحراف است.

آزمون‌های دو‌دامنه تنها زمانی کاربرد دارند که هر دو دامنه توزیع (مانند توزیع نرمال) مد نظر باشند و به معنای در نظر گرفتن اهمیت آماری انحراف در هر دو جهت است.

رویکرد رونالد فیشر

طبق رویکرد رونالد فیشر، فرضیه صفر (H0) زمانی رد می‌شود که مقدار پی (p-value) آماره آزمون به اندازه‌ای «افراطی» باشد که بعید به نظر برسد صرفاً ناشی از تصادف باشد. این کار معمولاً با مقایسه مقدار پی با سطح معنی‌داری مشخص (α) انجام می‌شود.

در آزمون یک‌دامنه، «افراطی» بودن از قبل تعیین می‌شود؛ یعنی یا «به اندازه کافی کوچک» یا «به اندازه کافی بزرگ». مقادیر در جهت مخالف، معنی‌دار تلقی نمی‌شوند. مقدار پی یک‌دامنه، احتمال مشاهده مقادیر در جهت مورد نظر (یا مقادیر شدیدتر) را نشان می‌دهد.
در آزمون دو‌دامنه، «افراطی» بودن به معنای «یا به اندازه کافی کوچک یا به اندازه کافی بزرگ» است و مقادیر در هر دو جهت معنی‌دار تلقی می‌شوند.

برای یک آماره آزمون مشخص، یک آزمون دو‌دامنه و دو آزمون یک‌دامنه (یکی برای هر جهت) وجود دارد. اگر سطح معنی‌داری α باشد، در آزمون دو‌دامنه، نواحی بحرانی در دو انتهای توزیع با مساحتی برابر α/2 قرار می‌گیرند. در حالی که در آزمون یک‌دامنه، ناحیه بحرانی تنها در یک انتها با مساحت α قرار دارد.

در نتیجه، برای یک سطح معنی‌داری مشخص، آزمون‌های یک‌دامنه مربوطه، یا دو برابر معنی‌دارتر (نصف مقدار پی) خواهند بود، اگر داده‌ها در جهت مشخص شده باشند، یا اصلاً معنی‌دار نخواهند بود (مقدار پی بزرگتر از α)، اگر داده‌ها در جهت مخالف باشند.

مثال پرتاب سکه

فرض کنید می‌خواهیم بررسی کنیم آیا سکه در پرتاب به سمت «شیر» (Heads) سوگیری دارد. این یک آزمون یک‌دامنه است. اگر در ۵ پرتاب، هر ۵ بار شیر بیاید (HHHHH)، آماره آزمون (میانگین تعداد شیر) برابر با ۱ خواهد بود. احتمال وقوع چنین نتیجه‌ای (با فرض سکه سالم) برابر با (1/2)^5 = 1/32 است. اگر سطح معنی‌داری 0.05 باشد، این نتیجه (p = 1/32 ≈ 0.031) معنی‌دار خواهد بود.

اما اگر بخواهیم بررسی کنیم که آیا سکه به طور کلی سوگیری دارد (چه به سمت شیر و چه به سمت خط (Tails))، از آزمون دو‌دامنه استفاده می‌کنیم. در این حالت، نتیجه «۵ شیر» به اندازه نتیجه «۵ خط» افراطی است. مقدار پی برای این آزمون دو‌دامنه، 2 * (1/32) = 1/16 ≈ 0.062 خواهد بود. اگر سطح معنی‌داری 0.05 باشد، این نتیجه (p ≈ 0.062) معنی‌دار نخواهد بود.

تاریخچه

مفهوم مقدار پی (p-value) اولین بار توسط کارل پیرسون در آزمون کای-دو معرفی شد. او P را احتمال اینکه آماره آزمون در سطح معینی باشد یا از آن فراتر رود، تعریف کرد. این یک تعریف یک‌دامنه بود، زیرا توزیع کای-دو نامتقارن است و تنها یک دامنه (دامنه بالایی) دارد.

تمایز بین آزمون‌های یک‌دامنه و دو‌دامنه توسط رونالد فیشر در کتاب «روش‌های آماری برای کارکنان پژوهشی» رایج شد. او این مفهوم را به ویژه برای توزیع نرمال که متقارن است و دو دامنه مساوی دارد، به کار برد. توزیع نرمال معمولاً برای تخمین مکان (مانند میانگین نمونه در مقابل میانگین تئوریک) استفاده می‌شود و دو دامنه آن نشان‌دهنده تخمین مکان بالاتر یا پایین‌تر از مقدار تئوریک است.

در مورد توزیع متقارن مانند توزیع نرمال، مقدار پی یک‌دامنه دقیقاً نصف مقدار پی دو‌دامنه است.

فیشر بر اهمیت اندازه‌گیری «دامنه» (مقدار مشاهده شده آماره آزمون و تمام مقادیر شدیدتر از آن) تأکید کرد، نه صرفاً احتمال یک نتیجه خاص. او استدلال می‌کرد که ممکن است یک مجموعه داده خاص، طبق فرضیه صفر، نامحتمل باشد، اما نتایج شدیدتر محتمل‌تر باشند. بنابراین، داده‌های نامحتمل اما نه شدید، نباید معنی‌دار تلقی شوند.

آزمون‌های خاص

اگر آماره آزمون از توزیع t استیودنت پیروی کند (که در مواردی که متغیر زیربنایی از توزیع نرمال با فاکتور مقیاس نامعلوم پیروی می‌کند، رایج است)، آزمون به عنوان t-test یک‌دامنه یا دو‌دامنه شناخته می‌شود. اگر آزمون با استفاده از میانگین جمعیت واقعی و واریانس، به جای تخمین از نمونه، انجام شود، به آن Z-test یک‌دامنه یا دو‌دامنه گفته می‌شود.

جداول آماری برای t و Z، مقادیر بحرانی را هم برای آزمون‌های یک‌دامنه و هم دو‌دامنه ارائه می‌دهند. این جداول مقادیری را که یک ناحیه کامل را در یک یا انتهای دیگر توزیع نمونه‌برداری قطع می‌کنند، و همچنین مقادیری را که نواحی (با نصف مساحت) را در هر دو انتها قطع می‌کنند، مشخص می‌کنند.

آزمون‌های یک‌دامنه و دو‌دامنه در آمار

چکیده