آزمونهای یکدامنه و دودامنه در آمار
در آزمون اهمیت آماری، آزمون یکدامنه (One-tailed test) و آزمون دودامنه (Two-tailed test) دو رویکرد متفاوت برای محاسبه اهمیت آماری یک پارامتر بر اساس دادههای جمعآوری شده هستند. تفاوت اصلی این دو آزمون در منطقهای است که برای رد فرضیه صفر در نظر گرفته میشود.
آزمون دودامنه (Two-tailed Test)
آزمون دودامنه زمانی مناسب است که انتظار داریم مقدار تخمینی پارامتر، چه بیشتر و چه کمتر از یک محدوده یا مقدار مرجع باشد. به عنوان مثال، اگر بخواهیم بدانیم آیا نمره یک آزموندهنده بالاتر یا پایینتر از یک حد خاص است، از این آزمون استفاده میکنیم. در این روش، فرضیه صفر (Null Hypothesis) مورد آزمون قرار میگیرد و اگر مقدار آماره آزمون در ناحیه بحرانی (Critical Region) قرار گیرد، فرضیه صفر رد شده و فرضیه جایگزین (Alternative Hypothesis) پذیرفته میشود.
آزمون یکدامنه (One-tailed Test)
آزمون یکدامنه زمانی کاربرد دارد که انتظار داریم مقدار تخمینی پارامتر تنها در یک جهت (چپ یا راست) از مقدار مرجع منحرف شود، نه در هر دو جهت. به عنوان مثال، اگر بخواهیم بررسی کنیم که آیا یک دستگاه، بیش از ۱ درصد محصول معیوب تولید میکند یا خیر. در این حالت، اگر مقدار آماره آزمون در ناحیه بحرانی یکطرفه (بسته به جهت مورد علاقه، بزرگتر یا کوچکتر از مقدار مرجع) قرار گیرد، فرضیه صفر رد میشود.
نامهای دیگر این آزمونها، آزمونهای یکطرفه و دوطرفه هستند. اصطلاح «دامنه» (Tail) به بخشهای انتهایی توزیع آماری اشاره دارد که در آنها، مشاهدات منجر به رد فرضیه صفر میشوند. این بخشها اغلب در توزیعهایی مانند توزیع نرمال (منحنی زنگولهای) به سمت صفر میل میکنند.
کاربردها
آزمونهای یکدامنه معمولاً برای توزیعهای نامتقارن که تنها یک دامنه دارند (مانند توزیع کای-دو که در سنجش نیکویی برازش رایج است) یا برای یک سمت از توزیعهای دودامنه (مانند توزیع نرمال که در تخمین مکان رایج است) به کار میروند. این کاربرد، به معنای تعیین یک جهت مشخص برای انحراف است.
آزمونهای دودامنه تنها زمانی کاربرد دارند که هر دو دامنه توزیع (مانند توزیع نرمال) مد نظر باشند و به معنای در نظر گرفتن اهمیت آماری انحراف در هر دو جهت است.
رویکرد رونالد فیشر
طبق رویکرد رونالد فیشر، فرضیه صفر (H0) زمانی رد میشود که مقدار پی (p-value) آماره آزمون به اندازهای «افراطی» باشد که بعید به نظر برسد صرفاً ناشی از تصادف باشد. این کار معمولاً با مقایسه مقدار پی با سطح معنیداری مشخص (α) انجام میشود.
- در آزمون یکدامنه، «افراطی» بودن از قبل تعیین میشود؛ یعنی یا «به اندازه کافی کوچک» یا «به اندازه کافی بزرگ». مقادیر در جهت مخالف، معنیدار تلقی نمیشوند. مقدار پی یکدامنه، احتمال مشاهده مقادیر در جهت مورد نظر (یا مقادیر شدیدتر) را نشان میدهد.
- در آزمون دودامنه، «افراطی» بودن به معنای «یا به اندازه کافی کوچک یا به اندازه کافی بزرگ» است و مقادیر در هر دو جهت معنیدار تلقی میشوند.
برای یک آماره آزمون مشخص، یک آزمون دودامنه و دو آزمون یکدامنه (یکی برای هر جهت) وجود دارد. اگر سطح معنیداری α باشد، در آزمون دودامنه، نواحی بحرانی در دو انتهای توزیع با مساحتی برابر α/2 قرار میگیرند. در حالی که در آزمون یکدامنه، ناحیه بحرانی تنها در یک انتها با مساحت α قرار دارد.
در نتیجه، برای یک سطح معنیداری مشخص، آزمونهای یکدامنه مربوطه، یا دو برابر معنیدارتر (نصف مقدار پی) خواهند بود، اگر دادهها در جهت مشخص شده باشند، یا اصلاً معنیدار نخواهند بود (مقدار پی بزرگتر از α)، اگر دادهها در جهت مخالف باشند.
مثال پرتاب سکه
فرض کنید میخواهیم بررسی کنیم آیا سکه در پرتاب به سمت «شیر» (Heads) سوگیری دارد. این یک آزمون یکدامنه است. اگر در ۵ پرتاب، هر ۵ بار شیر بیاید (HHHHH)، آماره آزمون (میانگین تعداد شیر) برابر با ۱ خواهد بود. احتمال وقوع چنین نتیجهای (با فرض سکه سالم) برابر با (1/2)^5 = 1/32 است. اگر سطح معنیداری 0.05 باشد، این نتیجه (p = 1/32 ≈ 0.031) معنیدار خواهد بود.
اما اگر بخواهیم بررسی کنیم که آیا سکه به طور کلی سوگیری دارد (چه به سمت شیر و چه به سمت خط (Tails))، از آزمون دودامنه استفاده میکنیم. در این حالت، نتیجه «۵ شیر» به اندازه نتیجه «۵ خط» افراطی است. مقدار پی برای این آزمون دودامنه، 2 * (1/32) = 1/16 ≈ 0.062 خواهد بود. اگر سطح معنیداری 0.05 باشد، این نتیجه (p ≈ 0.062) معنیدار نخواهد بود.
تاریخچه
مفهوم مقدار پی (p-value) اولین بار توسط کارل پیرسون در آزمون کای-دو معرفی شد. او P را احتمال اینکه آماره آزمون در سطح معینی باشد یا از آن فراتر رود، تعریف کرد. این یک تعریف یکدامنه بود، زیرا توزیع کای-دو نامتقارن است و تنها یک دامنه (دامنه بالایی) دارد.
تمایز بین آزمونهای یکدامنه و دودامنه توسط رونالد فیشر در کتاب «روشهای آماری برای کارکنان پژوهشی» رایج شد. او این مفهوم را به ویژه برای توزیع نرمال که متقارن است و دو دامنه مساوی دارد، به کار برد. توزیع نرمال معمولاً برای تخمین مکان (مانند میانگین نمونه در مقابل میانگین تئوریک) استفاده میشود و دو دامنه آن نشاندهنده تخمین مکان بالاتر یا پایینتر از مقدار تئوریک است.
در مورد توزیع متقارن مانند توزیع نرمال، مقدار پی یکدامنه دقیقاً نصف مقدار پی دودامنه است.
فیشر بر اهمیت اندازهگیری «دامنه» (مقدار مشاهده شده آماره آزمون و تمام مقادیر شدیدتر از آن) تأکید کرد، نه صرفاً احتمال یک نتیجه خاص. او استدلال میکرد که ممکن است یک مجموعه داده خاص، طبق فرضیه صفر، نامحتمل باشد، اما نتایج شدیدتر محتملتر باشند. بنابراین، دادههای نامحتمل اما نه شدید، نباید معنیدار تلقی شوند.
آزمونهای خاص
اگر آماره آزمون از توزیع t استیودنت پیروی کند (که در مواردی که متغیر زیربنایی از توزیع نرمال با فاکتور مقیاس نامعلوم پیروی میکند، رایج است)، آزمون به عنوان t-test یکدامنه یا دودامنه شناخته میشود. اگر آزمون با استفاده از میانگین جمعیت واقعی و واریانس، به جای تخمین از نمونه، انجام شود، به آن Z-test یکدامنه یا دودامنه گفته میشود.
جداول آماری برای t و Z، مقادیر بحرانی را هم برای آزمونهای یکدامنه و هم دودامنه ارائه میدهند. این جداول مقادیری را که یک ناحیه کامل را در یک یا انتهای دیگر توزیع نمونهبرداری قطع میکنند، و همچنین مقادیری را که نواحی (با نصف مساحت) را در هر دو انتها قطع میکنند، مشخص میکنند.