统计-辛普森法则(Simpson’s Paradox)¶
辛普森法则(Simpson’s Paradox) 是一种统计学现象,指的是当我们将数据分组进行分析时,不同组的趋势可能与总体趋势相反,甚至完全相悖。这种现象通常由于未考虑到某些潜在变量或分层因素而产生。
主要特点¶
总体趋势和分组趋势矛盾:总体数据可能显示出一种趋势,但当数据按组划分后,每个子组显示的趋势与总体相反。
潜在混淆变量:这种现象通常是由未被控制的第三个变量(混淆变量)引起的,这个变量会对结果产生重大影响。
数据分层的重要性:辛普森法则强调在分析数据时,应根据具体情况考虑是否需要分组或分层分析。
举例说明¶
医疗研究案例¶
- 某药物测试:
总体结果:服用药物的患者的康复率为 60%,而未服用药物的康复率为 70%,表明药物无效甚至有害。
- 分组分析:将患者按病情轻重分组后发现:
病情轻的患者服药后的康复率为 90%,未服药为 80%。
病情重的患者服药后的康复率为 30%,未服药为 20%。
结论:分组后发现,服用药物在每个组中都是有效的,但由于病情重的患者更多服用了药物,导致总体趋势误导了结论。