辛普森悖論
辛普森悖論
在研究某種藥物的療效時(shí),數(shù)據(jù)里有兩組人:30歲年齡組和40歲年齡組,每組都有服藥和未服藥的個(gè)體。在30歲年齡組中,服藥者的平均身體健康指數(shù)比未服藥者高10;在40歲年齡組,服藥者的平均身體健康指數(shù)比未服藥者高5。但在所有服藥者和未服藥者的總體數(shù)據(jù)中,服藥者的平均身體健康指數(shù)比未服藥者的低1.2。這表明在分組數(shù)據(jù)中,服藥和健康指數(shù)正相關(guān);而在總體數(shù)據(jù)中,服藥和健康指數(shù)負(fù)相關(guān)。這是為什么呢?哪一種相關(guān)性能夠反映服藥對健康的因果效應(yīng)。
導(dǎo)讀在研究某種藥物的療效時(shí),數(shù)據(jù)里有兩組人:30歲年齡組和40歲年齡組,每組都有服藥和未服藥的個(gè)體。在30歲年齡組中,服藥者的平均身體健康指數(shù)比未服藥者高10;在40歲年齡組,服藥者的平均身體健康指數(shù)比未服藥者高5。但在所有服藥者和未服藥者的總體數(shù)據(jù)中,服藥者的平均身體健康指數(shù)比未服藥者的低1.2。這表明在分組數(shù)據(jù)中,服藥和健康指數(shù)正相關(guān);而在總體數(shù)據(jù)中,服藥和健康指數(shù)負(fù)相關(guān)。這是為什么呢?哪一種相關(guān)性能夠反映服藥對健康的因果效應(yīng)。
![](https://img.51dongshi.com/20241128/wz/18322891052.jpg)
定義:辛普森悖論指兩個(gè)變量X和Y在每個(gè)分組中的關(guān)系是正(負(fù)),但在總體(所有組加總)中關(guān)系會發(fā)生逆轉(zhuǎn)變成負(fù)(正)。在研究某種藥物的療效時(shí),數(shù)據(jù)里有兩組人:30歲年齡組和40歲年齡組,每組都有服藥和未服藥的個(gè)體。在30歲年齡組中,服藥者的平均身體健康指數(shù)比未服藥者高10;在40歲年齡組,服藥者的平均身體健康指數(shù)比未服藥者高5。但在所有服藥者和未服藥者的總體數(shù)據(jù)中,服藥者的平均身體健康指數(shù)比未服藥者的低1.2。這表明在分組數(shù)據(jù)中,服藥和健康指數(shù)正相關(guān);而在總體數(shù)據(jù)中,服藥和健康指數(shù)負(fù)相關(guān)。這是為什么呢?哪一種相關(guān)性能夠反映服藥對健康的因果效應(yīng)?通過圖像來查找造成差異的原因。在30歲和40歲個(gè)體的身體狀況圖中,虛線分別代表了30歲和40歲服藥者與未服藥者的平均身體健康指數(shù)。虛線的斜率均正,說明在分組數(shù)據(jù)中,服藥者與健康指數(shù)正相關(guān)。但在所有個(gè)體的總體數(shù)據(jù)圖中,實(shí)線的斜率變負(fù),表明在總體數(shù)據(jù)中,服藥者與健康指數(shù)負(fù)相關(guān)。觀察圖中的“×”點(diǎn)和“·”點(diǎn),可以發(fā)現(xiàn)未服藥者大部分是30歲且健康狀況較佳的個(gè)體(左上角部分),而服藥者大部分是40歲且健康狀況較差的個(gè)體(右下角部分)。因此,當(dāng)比較總體未服藥者和服藥者的平均健康狀況時(shí),占大多數(shù)的30歲未服藥者的健康狀況決定了總體未服藥者的平均健康狀況,而占大多數(shù)的40歲服藥者的健康狀況決定了總體服藥者的平均健康狀況。這就是為什么實(shí)線的斜率逆轉(zhuǎn)變負(fù)。
辛普森悖論
在研究某種藥物的療效時(shí),數(shù)據(jù)里有兩組人:30歲年齡組和40歲年齡組,每組都有服藥和未服藥的個(gè)體。在30歲年齡組中,服藥者的平均身體健康指數(shù)比未服藥者高10;在40歲年齡組,服藥者的平均身體健康指數(shù)比未服藥者高5。但在所有服藥者和未服藥者的總體數(shù)據(jù)中,服藥者的平均身體健康指數(shù)比未服藥者的低1.2。這表明在分組數(shù)據(jù)中,服藥和健康指數(shù)正相關(guān);而在總體數(shù)據(jù)中,服藥和健康指數(shù)負(fù)相關(guān)。這是為什么呢?哪一種相關(guān)性能夠反映服藥對健康的因果效應(yīng)。
為你推薦