提要 相關(guān)回歸的意義,原理;小樣本的直線相關(guān)和回歸分析;相關(guān)系數(shù)和回歸系數(shù)的意義及假設檢驗;應用直線相關(guān)和回歸分析時的注意事項。
在醫(yī)學上,許多現(xiàn)象之間都存在著相互聯(lián)系,例如身高與體重,體溫與脈搏,年齡與血壓,釘螺與血吸蟲感染等。而有些事物的關(guān)系是互為因果的,如上述釘螺是因,感染血吸蟲是果;但有時回果不清,只是伴隨關(guān)系。例如父母的兄弟,兄高,弟也可能高,但不能說兄是因、弟是果,這里不是因果關(guān)系,而可能與社會條件、家庭經(jīng)濟、營養(yǎng)、遺傳等因素有關(guān)。
相關(guān)是解決客觀事物或現(xiàn)象相互關(guān)系密切程度的問題,而回歸則是用函數(shù)的形式表示出因果關(guān)系。有相關(guān)不一定因果關(guān)系;反之,有因果關(guān)系的,一定有相關(guān)。我們稱“因”的變量叫,習慣上用Y表示。以橫軸代表自變量X,縱軸代表依變量Y,可以將一群觀察事物的兩種關(guān)系在坐標圖上以P(X,Y)的方法定位,作出一群點圖,便可在體上看出兩者的關(guān)系,例如圖22-1。
圖22-1(A)表示血壓(依變量)隨年齡(自變量)增長而增高,其圖像性質(zhì)與(B)一樣稱正相關(guān)(positive correlation);圖(C)的依變量隨自變量的增加而減少,稱為負相關(guān)(negative correlation);若二者沒有關(guān)系,則稱無相關(guān)(如圖D、E、F)。
圖22-1 年齡與血壓相關(guān)(A)和五種有代表性點圖(B~F)
根據(jù)實際資料,用數(shù)學的方法求出一條曲線(或直線),使我們能夠從一個自變數(shù)推算出相關(guān)的依變量的值,這條線就叫回歸線;貧w線有直線和曲線兩種。本章僅介紹直線相關(guān)與回歸分析。
例22.1 某產(chǎn)科醫(yī)師發(fā)現(xiàn)產(chǎn)婦尿液中雌三醇含量與初生兒體重有相關(guān)現(xiàn)象,因此檢查了31例待產(chǎn)婦24小時的尿雌三醇含量,并記錄下各產(chǎn)兒初生體重,統(tǒng)計如表22-1。作者意欲通過測定尿中雌三醇含量以間接預測初生兒體重,以便對低出生體重兒采取預防性措施。
表22-1 待產(chǎn)婦尿雌三醇含量與初生兒體重統(tǒng)計
編號(1) | 尿雌三醇mg/24h(2) | 初生兒體重kg(3) | 編號(1) | 尿雌三醇mg/24h(2) | 初生兒體重kg(3) |
1 | 7 | 2.5 | 17 | 17 | 3.2 |
2 | 9 | 2.5 | 18 | 25 | 3.2 |
3 | 9 | 2.5 | 19 | 27 | 3.4 |
4 | 12 | 2.7 | 20 | 15 | 3.4 |
5 | 14 | 2.7 | 21 | 15 | 3.4 |
6 | 16 | 2.7 | 22 | 15 | 3.5 |
7 | 16 | 2.4 | 23 | 16 | 3.5 |
8 | 14 | 3.0 | 24 | 19 | 3.4 |
9 | 16 | 3.0 | 25 | 18 | 3.5 |
10 | 16 | 3.1 | 26 | 17 | 3.6 |
11 | 17 | 3.0 | 27 | 18 | 3.7 |
12 | 19 | 3.1 | 28 | 20 | 3.8 |
13 | 21 | 3.0 | 29 | 22 | 4.0 |
14 | 24 | 2.8 | 30 | 25 | 3.9 |
15 | 15 | 3.2 | 31 | 24 | 4.3 |
16 | 16 | 3.2 |
資料來源:Rosner B:Fundamentals of Biostatistics P.346,Duxbury Press,1982