相關(guān)分析是用相關(guān)系數(shù)(r)來表示兩個變量間相互的直線關(guān)系,并判斷其密切程度的統(tǒng)計方法。相關(guān)系數(shù)r沒有單位。在-1~+1范圍內(nèi)變動,其絕對值愈接近1,兩個變量間的直線相關(guān)愈密切,愈接近0,相關(guān)愈不密切。相關(guān)系數(shù)若為正,說明一變量隨另一變量增減而增減,方向相同;若為負,表示一變量增加、另一變量減少,即方向相反,但它不能表達直線以外(如各種曲線)的關(guān)系。
為判斷兩事物數(shù)量間有無相關(guān),可先將兩組變量中一對對數(shù)值在普通方格紙上作散點圖,如圖9.1~9.8所示。圖中點子的分布可出現(xiàn)以下幾種情況:
正相關(guān)——見圖9.1,各點分布呈橢圓形,Y隨X的增加而增加,X亦隨Y的增加而增加,此時1>r>0。橢圓范圍內(nèi)各點的排列愈接近其長軸,相關(guān)愈密切,當所有點子都在長軸上時,r=1(見圖9.2),稱為完全正相關(guān)。
負相關(guān)——見圖9.3,各點分布亦呈橢圓形,Y隨X的增加而減少,X也隨Y的增加而減少,此時0>r>-1。各點排列愈接近其長軸,相關(guān)愈密切,當所有點子都在長軸上時,r=1(見圖9.4),稱為完全負相關(guān)。
在生物現(xiàn)象中,完全正相關(guān)或完全負相關(guān)甚為少見。
無相關(guān)——見圖9.5、圖9.6和圖9.7,X不論增加或減少,Y的大小不受其影響;反之亦然。此時r=0。另外,須注意有時雖然各點密集于一條直線,但該直線與X軸或Y軸平行,即X與Y的消長互不影響,這種情況仍為無相關(guān)。
非線性相關(guān)——見圖9.8,圖中各點的排列不呈直線趨勢,卻呈某種曲線形狀,此時r≈0,類似這種情況稱為非線性相關(guān)。
圖9.1—9.8 不同相關(guān)系數(shù)的散點示意圖
(一)相關(guān)系數(shù)計算法
計算相關(guān)系數(shù)的基本公式為:
(9.1)
式(9.1)中r為相關(guān)系數(shù),∑(X-X)2為X的離均差平方和,∑(Y-Y)2為Y的離均差平方和,∑(X-X)(Y-Y)為X與Y的離均差乘積之和,簡稱離均差積之和,此值可正可負。以此式為基礎(chǔ)計算相關(guān)系數(shù)的方法稱積差法,在實際應(yīng)用時式(9.1)中各離均差平方和(簡稱差方和)與積之和可化為
(9.2)
現(xiàn)舉例說明計算相關(guān)系數(shù)的一般步驟:
例9.1 測定15名健康成人血液的一般凝血酶濃度(單位/毫升)及血液的凝固時間(秒),測定結(jié)果記錄于表9jfsoft.net.cn/wsj/.1第(2)、(3)欄,問血凝時間與凝血酶濃度間有無相關(guān)?
1.繪圖,將表9.1第(2)、(3)欄各對數(shù)據(jù)繪成散點圖,見圖9.9。
2.求出∑X、∑Y、∑X2、∑Y2、∑XY,見表9.1下方。
3,代入公式,求出r值。
圖9.9 凝血時間與凝血酶濃度散點圖及回歸直線
表9.1 相關(guān)系數(shù)計算表
受試者號 (1) | 凝血酶濃度(單位/毫升) X (2) | 凝血時間(秒) Y (3)jfsoft.net.cn/yishi/ |
1 | 1.1 | 14 |
2 | 1.2 | 13 |
3 | 1.0 | 15 |
4 | 0.9 | 15 |
5 | 1.2 | 13 |
6 | 1.1 | 14 |
7 | 0.9 | 16 |
8 | 0.9 | 15 |
9 | 1.0 | 14 |
10 | 0.9 | 16 |
11 | 1.1 | 15 |
12 | 0.9 | 16 |
13 | 1.1 | 14 |
14 | 1.0 | 15 |
15 | 0.8 | 17 |
合計 | 15.1 | 222 |
∑X=15.1 ∑Y=222
∑XY=221.7
∑X2=15.41∑Y2=3304
本例的相關(guān)系數(shù)r=-0.9070,負值表示血凝時間隨凝血酶濃度的增高而縮短;絕對值∣-0.9070∣表示這一關(guān)系的密切程度。至于此相關(guān)系數(shù)是否顯著,則要經(jīng)過下面的分析。
(二)相關(guān)系數(shù)的假設(shè)檢驗
雖然樣本相關(guān)系數(shù)r可作為總體相關(guān)系數(shù)ρ的估計值,但從相關(guān)系數(shù)ρ=0的總體中抽出的樣本,計算其相關(guān)系數(shù)r,因為有抽樣誤差,故不一定是0,要判斷不等于0的r值是來自ρ=0的總體還是來自ρ≠0的總體,必須進行顯著性檢驗。檢驗假設(shè)是ρ=0,r與0的差別是否顯著要按該樣本來自ρ=0的總體概率而定。如果從相關(guān)系數(shù)ρ=0的總體中取得某r值的概率P>0.05,我們就接受假設(shè),認為此r值的很可能是從此總體中取得的。因此判斷兩變量間無顯著關(guān)系;如果取得r值的概率P≤0.05或P≤0.01,我們就在α=0.05或α=0.01水準上拒絕檢驗假設(shè),認為該r值不是來自ρ=0的總體,而是來自ρ≠0的另一個總體,因此就判斷兩變量間有顯著關(guān)系。
由于來自ρ-0的總體的所有樣本相關(guān)系數(shù)呈對稱分布,故r的顯著性可用t檢驗來進行。本例r=-0.9070,進行t檢驗的步驟為:
1.建立檢驗假設(shè),H0:ρ=0,H1:ρ≠0,α=0.01
2.計算相關(guān)系數(shù)的r的t值:
(9.3)
3.查t值表作結(jié)論
ν=n-2=15-2=13
根據(jù)專業(yè)知識知道凝血酶濃度與凝血時間之間不會呈正相關(guān),故宜用單側(cè)界限,查t值表得
t0.01,13=2.650
今∣tr∣>t0.01,13,P<0.01,在α=0.01水準上拒絕H0,接受H1,故可認為凝血時間的長短與血液中酶濃度有負相關(guān)。
為簡化tr檢驗的計算過程,數(shù)理統(tǒng)計工作者根據(jù)t分配表,已把不同自由度時r的臨界值求出,并列成相關(guān)系數(shù)界值表(見附表11)。故求相關(guān)系數(shù)后,只需查表就可知道該r值是否顯著,而不必再計算tr值。
r的顯著性界限為
|r|<R0.05,ν P>0.05 相關(guān)不顯著
r0.05,,≤|r|<r0.01,, 0.05≥P>0.01
在α=0.05水準上相關(guān)顯著
|r|≥r0.01,, P≤0.01 在α=0.01水準上相關(guān)顯著
例9.1的ν =15-2=13,查附表11中P(1)的界值,得:
r0.05,13=0.441r0.01,13=0.592
現(xiàn)r=-0.9070,∣r∣>r0.01,13,P<0.01,按α=0.01水準,拒絕HO,接受H1。認為ρ≠0,說明凝血時間的長短與血液中凝血酶濃度有負相關(guān)。結(jié)論與計算所得一致。
相關(guān)系數(shù)的顯著性與自由度的大小有關(guān),如n=3,ν=1時,雖r=-0.9070,卻為不顯著;若ν=400時,即使r=0.1000,亦為顯著。因此不能只看r的值,不考慮ν就下結(jié)論。