方差分析(analysis of variance,簡寫為ANOV或ANOVA)可用于兩個或兩個以上樣本均數的比較。應用時要求各樣本是相互獨立的隨機樣本;各樣本來自正態(tài)分布總體且各總體方差相等。方差分析的基本思想是按實驗設計和分析目的把全部觀察值之間的總變異分為兩部分或更多部分,然后再作分析。常用的設計有完全隨機設計和隨機區(qū)組設計的多個樣本均數的比較。
一、完全隨機設計的多個樣本均數的比較
又稱單因素方差分析。把總變異分解為組間(處理間)變異和組內變異(誤差)兩部分。目的是推斷k個樣本所分別代表的μ1,μ2,……μk是否相等,以便比較多個處理的差別有無統計學意義。其計算公式見表19-6。
表19-6 完全隨機設計的多個樣本均數比較的方差分析公式
變異來源 | 離均差平方和SS | 自由度v | 均方MS | F |
總 | ΣX2-C* | N-1 | ||
組間(處理組間) |
|
k-1 | SS組間/v組間 | MS組間/MS組間 |
組內(誤差) | SS總-SS組間 | N-k | SS組內/v組內 |
*C=(ΣX)2/N=Σni,k為處理組數
表19-7 F值、P值與統計結論
α | F值 | P值 | 統計結論 |
0.05 | <F0.05(v1.V2) | >0.05 | 不拒絕H0,差別無統計學意義 |
0.05 | ≥F0.05(v1.V2) | ≤0.05 | 拒絕H0,接受H1,差別有統計學意義 |
0.01 | ≥F0.01(v1.V2) | ≤0.01 | 拒絕H0,接受H1,差別有高度統計學意義 |
方差分析計算的統計量為F,按表19-7所示關系作判斷。
例19.9 某湖水不同季節(jié)氯化物含量測量值如表19-8,問不同季節(jié)氯化物含量有無差別?
表19-8 某湖水不同季節(jié)氯化物含量(mg/L)
Xij |
春 | 夏 | 秋 | 冬 | |||||
22.6 | 19.1 | 18.9 | 19.0 | ||||||
22.8 | 22.8 | 13.6 | 16.9 | ||||||
21.0 | 24.5 | 17.2 | 17.6 | ||||||
16.9 | 18.0 | 15.1 | 14.8 | ||||||
20.0 | 15.2 | 16.6 | 13.1 | ||||||
21.9 | 18.4 | 14.2 | 16.9 | ||||||
21.5 | 20.1 | 16.7 | 16.2 | ||||||
21.2 | 21.2 | 19.6 | 14.8 | ||||||
ΣXij j | 167.9 | 159.3 | 131.9 | 129.3 | 588.4(ΣX) | ||||
ni | 8 | 8 | 8 | 8 | 32(N) | ||||
Xi | 20.99 | 19.91 | 16.49 | 16.16 | |||||
ΣX2ijj | 3548.51 |
3231.95 |
2206.27 |
2114.11 |
11100.84(ΣX2) |
H0:湖水四個季節(jié)氯化物含量的總體均數相等,即μ1=μ2=μ3=μ4
H1:四個總體均數不等或不全相等
α=0.05
先作表19-8下半部分的基礎計算。
C= (Σx)2/N=(588.4)2/32=10819.205
SS總=Σx2-C=11100.84-10819.205=281.635
V總=N-1=31
V組間=k-1=4-1=3
SS組內=SS總-SS組間=281.635-141.107=140.465
V組內=N-k=32-4=28
MS組間=SS組間/v組間=141.107/3=47.057
MS組內=SS組內/v組內=140.465/28=5.017
F=MS組間/MS組內=47.057/5.017=9.380
以v1(即組間自由度)=3,v2(即組內自由度)=28查附表19-2,F界值表,得F0.05(3,28)=2.95,F0.01(3,28)=4.57。本例算得的F=9.380>F0.01(3,28),P<0.01,按α=0.05檢驗水準拒絕H0,接受H1,可認為湖水不同季節(jié)的氯化物含量不等或不全相等。必要時可進一步和兩兩比較的q檢驗,以確定是否任兩總體均數間不等。
資料分析時,常把上述計算結果列入方差分析表內,如表19-9。
表19-9 例19.9資料的方差分析表
變異來源 | SS | v | MS | F | P |
組間 | 141.170 | 3 | 47.057 | 9.38 | <0.01 |
組內 | 140.465 | 28 | 5.017 | ||
總 | 281.635 | 31 |
二、隨機區(qū)組(配伍組)設計的多個樣本均數比較
又稱兩因素方差分析。把總變異分解為處理間變異、區(qū)組間變異及誤差三部分。除推斷k個樣本所代表的總體均數,μ1,μ2,……μk是否相等外,還要推斷b個區(qū)組所代表的總體均數是否相等。也就是說,除比較多個處理的差別有無統計學意義外,還要比較區(qū)組間的差別有無統計學意義。該設計考慮了個體變異對處理的影響,故可提高檢驗效率。
表19-10隨機區(qū)組設計的多個樣本均數比較的方差分析公式
變異來源 | 離均差平方和SS | 自由度v | 均方MS | F |
總 | ΣX2-C | N-1 | ||
處理間 | k-1 | SS處理/v處理 | MS處理/MS誤差 | |
區(qū)組間 | b-1 | SS區(qū)組/v區(qū)組 | MS區(qū)組MS誤差 | |
誤差 | SS總-SS處理-SS區(qū)組 | V總-v處理-v區(qū)組 | SS誤差/v誤差 |
C、k、N的意義同表19-6,b為區(qū)組數
例19.10為研究酵解作用對血糖濃度的影響,從8名健康人中抽血并制成血濾液。每個受試者的血濾液被分成4份,再隨機地把4份血濾液分別放置0,45,90,135分鐘,測定其血溏濃度(表19-11),試問放置不同時間的血糖濃度有無差別?
處理間:
H0:四個不同時間血糖濃度的總體均數相等,即μ1=μ2=μ3=μ4
表19-11 血濾放置不同時間的血糖濃度(mmol/L)
區(qū)組號 |
放置時間(分) | 受試者小計
ΣXijj | |||
0 | 45 | 90 | 135 | ||
1 | 5.27 | 5.27 | 4.94 | 4.61 | 20.09 |
2 | 5.27 | 5.22 | 4.88 | 4.66 | 20.03 |
3 | 5.88 | 5.83 | 5.38 | 5.00 | 22.09 |
4 | 5.44 | 5.38 | 5.27 | 5.00 | 21.09 |
5 | 5.66 | 5.44 | 5.38 | 4.88 | 21.36 |
6 | 6.22 | 6.22 | 5.61 | 5.22 | 23.27 |
7 | 5.83 | 5.72 | 5.38 | 4.88 | 21.81 |
8 | 5.27 | 5.11 | 5.00 | 4.44 | 19.82 |
ΣXij j | 44.84 | 44.19 | 41.84 | 38.69 | 169.56(ΣX) |
Ni | 8 | 8 | 8 | 8 | 32(N) |
Xi | 5.6050 | 5.5238 | 5.2300 | 4.8363 | |
ΣX2ij j | 252.1996 | 245.0671 | 219.2962 | 187.5585 | 904.1214(ΣX2) |
H1:四個總體均數不等或不全相等
α=0.05
區(qū)組間:
H0:八個區(qū)組的總體均數相等,即μ1=μ2=……μ8
H1:八個區(qū)組的總體均數不等或不全相等
α=0.05
先作表19-11下半部分和右側一欄的基本計算。
C=(ΣX)2/N=(169.56)2/32=898.45605
SS總=ΣX2-C=904.1214-898.45605=5.66535
V總=N-1=32-1=31
V處理=k-1=4-1=3
V區(qū)組=b-1=8-1=7
SS誤差=SS總-SS處理-SS區(qū)組=5.66535-2.90438-2.49800=0.26297
V誤差=(k-1)(b-1)=3×7=21
MS處理=SS處理/v處理=2.90438/3=0.9681
MS區(qū)組=SS區(qū)組/v區(qū)組=2.49800/7=0.3569
MS誤差=SS誤差/v誤差=0.26297/21=0.0125
F處理=MS處理/MS誤差=0.9681/0.0125=77.448
F區(qū)組=MS區(qū)組/MS誤差=0.3569/0.0125=28.552
推斷處理間的差別,按v1=3,v2=21查F界值表,得F0.005(3,21)=3.07,F0.01(3,21)=4.87,P<0.01;推斷區(qū)組間的差別,按v1=7,v2=21查F界值表,得F0.05(7,21)=2.49,F0.01(7,21)=3.64,P<0.01。按α=0.05檢驗水準皆拒絕H0,接受H1,可認為放置時間長短會影響血糖濃度且不同受試者的血糖濃度亦有差別。但尚不能認為任兩個不同放置時間的血糖濃度總體均數皆有差別,必要時可進一步作兩兩比較的q檢驗。
表19-12 例19.10資料的方差分析表
變異來源 | SS | v | MS | F | P |
處理間 | 2.90438 | 3 | 0.9681 | 77.448 | <0.01 |
區(qū)組間 | 2.49800 | 7 | 0.3569 | 28.552 | <0.01 |
誤差 | 0.26297 | 21 | 0.0125 | ||
總 | 5.66538 | 31 |
三、多個樣本均數間的兩兩比較的q檢驗
經方差分析后,若按α=0.05檢驗水準不拒絕H0,通常就不再作進一步分析;若按α=0.05甚至α=0.01檢驗水準拒絕H0,且需了解任兩個總體均數間是否都存在差別,可進一步作多個樣本均數間的兩兩比較。兩兩比較的方法較多,在此僅介紹較常用的q檢驗(Newman-Keuls法)
公式(19.13)
(各組ni相等) 公式(19.14)
。ǜ鹘Mni不等) 公式(19.15)
式中,xA-xB為兩兩對比中,任兩個對比組A、B的樣本均數之差;sxA-xB為兩樣本均數差的標準誤;ni為各處理組的樣本含量;nA,nB分別為A、B兩對比組的樣本含量;MS誤差為單因素方差分析中的組內均方(MS組內)或兩因素方差分析中的誤差均方(MS誤差)。
計算的統計量為q,按表19-13所示關系作判斷。
例19.11 對例19.9資料作兩兩比較
H0:任兩個季節(jié)的湖水氯化物含量的總體均數相等,即μA=μB
H1:任兩總體均數不等,即μA≠μB
表19-13 |q| 值、P值與統計結論
α | |q| | P值 | 統計結論 |
0.05 | <q0.05(v.a) | >0.05 | 不拒絕H0,差別無統計學意義 |
0.05 | ≥q0.05(v.a) | ≤0.05 | 拒絕H0。接受H1,差別有統計學意義 |
0.01 | ≥q0.01(v.a) | ≤0.01 | 拒絕H0,接受H1,差別有高度統計學意義 |
α= 0.05
1.將四個樣本的均數由大到小排列編秩,注明處理組。
xi | 167.9 | 159.3 | 131.9 | 129.3 |
處理組 | 春 | 夏 | 秋 | 冬 |
秩次 | 1 | 2 | 3 | 4 |
2.計算 sxA-xB本例各處理組的樣本含量n1相等,按式(19,14)計算兩均數差的標準誤。已知MS組內=5.017,n=8
3.列兩兩比較的q檢驗計算表(表19-14)
表19-14 兩兩比較的q檢驗計算表
A與B
(1) |
xA-xB
(2) |
組數,a
(3) |
q值
(4)=(2)/0.7919 |
q0.05(v.a)
(5) |
q0.01(v.a)
(6) |
P值
(7) |
(1)與(4) | 38.6 | 4 | 48.744 | 3.85 | 4.80 | <0.01 |
(1)與(3) | 36.0 | 3 | 45.460 | 3.49 | 4.45 | <0.01 |
(1)與(2) | 8.6 | 2 | 10.860 | 2.89 | 3.89 | <0.01 |
(2)與(4) | 30.0 | 3 | 37.884 | 3.49 | 4.45 | <0.01 |
(2)與(3) | 27.4 | 2 | 34.600 | 2.89 | 3.89 | <0.01 |
(2)與(4) | 2.6 | 2 | 3.283 | 2.89 | 3.89 | <0.05 |
表中第(1)欄為各對比組,如第一行1與4,指A為第1組,B為第4組。第(2)欄為兩對比組均數之差,如第一行為X1與X4之差,余類推。第(3)欄為四個樣本均數按大小排列時,A、B兩對比組范圍內所包含的組數a,如第一“1與4”范圍內包含4個組,故a=4。第(4)欄是按式(19.13)計算的統計量q值,式中的分母0.7919是按式(19.14)計算出來的SXA-XB。第(5)、(6)欄是根據誤差自由度v與組數a查附表19-3q界值表所得的q界值,本例v誤差=28,因q界值表中自由度一欄無28,可用近似值30或用內插法得出q界值,本例用近似值30查表,當a=4時,q0.05(30,4)=3.85,q0.01(30,4)=4.80 ,余類推。第(7)欄是按表19-13判定的。
4.結論由表19-14可見,除秋季與冬季為P<0.05外,其它任兩對比組皆為P<0.01,按α=0.05檢驗水準均拒絕H0,接受H1,可認為不同季節(jié)的湖水氯化物含量皆不同,春季氯化物含量最高,冬季含量最低。