一群變量值可能用平均數(shù)描述集中的位置,用變異指標描述離散情況,而頻數(shù)表則把變量值的分布描繪得更具體。為了直觀還可把頻數(shù)表畫成直方圖。如第四章中曾將7歲男童坐高的頻數(shù)分布繪成圖4.1。從圖中可看出數(shù)據(jù)集中均數(shù)周圍,左右基本對稱,離均數(shù)愈近數(shù)據(jù)愈多,離均數(shù)愈遠數(shù)據(jù)愈少的特點。醫(yī)學科研中如健康人的紅細胞數(shù)、血紅蛋白量、血清總膽固醇,同年齡同性別兒童的身高、體重等,雖然數(shù)據(jù)各異,但畫出的直方圖圖形是類似的?梢栽O(shè)想,這種類型的資料,如果調(diào)查例數(shù)無限增多,所用組距又無限的小,那么直方頂端就連成了一條光滑的曲線。這條曲線,典型地反映了這類資料的分布情況,數(shù)學上稱為正態(tài)曲線,其方程為
式中n為總頻數(shù),X為變量值,μ為均數(shù),σ為標準差,Y為縱高,e=2.71828……,π=3.14158……。在一個總體中n、μ、σ、e、π都是常數(shù),只有X在變,所以Y=f(x)。
式(5.1)亦可寫成:
由上式可看出曲線的性質(zhì):
1.曲線左右對稱。X-μ無論是正或負,只要絕對值就相等,Y值就相等。所以只要X與μ的距離相等,Y就相等。Y值以X=μ為對稱軸。
2.中位數(shù)、均數(shù)、眾數(shù)重合。正態(tài)曲線在橫軸上方。當X=μ時,e0=1,Y為極大,所以均數(shù)與眾數(shù)密合。由于曲線左右對稱,所以均數(shù)亦即中位數(shù)。e的指數(shù)愈大,Y愈小,但不會得負值,所以Y>0,曲線在橫軸上方。
3.隨著(X-μ/σ)的絕對值的增加,曲線由平均數(shù)所在點向左右兩方迅速下降。
4.離平均數(shù)左右1σ處為曲線拐點。在μ±σ以內(nèi)曲線向下彎曲,以外則向上彎曲。
這種類型的資料,數(shù)據(jù)值雖各不相同,但都有其均數(shù)與標準差,如果橫軸上各以其均數(shù)為原點,標準差為單位,并令x=X-μ,那么(X-μ)/σ可寫成x/σ,稱為正態(tài)離差u,
(5.2)
再令總頻數(shù)為1。這時曲線以μ為原點,以σ為單位,稱為標準正態(tài)曲線,其公式為
(5.3)
以μ為均數(shù),σ2為方差的正態(tài)分布可記為N(μ,σ2),因此標準正態(tài)分布可記為N(0,1)。
圖5.2 標準正態(tài)曲線