變異量數(shù)與分布形狀_第1頁
變異量數(shù)與分布形狀_第2頁
變異量數(shù)與分布形狀_第3頁
變異量數(shù)與分布形狀_第4頁
變異量數(shù)與分布形狀_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第3章 變異量數(shù)與分佈形狀變異量數(shù)與分佈形狀 前言 只用集中量數(shù)來描述資料是不夠的。忽略了資料點的分散情形,可能會做出錯誤的判斷。 以下介紹幾種反映資料分散情形的量數(shù),包括全距、四分位距、平均絕對離差、標準差等。除此之外,利用數(shù)字呈現(xiàn)資料的集中和分散情形,不如直接呈現(xiàn)資料的分佈圖。 第一節(jié) 變異量數(shù) (1) 全距全距/範圍(範圍(range) 全距就是最大值減最小值。全距越大表示分數(shù)的離散程度越大。 Excel並沒提供函數(shù)直接計算全距。不過可利用MAX求得最大值,用MIN求得最小值,然後相減即得全距。除此之外,也可利用Excel提供的敘述統(tǒng)計內設功能,求得最大值和最小值。 第一節(jié) 變異量數(shù) (

2、2) 四分位距(四分位距(interquartile range) 如果將數(shù)值由小至大排列,第N個分數(shù)就是第一個四分位數(shù)(quartile),以Q1來表示;第N個分數(shù)就是第二個四分位數(shù)(Q2),Q2也就是中位數(shù);第N個分數(shù)就是第三個四分位數(shù)(Q3)。 所謂四分位距就是: Q = (Q3 - Q1) 第一節(jié) 變異量數(shù) (3) 平均絕對離差(平均絕對離差(mean absolute deviation) 每個分數(shù)減去平均數(shù),叫做離均差(deviation from the mean)。離均差取絕對值後加總,再取其平均值就是平均絕對離差。即: NXMADNi1第一節(jié) 變異量數(shù) (4) 例如1, 2,

3、 3, 4, 5等數(shù)字的平均數(shù)為3,離均差分別為-2, -1, 0, 1, 2。絕對值離均差為2, 1, 0, 1, 2。 Excel的AVEDEV函數(shù)可用以計算平均絕對離差。如鍵入=AVEDEV(1,2,3,4,5) 就可以得到平均絕對離差為1.2。 2 . 1521012MAD第一節(jié) 變異量數(shù) (5) 變異數(shù)(變異數(shù)(variance) 如果資料是母體,變異數(shù)就是每個分數(shù)減去母體平均數(shù)(即離均差),加以平方,然後加總,最後除以個數(shù),即為變異數(shù)(可想成:離均差平方的平均數(shù))。NXNii122第一節(jié) 變異量數(shù) (6) 例如有一公平骰子,令出現(xiàn)點數(shù)為X,數(shù)值分別為1, 2, 3, 4, 5, 6

4、。則X的平均數(shù)為3.5,變異數(shù)為2.92。 92. 26) 5 . 36 () 5 . 35 () 5 . 34 () 5 . 33 () 5 . 32 () 5 . 31 (2222222第一節(jié) 變異量數(shù) (7) 如果是從母體抽取少數(shù)樣本時,樣本變異數(shù)(sample variance)算法為1122NXXSNii第一節(jié) 變異量數(shù) (8) 例如有5個資料點為樣本,數(shù)值分別為1, 2, 3, 4, 5,則樣本平均數(shù)為3,樣本變異數(shù)為2.5。5 . 215) 35 () 34 () 33 () 32 () 31 (222222S第一節(jié) 變異量數(shù) (9) 標準差(標準差(standard devia

5、tion)標準差就是變異數(shù)開根號。 可分為母體標準差和樣本標準差。NXNii12112NXXSNii第一節(jié) 變異量數(shù) (10) Excel的VARP和VAR兩函數(shù)分別用以計算母體變異數(shù)和樣本變異數(shù)。STDEVP和STDEV則分別用以計算母體標準差和樣本標準差(其中P代表母體population)。=VARP(1,2,3,4,5)得母體變異數(shù)為2。=VAR(1,2,3,4,5)得樣本變異數(shù)2.5。=STDEVP(1,2,3,4,5)得母體標準差1.414。=STDEV(1,2,3,4,5)得樣本標準差1.581。 第一節(jié) 變異量數(shù) (11) 變異係數(shù)(變異係數(shù)(coefficient of va

6、riation)標準差除以平均數(shù)就是變異係數(shù)。由於計算變異數(shù)(或標準差)時,因為每個值都要減去平均數(shù),因此變異數(shù)必然受到平均數(shù)的影響。為了避免變異指標受到平均數(shù)的影響,將標準差除以平均數(shù),形成變異係數(shù)。第一節(jié) 變異量數(shù) (12) 在一項實驗裡,實驗組接受了某種閱讀技巧訓練,控制組則無,每組各10人。實驗組的標準差3.52約為控制組7.01的一半,控制組的變異係數(shù)0.14不到實驗組0.35的一半。 標準差 平均數(shù) 變異係數(shù) 實驗組 6 6 7 8 9 10 11 12 13 18 3.52 10 0.35 控制組 38 43 45 46 50 50 52 56 57 63 7.01 50 0.1

7、4 第二節(jié) 各種變異量數(shù)的比較 (1) 全距的優(yōu)點在於計算容易,容易理解。缺點是只利用最大和最小值,完全漠視了其他值的存在,無法精確反應所有資料的分散情形。 四分位距將極端的前1/4和後1/4去除,而利用第三個與第一個四分位數(shù)的差距來表示分散情形,因此避免了全距受到極端值影響的缺點。不過,四分位距的計算顯然不如全距來得方便,因為必須將資料由小到大排序。和全距一樣,四分位距也沒使用到所有的資料點。 第二節(jié) 各種變異量數(shù)的比較 (2) 平均絕對離差則使用了全部的資料,這是比較恰當?shù)淖鞣ā4送?,平均絕對離差也蠻容易理解。不過,由於計算平均絕對離差必須先求絕對值,因此運算並不方便。 標準差和平均絕對離

8、差的意義非常類似,因此不難理解。變異數(shù)及標準差還有方便四則運算,以及可用以推估母體參數(shù)(母體變異數(shù)、母體標準差)的好處,因此是推論統(tǒng)計的基石。 第二節(jié) 各種變異量數(shù)的比較 (3) 變異數(shù)(標準差)比平均絕對離差容易受到極端值的影響,這是因為計算變異數(shù)時使用了平方的關係。 例如1, 2, 3, 4, 5的母體標準差為1.41,平均絕對離差為1.20,兩者頗為接近。如果資料是1, 2, 3, 4, 10,則兩者分別為3.16和2.40,可見標準差受到極端值的影響比平均絕對離差來得大。 變異係數(shù)可以消去平均數(shù)的影響,如果要比較兩種平均數(shù)差異很大的資料的分散情形,利用變異係數(shù)比用標準差來得恰當了。 變

9、異量數(shù) 計算 理解 使用資料點 推論母體 全距 易 易 部份 無法 四分位距 易 易 部份 無法 平均絕對離差 難 難 全部 無法 標準差 難 難 全部 可以 第三節(jié) 柴氏不等式定理 (1) 柴氏不等式(Chebyshevs Inequality) 該定理表示:數(shù)值在平均數(shù)上下k個標準差之內的機率不小於1-1/k2。即 P(|X |) k 1 1/ k2 柴氏不等式定理適用於任何的分佈,包括間斷機率分佈和連續(xù)機率分佈,樣本和母體的分佈。 第三節(jié) 柴氏不等式定理 (2) 例如智商的平均數(shù) = 100,標準差 = 15,則數(shù)值在平均數(shù)100 1之內(即介於85到115之間)的機率不小於0(=1-1

10、/12)。 數(shù)值在平均數(shù)100 2之內(即介於70到130之間)的機率不小於3/4(=1-1/22)。 數(shù)值在平均數(shù)100 3之內(即介於55到145之間)的機率不小於8/9(=1-1/32)。 第四節(jié) 分佈形狀 (1) 最佳描述資料的方法就是呈現(xiàn)所有的資料點,包括資料的分佈形狀,配合集中量數(shù)和變異量數(shù),將更能完整呈現(xiàn)資料的特性。 例如調查100位中學生每週流連網(wǎng)路咖啡店的時數(shù),結果發(fā)現(xiàn)平均數(shù)為5.68,標準差為5.77。看到這樣的數(shù)字,我們就會以為多數(shù)人每週花在網(wǎng)咖的時間為5到6小時。0510152025303540455002468101214時數(shù)頻率上圖稱為直方圖(histogram)。

11、直方圖類似長條圖,不過直方圖中的長條沒有空隙。這是因為直方圖的X軸的變項是連續(xù)的量變項。 第四節(jié) 分佈形狀 (2) 隨著分佈形狀的改變,集中量數(shù),如平均數(shù)、中位數(shù)、眾數(shù)三者的關係會有所變化。 圖 (a)呈現(xiàn)的是所有的資料數(shù)值都是一樣的次數(shù),例如每週去網(wǎng)咖的時間為0、2、4、6、8、10、12、14小時的人數(shù)都是10人。此時平均數(shù)和中位數(shù)相同,但並無眾數(shù)。這稱為均勻分佈(uniform distribution)。 平均數(shù) 中位數(shù) 平均數(shù) 眾數(shù) 中位數(shù) 平均數(shù) 眾數(shù) 中位數(shù) 平均數(shù) 中位數(shù) 眾數(shù) 平均數(shù) 中位數(shù) 眾數(shù) 眾數(shù) (a) (b) (c) (d) (e) 第四節(jié) 分佈形狀 (3) 如果分佈像圖 (b)所示,呈現(xiàn)左右對稱的單峰分佈(unimodal distribution),平均數(shù)、中位數(shù)、眾數(shù)三者相同。成年男性或女性的身高應該都是這種單峰且對稱的分佈。 如果分佈如圖(c),大部份的數(shù)值集中在右邊,成單峰分佈,則眾數(shù)大於中位數(shù),中位數(shù)大於平均數(shù)。這種分佈又稱為左偏態(tài)分佈或負偏態(tài)分佈(negatively skewed distribution),因為左邊的尾巴很長。第四節(jié) 分佈形狀 (4) 如果分佈如圖(d),大部份的數(shù)值集中在左邊,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論