統(tǒng)計學集中和離散_第1頁
統(tǒng)計學集中和離散_第2頁
統(tǒng)計學集中和離散_第3頁
統(tǒng)計學集中和離散_第4頁
統(tǒng)計學集中和離散_第5頁
已閱讀5頁,還剩92頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第三章集中趨勢和離中趨勢3·1集中趨勢的測度3·2離中趨勢的測度3·3偏態(tài)與峰度的測定1

3·1集中趨勢的測度集中趨勢是指一組數(shù)據(jù)(或總體各單位標志值)向某一中心值靠攏的傾向,測度集中趨勢也就是尋找資料一般水平代表值或中心值,即平均指標。所謂平均指標,是說明同質(zhì)總體內(nèi)各單位某一數(shù)量標志在一定時間、地點條件下所達到的一般水平。趨勢的測度值(平均指標)主要有算術(shù)平均數(shù)、調(diào)和平均數(shù)、幾何平均數(shù)、眾數(shù)和中位數(shù)等。本節(jié)將分別介紹它們的計算方法、特點及應(yīng)用場合。

22集中趨勢測度方法:

平均指標

算術(shù)平均數(shù)調(diào)和平均數(shù)幾何平均數(shù)位置平均數(shù)眾數(shù)中位數(shù)分位數(shù)3北京46507天津34938內(nèi)蒙古21884山西21525河北19911

遼寧23202吉林20513黑龍江19386

上海49310江蘇27374浙江31086安徽22180福建22283江西18400山東22844河南20935湖北19818湖南21534廣東29443廣西21898海南19357

重慶23098四川21312貴州20668云南20481西藏46098

陜西21296甘肅20987青海26166寧夏26210新疆2143407年各地職工平均工資12345678912314

(2)56328

(4)41748

24756

西

(16)25828

內(nèi)蒙古

(14)26114

(10)27729

23486

黑龍江

23046

(1)56565

(7)31667

(5)34146

(13)26363

(17)25702

西

21000

(12)26404

24816

22739

24870

(6)33110

西

(18)25660

21864

(11)26985

25038

24602

24030

西

(3)47280

西

(15)25942

24017

(8)30983

(9)30719

2468708年各地職工平均工資5全國平均數(shù)據(jù)

2007年全國城鎮(zhèn)單位在崗職工年平均工資為24932元,日平均工資為99.31元

2008年全國城鎮(zhèn)單位在崗職工平均工資為29229元,日平均工資為111.99元。

2009年,全國城鎮(zhèn)單位就業(yè)人員平均工資為32244元。2010年,全國城鎮(zhèn)單位就業(yè)人員平均工資為36539元。

年份19902000200920102011城鎮(zhèn)居民人均可支配收入(元)1510

6280

17175

1910921810農(nóng)村居民人均純收入(元)

686

2253

5153

59196977

2011年城鎮(zhèn)居民收入中位數(shù)19118元,農(nóng)村居民收入中位數(shù)6194元。608年中國城鎮(zhèn)職工平均工資為2.9萬元,同比增17.2%平均數(shù)背后存在三大差異:平均工資存在地區(qū)差異。2008年城鎮(zhèn)單位在崗職工平均工資高于全國平均水平的有9個省區(qū)市,低于全國平均水平的有22個省區(qū)市。分四大區(qū)域看,平均工資由高到低排列依次是東部、西部、東北和中部,分別為34316元、25602元、25101元和24390元。平均工資存在行業(yè)差異。2008年平均工資最高的行業(yè)是證券業(yè)172123元,最低的行業(yè)是木材加工及木竹滕棕草制品業(yè)15663元。受國際金融危機影響較大的紡織業(yè)和紡織服裝鞋帽制造業(yè)在崗職工平均工資分別為16222元和18572元。

不同類型單位平均工資存在差異。2008年機關(guān)在崗職工平均工資為33869元,事業(yè)單位平均工資為29758元,企業(yè)平均工資為28359元。機關(guān)、事業(yè)單位平均工資略高于全國平均水平,企業(yè)平均工資略低于全國平均水平的格局多年來一直沒有改變。7女性為購物一年走247公里

不少女性是商場的忠實擁躉:新貨上市時要去嘗鮮,商品打折時要去“掃貨”,有時為找到自己喜歡的東西,更是不惜“長途跋涉”。那么,這樣下來,愛逛街的女性一年會走多遠的路?

女性年均逛街160小時

英國德貝納姆百貨公司調(diào)查2000名顧客后發(fā)現(xiàn),女性平均每周花費2.5小時逛商場,行走大約4.7公里。男性每周逛商場的平均時間約為50分鐘,行走大約2.4公里。

分解來看,女性平均每次逛街買衣服需要1小時59分,買食品需要1小時22分,到住所附近買其他雜物需要38分鐘。

按每年買24次服裝、60次食品和48次雜物來算,女性每年花在買衣服上的時間為47小時36分,花在買食品上的時間為82小時,花在買雜物上的時間為30小時24分。

8女性為購物一年走247公里

也就是說,女性平均每年有160小時的時間在逛街,相當于約20個8小時工作日。行走長度達到約247公里。

購物3小時熱量消耗相當一個漢堡

逛街除了可以滿足女性的消費欲望外,還可以“順便”鍛煉身體。

統(tǒng)計數(shù)字顯示,女性每次出去逛街時大約要走7305步,相當于國家醫(yī)療服務(wù)系統(tǒng)推薦的“日行萬步”的四分之三。如果再算上她們手提肩背的“戰(zhàn)利品”,那么效果不亞于去健身房鍛煉。

怪不得有超過半數(shù)的受調(diào)查者說,逛街一天比去健身房累得多。

研究人員進一步推算得出:購物3小時能幫助女性消耗495卡路里,相當于一個麥當勞巨無霸漢堡;逛街2小時也能用掉約283卡路里,等于一杯中號拿鐵咖啡。

從平均值來看,女性每周逛街可以消耗385卡路里,相當于一塊胡蘿卜蛋糕或兩大杯紅酒。

(新華社供本報特稿)9一、算術(shù)平均數(shù)

算術(shù)平均數(shù)是集中趨勢中最常用、最重要的測度值。它是將總體標志總量除以總體單位總量而得到的均值。(一)算術(shù)平均數(shù)的基本公式算術(shù)平均數(shù)=總體標志總量/總體單位總量注意:式中分子、分母指標必須屬于同一總體,即各標志值與各單位之間是一一對應(yīng)的。這也是算術(shù)平均數(shù)與強度相對指標的區(qū)別。(二)兩種計算形式:首先看兩個資料。10例一:設(shè)有一組大學生的月生活費支出為:150,200,240,300,350,500(單位:元)。(x=290)例二:有一班級的大學生月生活費支出如下表:

月生活費(元)x人數(shù)(人)f頻率(%)15035.3620058.93240712.503002442.853501628.5750011.79合計56100.00

1111

加權(quán)算術(shù)平均數(shù)計算表

月生活費(元)x人數(shù)(人)f頻率(%)xfx*頻率15035.364508.0420058.93100017.86240712.50168030.003002442.857200128.553501628.575600100.0050011.795008.95合計56100.0016430293.40資料欄計算欄解:該班級學生平均月生活費=(公式)=16430/56=293.39(元)

121、簡單算術(shù)平均數(shù)(適用于未分組資料)計算公式為:

如果所給的數(shù)據(jù)是已經(jīng)分組的次數(shù)分布數(shù)列,則算術(shù)平均數(shù)的計算應(yīng)采用加權(quán)算術(shù)平均數(shù)的形式。

132、加權(quán)算術(shù)平均數(shù)(適用于分組資料)(為什么由分組資料計算平均指標不能將各組的標志值簡單平均?)。

計算公式為:

式中:f——代表各組的次數(shù)或頻數(shù)(即各組的單位數(shù))。

比較兩個公式,并解釋為什么次數(shù)f又稱之為權(quán)數(shù)?1415

平均數(shù)的大小不僅取決于各組標志值x的大小,同時還受各組次數(shù)f多少的影響。各組標志值次數(shù)的多少在平均數(shù)的計算中具有權(quán)衡輕重的作用,因而把各組的次數(shù)又稱為權(quán)數(shù),用各組的次數(shù)去乘以各組的標志值,就是對各組的標志值進行加權(quán)。所以,用這種方法計算的算術(shù)平均數(shù),稱為加權(quán)算術(shù)平均數(shù)。試想,如果各組次數(shù)完全相同,結(jié)果會怎樣?16實務(wù)中給定的權(quán)數(shù)資料,既可以是絕對數(shù),也可以是相對數(shù),即頻率或稱權(quán)數(shù)系數(shù)。當權(quán)數(shù)為相對數(shù)時,加權(quán)算術(shù)平均數(shù)的表達公式如何呢?

算術(shù)平均數(shù)既可依據(jù)單項變量數(shù)列計算也可依據(jù)組距數(shù)列計算;既可根據(jù)絕對數(shù)計算,也可根據(jù)相對數(shù)或平均數(shù)進行計算。17如果根據(jù)相對數(shù)或平均數(shù)進行計算,則應(yīng)注意的問題是:(1)

只能用加權(quán)形式計算;(2)

權(quán)數(shù)的選擇問題。18

【例三】見下表所給資料。某市某局18個企業(yè)稅收計劃完成情況計劃完成(%)企業(yè)數(shù)(個)計劃任務(wù)數(shù)(萬元)95——1005100100——10581200105——1103100110以上260合計181460要求:計算18個企業(yè)稅收收入平均計劃完成程度。

19

計算表計劃完成(%)組中值x(%)計劃任務(wù)數(shù)f(萬元)實際完成數(shù)xf(萬元)95——10097.510097.5100——105102.512001230.0105——110107.5100107.5110以上112.56067.5

合計—14601502.5計算欄

解:平均計劃完成程度x=∑xf/∑f

=1502.5/1460=102.91%

20【例四】(用于計算調(diào)和平均數(shù))

計劃完成(%)企業(yè)數(shù)(個)實際完成數(shù)(萬元)

95——100597.5100——10581230.0105——1103107.5110以上267.5合計181502.5要求同上:計算18個企業(yè)稅收收入平均計劃完成程度。

21計算表計劃完成(%)組中值x(%)實際完成數(shù)m

計劃任務(wù)數(shù)m/x(萬元)(萬元)95—10097.597.5100100—105102.51230.01200

105—110107.5107.5100110以上112.567.560合計—1502.51460

計算欄解:=1502.5/1460=102.91%

22(三)算術(shù)平均數(shù)的數(shù)學性質(zhì)1、各個變量值與算術(shù)平均數(shù)的離差總和等于零。表達式:∑(x-x)=0或∑(x-x)f=02、各個變量值與算術(shù)平均數(shù)的離差平方總和為最小值。表達式:

∑(x-x)2=最小

最小

23二、調(diào)和平均數(shù)——又稱“倒數(shù)平均數(shù)”,它是根據(jù)各變量值的倒數(shù)來計算的平均數(shù)。具體地講,調(diào)和平均數(shù)是各變量值倒數(shù)的算術(shù)平均數(shù)的倒數(shù)。(一)調(diào)和平均數(shù)的計算方法1、

簡單調(diào)和平均數(shù)(適用于未分組資料)計算公式為:

xH==(1/x1+1/x2+……+1/xn)/n∑(1/x)

1n24二、調(diào)和平均數(shù)(一)調(diào)和平均數(shù)的計算方法2、加權(quán)調(diào)和平均數(shù)(適用于分組資料)計算公式:

25二、調(diào)和平均數(shù)以m加權(quán)的調(diào)和平均數(shù)與以f加權(quán)的算術(shù)平均數(shù)的關(guān)系.因為,各組標志總量m=所以,各組的單位數(shù)(次數(shù))f=則:

26(二)加權(quán)算術(shù)平均數(shù)和加權(quán)調(diào)和平均數(shù)的采用

1、由平均數(shù)計算[例五]以某種蔬菜為例,資料見表。

某種蔬菜的有關(guān)資料

價格x(元/公斤)采購金額m(元)早市0.5010.00中市0.4513.50晚市0.408.00合計—31.50

27

【例六】價格x(元/公斤)采購量f(公斤)早市0.5020中市0.4530晚市0.4020合計——70分別依據(jù)表一和表二的資料,計算該種蔬菜的平均價格。

思路:平均每公斤價格=購買金額/采購量=0.45(元/公斤)

282、由相對數(shù)計算

例題見前述計劃完成程度的計算。結(jié)論:在由相對數(shù)或平均數(shù)計算平均數(shù)時,在什么情況下采用加權(quán)算術(shù)平均數(shù)或加權(quán)調(diào)和平均數(shù),首先要明確所求平均指標的分子、分母是什么,而后再根據(jù)所掌握的資料條件來選擇。如果所掌握的權(quán)數(shù)資料是計算公式的分母數(shù)值時,則直接采用加權(quán)算術(shù)平均數(shù)的形式;如果所掌握的權(quán)數(shù)資料是計算公式的分子數(shù)值時,則需采用加權(quán)調(diào)和平均數(shù)的形式。

29三、幾何平均數(shù)幾何平均數(shù)是計算平均比率或平均發(fā)展速度的最適用的一種方法。凡是變量值的連乘積等于總比率或總速度的現(xiàn)象,都采用幾何平均數(shù)反映現(xiàn)象總體的一般水平。根據(jù)所掌握資料的不同,也有簡單和加權(quán)兩種形式:(一)簡單幾何平均數(shù)是n個變量值連乘開n次方根的結(jié)果。

30三、幾何平均數(shù)(二)加權(quán)幾何平均數(shù)

31幾何平均數(shù)應(yīng)用案例:【例七】某機械廠有四個連續(xù)作業(yè)的車間:毛坯車間、粗加工車間、精加工車間和裝配車間,某月份各車間的產(chǎn)品合格率依次為:95%,90%,92%,85%。要求計算四個車間的平均產(chǎn)品合格率。(90.43%)【例八】投資銀行某項投資是按復利計算,18年間年利率的分配情況是:利率(%)3581015期限(年)14562要求:計算18年間的平均年利率。(8.45%)32四、切尾均值切尾均值是一種新的集中趨勢測度方法,在大賽中得到廣發(fā)應(yīng)用。切尾均值是去掉大小兩端的若干數(shù)值后計算中間數(shù)據(jù)的均值。

33四、切尾均值式中:n表示觀察值的個數(shù);表示切尾系數(shù),各觀察值是經(jīng)排隊后由小到大形成的順序統(tǒng)計量值。2834五、位置平均數(shù)(一)眾數(shù)(二)中位數(shù)(三)分位數(shù)四分位數(shù)十分位數(shù)百分位數(shù)35

(一)眾數(shù)1、眾數(shù)的概念眾數(shù)是總體中出現(xiàn)次數(shù)最多的標志值,即最普遍、最常見的標志值。眾數(shù)只有在總體單位較多而又有明確的集中趨勢的資料中才有意義。2、眾數(shù)的確定

單項數(shù)列中,出現(xiàn)次數(shù)最多的那個組的標志值就是眾數(shù)。若在數(shù)列中有兩組的次數(shù)是相同的,且次數(shù)最多,則就是雙眾數(shù)或復眾數(shù)。

組距數(shù)列中,眾數(shù)的確定要分兩步:第一步,用直接觀察法確定眾數(shù)組即次數(shù)最多的那一組;第二步,計算眾數(shù)的近似值。比較精確的方法是用眾數(shù)組次數(shù)與相鄰兩組次數(shù)之差來推算眾數(shù)的近似值。

五、位置平均數(shù)36眾數(shù)一般有兩種計算公式:

Δ1

下限公式:M0=L+d

Δ1+Δ2上限公式:M0=U-Δ2/(Δ1+Δ2)d

組距數(shù)列眾數(shù)的確定一般與其相鄰兩組的頻數(shù)分布有關(guān)。若眾數(shù)組前一組的頻數(shù)比眾數(shù)組后一組的頻數(shù)多,則眾數(shù)小于眾數(shù)組的組中值;反之,眾數(shù)大于其組中值。若眾數(shù)組前一組的頻數(shù)等于其后一組的頻數(shù),則眾數(shù)就是眾數(shù)組的組中值。

37五、位置平均數(shù)(二)中位數(shù)1、中位數(shù)的概念中位數(shù)是將總體單位某一變量的各個變量值按大小順序排列,處在數(shù)列中間位置的那個變量值就是中位數(shù)。

2、中位數(shù)的確定(1)未分組資料確定中位數(shù)在資料未分組的情況下,將各變量值按大小順序排列后,

首先,確定中位數(shù)的位置,即(n+1)/2;

然后,根據(jù)中點位置確定中位數(shù)。

38(二)中位數(shù)2、中位數(shù)的確定

單項數(shù)列

(2)分組資料確定中位數(shù)組距數(shù)列

由單項數(shù)列計算中位數(shù):

首先,計算各組的累積次數(shù);

然后,根據(jù)中點位置(總次數(shù)/2)在累積次數(shù)中確定中位數(shù)所在組,以確定中位數(shù)。

39(二)中位數(shù)2、中位數(shù)的確定(2)分組資料確定中位數(shù)由組距數(shù)列計算中位數(shù)(情況要復雜一些):分三步驟:第一步,計算累積次數(shù);第二步,計算中位數(shù)位置(總次數(shù)/2),以確定中位數(shù)組;

第三步,用比例推算法估計中位數(shù)的近似值。40組距數(shù)列中位數(shù)的計算公式下限公式:上限公式:41下限公式的比例推算法:累積次數(shù)Sm-1=180中點位置f/2=215

中位數(shù)所在組次數(shù)fm=180215-180=35中位數(shù)在該組分攤組距的比例為:35/18042五、位置平均數(shù)(三)分位數(shù)中位數(shù)是將統(tǒng)計分布從中間分成面積相等的兩部分(即兩邊數(shù)據(jù)個數(shù)相等)。與中位數(shù)性質(zhì)相似的還有四分位數(shù)十分位數(shù)百分位數(shù)43(三)分位數(shù)1、四分位數(shù)(Qi)

又稱四分位點,它是通過3個點將排好序的全部數(shù)據(jù)等分為4部分,其中每部分包含25%的數(shù)據(jù),處在分割點上的數(shù)值就是四分位數(shù)。很顯然,其中中間的四分位數(shù)就是中位數(shù)。所以,通常所說的的四分位數(shù)是指第一個和第三個四分位數(shù),分別又稱作下四分位數(shù)和上四分位數(shù)。44(三)分位數(shù)四分位數(shù)的計算方法:與中位數(shù)計算相類似(1)未分組資料計算首先對數(shù)據(jù)進行排序,然后確定四分位數(shù)所在位置。設(shè):下四分位數(shù)為上四分位數(shù)為中間四分位數(shù)為45(三)分位數(shù)四分位數(shù)的計算方法:(1)未分組資料計算

的位置=的位置=46(三)分位數(shù)四分位數(shù)的計算方法:(1)未分組資料計算

的位置=47(三)分位數(shù)四分位數(shù)的計算方法:(1)未分組資料計算當四分位數(shù)的位置不在某個數(shù)值上時,可根據(jù)四分位數(shù)的位置,按比例分攤四分位數(shù)位置兩側(cè)數(shù)值的差值。48(三)分位數(shù)四分位數(shù)的計算方法:(2)分組資料計算首先,確定和的位置,并確定和所在的組。

的位置=N/4的位置=3N/449(三)分位數(shù)四分位數(shù)的計算方法:(2)分組資料計算

然后,仿照中位數(shù)的計算公式確定和的具體數(shù)值。

50(三)分位數(shù)四分位數(shù)的計算方法:(2)分組資料計算51四分位數(shù)的計算方法:(2)分組資料計算式中:和分別為和所在組的下限值;

和分別為和所在組的次數(shù);

52(三)分位數(shù)四分位數(shù)的計算方法:(2)分組資料計算案例p2753(三)分位數(shù)2、十分位數(shù)(Di)3、百分位數(shù)(Pi)十分位數(shù)和百分位數(shù)是分別將排好序的數(shù)據(jù)分布10等分和100等分的分割點上數(shù)值。計算公式仿照四分位數(shù)計算即可。54六、平均指標之間的相互關(guān)系

(一)算術(shù)平均數(shù)、幾何平均數(shù)和調(diào)和平均數(shù)的關(guān)系三者存在的數(shù)量關(guān)系表現(xiàn)在:根據(jù)同一資料所計算的三種平均數(shù),幾何平均數(shù)大于調(diào)和平均數(shù)而小于算術(shù)平均數(shù),即X≥XG≥XH

;當變量數(shù)列中所有的標志值都相等時,三種平均數(shù)相同,即X=XG=XH。(二)中位數(shù)、眾數(shù)與算術(shù)平均數(shù)的關(guān)系這三者之間的關(guān)系,決定于總體內(nèi)部的次數(shù)分布狀況。

55(二)中位數(shù)、眾數(shù)與算術(shù)平均數(shù)的關(guān)系

在對稱分布的情況下,中位數(shù),眾數(shù)和算術(shù)平均數(shù)合而為一,即:Me=M0=在非對稱分布的情況下,中位數(shù),眾數(shù)和算術(shù)平均數(shù)之間存在一定的差別。如果分布右偏,則三者之間的關(guān)系是:M0<Me<;如果分布左偏,則三者之間的關(guān)系是:M0>Me>??梢?,無論是右偏還是左偏,中位數(shù)總是介于算術(shù)平均數(shù)和眾數(shù)之間。適度偏態(tài)時,-Me的距離是-M0的1/3。

56對稱分布M0=Me

=

X;57MeM0X右偏分布58左偏分布XMeM059(三)眾數(shù)、中位數(shù)和算術(shù)平均數(shù)的特點和應(yīng)用

場合眾數(shù)是一組數(shù)據(jù)分布的峰值,是一種位置代表值。其優(yōu)點是易于理解,不受極端值的影響。當數(shù)據(jù)的分布具有明顯的集中趨勢時,尤其是對于偏態(tài)分布,眾數(shù)的代表性比均值要好。其缺點是具有不唯一性。中位數(shù)是一組數(shù)據(jù)中間數(shù)據(jù)的代表值,其特點是不受數(shù)據(jù)極端值的影響,因此,對于具有偏態(tài)分布的數(shù)據(jù),中位數(shù)的代表性要比均值好。算術(shù)平均數(shù)是就全部數(shù)據(jù)計算的,它具有優(yōu)良的數(shù)學性質(zhì),是實際應(yīng)用最廣泛的集中趨勢測度值。其主要缺點是易受極端值的影響,對于偏態(tài)分布的數(shù)據(jù),均值的代表性較差。

60

結(jié)論:從各種代表值之間的關(guān)系及其特點可看出:當數(shù)據(jù)呈對稱分布或接近對稱分布時,三個代表值相等或接近相等,這時,應(yīng)選擇均值作為集中趨勢的代表值(為什么?);當數(shù)據(jù)為偏態(tài)分布,特別當偏斜的程度較大時,則應(yīng)選擇眾數(shù)或中為數(shù)等位置平均數(shù),這時它們的代表性要比均值好。此外,均值只適用于定距或定比尺度的數(shù)據(jù),而對于定類或定序尺度的數(shù)據(jù)無法計算均值,但卻可以計算眾數(shù)和中位數(shù)。

61補充介紹:箱線圖箱線圖是由一組數(shù)據(jù)的最大值、最小值、中位數(shù)和兩個四分位數(shù)5個特征值繪制而成的。對于單組數(shù)據(jù),可繪制簡單箱線圖;對于多組數(shù)據(jù),可繪制多批比較箱線圖。箱線圖可反映出一組數(shù)據(jù)分布特征,還可進行多組數(shù)據(jù)分布特征的比較。62箱線圖的繪制方法箱線圖是由一個箱子和兩條線段組成。(1)找出一組數(shù)據(jù)的5個特征值;(2)連接兩個四分位數(shù)畫出箱子;(3)將兩個極值點與箱子相連接。63第二節(jié)頻數(shù)分布離中程度的測度[案例1]有兩組男生身高分別為:甲組(cm):168,172,172,173,175,190乙組(cm):168,172,175,175,178,182兩組平均身高均為175cm,它們的代表性一樣嗎?64

[案例2]有男、女兩組身高:男組(cm):168,172,172,173,175,190女組(cm):163,164,165,165,167,171男組平均身高175cm;(7.02cm,4.01%)女組平均身高165.83cm。(2.61cm,1.57%)思考:兩組平均身高的代表性如何評價?第二節(jié)頻數(shù)分布離中程度的測度65

[案例3]從某校一年級大學生中隨機抽取100人,測得他們的身高和體重平均值分別是168厘米和52千克,相應(yīng)的標準差為9厘米和5千克,問身高和體重哪一個差異大?(5.36%,9.62%)第二節(jié)頻數(shù)分布離中程度的測度66案例1計算表:

甲組乙組

身高xx-x(x-x)2身高xx-x(x-x)2168-749168-749172-39172-39172-3917500173-2417500175001783919015225182749合計296合計116

甲組:σ=[∑(x-x)2/n]1/2=7.02(厘米)乙組:σ=[116/6]1/2=4.4(厘米)67第二節(jié)頻數(shù)分布離中程度的測度

離中程度,是各個變量值遠離其中心值的程度,又稱離散程度,或變異指標。

為什么要測度離中程度?集中趨勢只是數(shù)據(jù)分布的一個特征,它所反映的是總體各單位變量值向其中心值聚集的程度。而各變量值之間的差異狀況如何,均值的代表性有多大,這就需要用離中程度對其進行考察。數(shù)據(jù)的離中程度是數(shù)據(jù)分布的另一個重要特征,它與均值的關(guān)系是:

變量值的差異大,離散程度就大,均值的代表性就??;變量值差異小,離散程度就小,均值的代表性也就大。

68

描述數(shù)據(jù)離散程度的測度值主要有極差、平均差、方差和標準差、離散系數(shù)等。

一、極差

極差亦稱全距,即兩極之差。根據(jù)全距的大小來說明變量值變動范圍的大小。極差R=最大值-最小值對于組距分組數(shù)據(jù),極差也可以近似表示為:R=最高組的上限值-最低組的下限值優(yōu)缺點:極差是描述數(shù)據(jù)離散程度的最簡便測度值,其計算簡單,易于理解,但它容易受極端值的影響。第二節(jié)頻數(shù)分布離中程度的測度69補充:內(nèi)距內(nèi)距,是兩個四分位數(shù)之差,即:

內(nèi)距=上四分位數(shù)-下四分位數(shù)與極差比較,內(nèi)距基本不受極端值的影響,且內(nèi)距反映的是中間50%數(shù)值大小的差異,故能給出比極差更多的數(shù)據(jù)差異信息。70二、平均差

平均差是表明總體各單位變量值與其均值之間絕對離差的算術(shù)平均數(shù),又稱平均離差,一般用A·D表示。

為什么采取離差的絕對值,即

71平均差兩種計算形式(1)簡單平均差(適用于未分組資料)其公式為:

(2)加權(quán)平均差(分組資料)其公式為:

72二、平均差優(yōu)缺點:平均差是根據(jù)全部變量值計算的,受極端值的影響比較小,所以,它能夠綜合反映總體中各單位變量值的離散程度。但由于它采用絕對值計算不符合代數(shù)方法的演算,所以在統(tǒng)計研究中應(yīng)用較少。

73

三、方差和標準差(一)

方差和標準差的含義方差,是總體各單位變量值與其算術(shù)平均數(shù)的離差平方的算術(shù)平均數(shù),用σ2表示,方差的平方根就是標準差σ。與方差不同的是,標準差是具有量綱的,它與變量值的計量單位相同,其實際意義要比方差清楚。因此,在對社會經(jīng)濟現(xiàn)象進行分析時,更多使用標準差。

思考:與平均差比較,標準差的優(yōu)點是什么?74

平均差與標準差的比較:標準差與平均差雖都是變量值與均值的平均離差,但不同的是平均差所平均的是離差絕對值,而標準差平均的是離差平方。標準差徹底解決了正負離差不能相加的問題。它在抽樣調(diào)查、相關(guān)分析中應(yīng)用較多,所以標準差是應(yīng)用較為廣泛的一種離中趨勢的測度值。

75標準差的計算有兩種形式——

簡單平均式和加權(quán)平均式(1)在未分組資料情況下,采用簡單平均式。公式為:

(2)在分組資料情況下,采用加權(quán)平均式。公式為:

76(二)方差的數(shù)學性質(zhì):

1、變量的方差等于變量平方的平均數(shù)減去變量平均數(shù)的平方。即:2、變量對算術(shù)平均數(shù)的方差,小于對任意常數(shù)的方差。(三)標準差的應(yīng)用

標準差可用于計算標準化值。

標準化值是某一數(shù)據(jù)與平均數(shù)的距離以標準差為單位的測量值。其計算公式為:

77一組數(shù)據(jù)中的每一個原始數(shù)據(jù)都可以計算出對應(yīng)的標準化值,這一組標準化值組成一個標準化值的平均數(shù)為零,標準差為1。

當Zi=0時,即xi=x,這時原始數(shù)據(jù)正好等于這一組數(shù)據(jù)的平均數(shù);

當Zi>0時,原始數(shù)據(jù)高于其平均數(shù);當Zi<0時,原始數(shù)據(jù)低于其平均數(shù)。標準化數(shù)據(jù)越大,說明它距離平均數(shù)越遠。標準化值的作用:標準化值不僅能表明各原始數(shù)據(jù)在一組數(shù)據(jù)分布中的相對位置,而且還能在不同分布的各原始數(shù)據(jù)間進行比較,同時還能接受代數(shù)方法的處理。因此,標準化值在統(tǒng)計分析中起這十分重要的作用。

78標準化值的應(yīng)用:比如,已知某班統(tǒng)計學平均成績?yōu)?0分,標準差為10分;會計學平均成績?yōu)?0分,標準差為8分。甲學生統(tǒng)計學成績?yōu)?2分,會計學成績?yōu)?8分。試比較甲學生兩門課程考試成績的優(yōu)劣。若僅從原始分數(shù)看,甲學生統(tǒng)計學的成績高于會計學成績。但由于甲學生這兩門課的成績分屬于不同的分布,所以無法直接比較。要正確比較,首先要把原始數(shù)據(jù)轉(zhuǎn)化為標準分數(shù),使這兩個分數(shù)放在標準差為1、平均數(shù)為0的統(tǒng)一尺度下進行比較。統(tǒng)計學的標準分數(shù)為:Z=(82-80)/10=0.2會計學的標準分數(shù)為:Z=(78-70)/8=1從標準分數(shù)可看出,甲學生統(tǒng)計學成績超過全班平均成績0.2個標準差,即接近于平均成績;會計學成績超過平均成績1個標準差。顯然,甲學生的會計學成績相對地更優(yōu)些。79四、變異系數(shù)平均差和標準差其數(shù)值大小,不僅決定于各標志值的差異程度,還決定于數(shù)列平均水平的高低,同時它們具有與標志值相同的名數(shù)。因而,對于具有不同平均水平和不同計量單位的數(shù)列,就不能直接利用標準差等來比較其標志變動程度的大小,而需要用變異系數(shù),以消除不同數(shù)列水平的影響。80四、變異系數(shù)變異系數(shù)是將標準差或平均差與其平均數(shù)對比所得的比值,又稱離散系數(shù)。公式為:

或(被常用)

變異系數(shù)是一個無名數(shù)的數(shù)值,可用于比較不同數(shù)列的變異程度。

81五、成數(shù)(一)成數(shù)的概念

所謂成數(shù)是總體中具有某種屬性或特征的單位數(shù)占全部單位數(shù)的比重,它反映了總體中“是”或“非”屬性的構(gòu)成,并且代表著該種屬性或特征反復出現(xiàn)的程度,即頻率。

成數(shù)的計算。在一個是非標志總體中,如果全部總體單位數(shù)用N來表示,具有某種屬性或特征的單位數(shù)用N1表示,它在全部總體單位數(shù)中所占的比重(即成數(shù))用P表示。則:P=N1/N

82

將不具有某種屬性或特征的單位數(shù)用N0表示,它在全部總體單位數(shù)中所占的比重(成數(shù))用Q表示,則:Q=N0/N

兩個成數(shù)之和等于1,即:N1/N+N0/N=1亦即,P+Q=1因而,Q=1-P83(二)是非標志的平均數(shù)和標準差

是非標志是品質(zhì)標志,因而無法直接計算其平均質(zhì)量。要計算是非標志的平均數(shù),就必須將是非標志在性質(zhì)上的差別過渡到數(shù)量上的變異,即將是非標志數(shù)量化。如果以“1”表示具有某種屬性或特征的單位的標志值,以“0”表示不具有某種屬性或特征的單位的標志值,則是非標志就轉(zhuǎn)化為(0,1)的數(shù)量標志值。

列成統(tǒng)計表,則有:

是非標志值(變量值)x比重(成數(shù))f1

P0

Q合計

184

是非標志平均數(shù)和標準差的計算表

是非標志值比重變量值×離差離差離差平方(變量值)(成數(shù))比重平方×權(quán)數(shù)xfxfx-x(x-x)2(x-x)2f

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論