應用統(tǒng)計學第4章 數(shù)據分布特征的度量_第1頁
應用統(tǒng)計學第4章 數(shù)據分布特征的度量_第2頁
應用統(tǒng)計學第4章 數(shù)據分布特征的度量_第3頁
應用統(tǒng)計學第4章 數(shù)據分布特征的度量_第4頁
應用統(tǒng)計學第4章 數(shù)據分布特征的度量_第5頁
已閱讀5頁,還剩83頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第四章數(shù)據分布特征的度量

1本章學習目標1.領會數(shù)據分布的各種特征:集中趨勢、離散趨勢、偏斜程度和峰度。2.掌握數(shù)據分布特征各測定值的計算方法、特點及其應用場合。2海之濱每日營業(yè)收入的次數(shù)分配直方圖3海之濱營業(yè)收入的次數(shù)分配圖4夏季春季本章要點5集中趨勢(位置)偏態(tài)和峰態(tài)(形狀)離中趨勢

(分散程度)集中趨勢眾數(shù)中位數(shù)分位數(shù)平均數(shù)6眾數(shù)(mode)一組數(shù)據中出現(xiàn)次數(shù)最多的變量值不受極端值的影響一組數(shù)據可能沒有眾數(shù)或有幾個眾數(shù)主要用于分類數(shù)據,也可用于順序數(shù)據和數(shù)值型數(shù)據7眾數(shù)(不惟一性)8無眾數(shù)

原始數(shù)據:10591268一個眾數(shù)

原始數(shù)據:659855多于一個眾數(shù)

原始數(shù)據:252828364242分類數(shù)據的眾數(shù)9解:這里的變量為“飲料品牌”,這是個分類變量,不同類型的飲料就是變量值所調查的100人中,購買可口可樂的人數(shù)最多,為35人,占被調查總人數(shù)的35%,因此眾數(shù)為“可口可樂”這一品牌,即

Mo=可口可樂不同飲料品牌的頻數(shù)分布飲料品牌頻數(shù)匯源果汁百事可樂可口可樂娃哈哈15203530合計100順序數(shù)據的眾數(shù)10解:這里的數(shù)據為順序數(shù)據。變量為“回答類別”甲城市中對住房表示不滿意的戶數(shù)最多,為108戶,因此眾數(shù)為“不滿意”這一類別,即

Mo=不滿意甲城市家庭對住房狀況評價的頻數(shù)分布回答類別甲城市戶數(shù)(戶)百分比(%)

非常不滿意

不滿意一般滿意非常滿意24108934530836311510合計300100.0數(shù)值型數(shù)據的眾數(shù)由眾數(shù)的定義可知,在單項數(shù)列的情形求眾數(shù),只需通過觀察,找出頻數(shù)最多的變量值,則該變量值即為眾數(shù)。在組距數(shù)列的條件下,則要先確定眾數(shù)所在組,然后按下面的近似公式計算。11數(shù)值型數(shù)據的眾數(shù)12某企業(yè)職工月工資資料表職工月工資(元)職工人數(shù)(人)800~1000101000~1200201200~1400501400~1600301600~180010合計120解:①確定眾數(shù)組。由于1200~1400組頻數(shù)最多,故該組即為眾數(shù)組。②根據近似公式計算眾數(shù)值。集中趨勢眾數(shù)中位數(shù)分位數(shù)平均數(shù)13中位數(shù)(median)按大小排序后處于中間位置上的值不受極端值的影響主要用于順序數(shù)據,也可用數(shù)值型數(shù)據,但不能用于分類數(shù)據14Me50%50%中位數(shù)(位置和數(shù)值的確定)15位置確定數(shù)值確定順序數(shù)據的中位數(shù)16解:中位數(shù)的位置為

(300+1)/2=150.5

從累計頻數(shù)看,中位數(shù)在“一般”這一組別中中位數(shù)為

Me=一般甲城市家庭對住房狀況評價的頻數(shù)分布回答類別甲城市戶數(shù)(戶)累計頻數(shù)

非常不滿意

不滿意一般滿意非常滿意2410893453024132225270300合計300—數(shù)值型數(shù)據的中位數(shù)17【例】9個家庭的人均月收入數(shù)據原始數(shù)據:15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789中位數(shù)1080數(shù)值型數(shù)據的中位數(shù)

18【例】:10個家庭的人均月收入數(shù)據排序:

660

75078085096010801250150016302000位置:12345678910數(shù)值型數(shù)據的中位數(shù)(分組數(shù)據)19身高(cm)人數(shù)(人)某班級學生身高資料表身高(cm)人數(shù)(人)人數(shù)累積向上累積向下累積16016517017518018524563126111720212119151041合計21——解:①確定中位數(shù)位次:

②確定中位數(shù)組:按人數(shù)向上累積(或向下累積)知,中位數(shù)在第三組。

③確定中位數(shù):

中位數(shù)組只有唯一的變量值170cm,故它就是所求的中位數(shù)。數(shù)值型數(shù)據的中位數(shù)(組距數(shù)列)在組距數(shù)列的情況下,確定中位數(shù)組后,由于這時中位數(shù)組是一區(qū)間,可用下面的近似公式計算中位數(shù):20數(shù)值型數(shù)據的中位數(shù)(分組數(shù)據)21

某企業(yè)職工月工資資料職工月工資(元)職工人數(shù)(人)向上累積800~100010101000~120020301200~140050801400~1600301101600~180010120合計120—①確定中位數(shù)位次。②確定中位數(shù)組。從向上累積欄中,找出首個大于等于中位數(shù)位次60的組,該組即為中位數(shù)組,因此中位數(shù)組為1200~1400元。③按近似公式計算中位數(shù)值。集中趨勢眾數(shù)中位數(shù)分位數(shù)平均數(shù)22四分位數(shù)(quartile)排序后處于25%和75%位置上的值不受極端值的影響主要用于順序數(shù)據,也可用于數(shù)值型數(shù)據,但不能用于分類數(shù)據23Q1Q2Q325%25%25%25%四分位數(shù)(位置的確定及計算)24的位次=的位次=順序數(shù)據的四分位數(shù)25解:Q1位置=(300)/4=75Q3位置=(3×300)/4=225

從累計頻數(shù)看,Q1在“不滿意”這一組別中;Q3在“一般”這一組別中四分位數(shù)為

Q1=不滿意

Q3=一般甲城市家庭對住房狀況評價的頻數(shù)分布回答類別甲城市戶數(shù)(戶)累計頻數(shù)

非常不滿意

不滿意一般滿意非常滿意2410893453024132225270300合計300—數(shù)值型數(shù)據的四分位數(shù)26

【例】9個家庭的人均月收入數(shù)據原始數(shù)據:15007507801080850960200012501630排序:75078085096010801250150016302000位置:1234

5

6789的位次=的位次=四分位數(shù)(位置的確定及計算)27的位次=先計算K=n/4。若K為整數(shù),則取第K個與第K+1個數(shù)的平均值。若K不是整數(shù),則取小數(shù)進位為整數(shù)的那一個數(shù)值。數(shù)值型數(shù)據的四分位數(shù)28

【例】9個家庭的人均月收入數(shù)據原始數(shù)據:15007507801080850960200012501630排序:75078085096010801250150016302000位置:1234

5

6789的位次=的位次=盒須圖分析法假設某公司經理想比較業(yè)務員小朱與小鐘最近8個星期股票交易的手續(xù)費收入,看看哪一個表現(xiàn)較佳。已知兩者的手續(xù)費如下:29小鐘306366788296106270小朱6482889096108128166兩人的最小值、中位數(shù)、最大值、下四分位數(shù)、上四分位數(shù),分別為多少?小朱與小鐘的業(yè)績小鐘:

最小值=30

、中位數(shù)=80、最大值=270、下四分位數(shù)=64.5、上四分位數(shù)=101小朱:最小值=64、中位數(shù)=93、最大值=166、下四分位數(shù)=85、上四分位數(shù)=11830小鐘306366788296106270小朱6482889096108128166盒須圖分析法(5數(shù)綜合)四分位數(shù)(位置的確定及計算)32的位次=的位次=第i個四分位數(shù)可按如下近似公式計算:

數(shù)值型數(shù)據的四分位數(shù)(分組數(shù)據)33

某企業(yè)職工月工資資料職工月工資(元)職工人數(shù)(人)向上累積800~100010101000~120020301200~140050801400~1600301101600~180010120合計120—①確定位次。②確定組。從向上累積欄中,找出首個大于等于90的組,該組即為中位數(shù)組,因此為1400~1600元。③按近似公式計算值。集中趨勢眾數(shù)中位數(shù)分位數(shù)平均數(shù)34數(shù)值型數(shù)據:平均數(shù)(簡單平均數(shù))35設一組數(shù)據為:x1,x2,…

,xn(總體數(shù)據xN)樣本平均數(shù)總體平均數(shù)數(shù)值型數(shù)據:平均數(shù)(加權平均數(shù))36設各組的組中值為:x1,x2,…,xk

相應的頻數(shù)為:f1,f2,…,fk樣本加權平均總體加權平均加權平均數(shù)37某電腦公司銷售量數(shù)據分組表按銷售量分組組中值(Mi)頻數(shù)(fi)xifi

140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084558013952640472537003315205017209001175合計—12022200加權平均數(shù)(權數(shù)對均值的影響)38

甲乙兩組各有10名學生,考試成績及其分布數(shù)據如下:

甲組:考試成績(x): 020100

人數(shù)分布(f):118

乙組:考試成績(x): 020100

人數(shù)分布(f):811股票的報酬率陳先生接到投資顧問公司業(yè)務員王先生的電話:”陳先生,去年我們虧損了50%,今年已經又賺回50%了”?!碧昧?”陳先生這下可放下心中的大石頭。可是當陳先生接到對賬單一看,原來的100萬元,現(xiàn)值只有75萬元?!斑?不是說賺回50%了嗎,怎么還是虧25萬元?”這是怎么回事呢?39股票的報酬率去年虧損50%,所以去年年底現(xiàn)值為

今年賺回50%,因此今年年底現(xiàn)值為算術平均數(shù)40(萬元)(萬元)收益率=

收益率=

幾何平均數(shù)(geometricmean)

n個變量值乘積的n次方根適用于對比率數(shù)據的平均主要用于計算平均增長率計算公式為可看作是平均數(shù)的一種變形41幾何平均數(shù)42

【例】某水泥生產企業(yè)1999年的水泥產量為100萬噸,2000年與1999年相比增長率為9%,2001年與2000年相比增長率為16%,2002年與2001年相比增長率為20%。求各年的年平均增長率年平均增長率=114.91%-1=14.91%股票的報酬率去年虧損50%,所以去年年底現(xiàn)值為

今年賺回50%,因此今年年底現(xiàn)值為幾何平均數(shù):43(萬元)(萬元)收益率=

收益率=

眾數(shù)、中位數(shù)和平均數(shù)的關系44左偏分布均值

中位數(shù)

眾數(shù)對稱分布

均值=中位數(shù)=

眾數(shù)右偏分布眾數(shù)

中位數(shù)均值眾數(shù)、中位數(shù)、平均數(shù)的特點和應用眾數(shù)不受極端值影響具有不惟一性數(shù)據分布偏斜程度較大且有明顯峰值時應用中位數(shù)不受極端值影響數(shù)據分布偏斜程度較大時應用平均數(shù)易受極端值影響數(shù)學性質優(yōu)良數(shù)據對稱分布或接近對稱分布時應用45數(shù)據類型與集中趨勢測度值46數(shù)據類型和所適用的集中趨勢測度值數(shù)據類型分類數(shù)據順序數(shù)據定距數(shù)據定比數(shù)據適用的測度值※眾數(shù)※中位數(shù)※平均數(shù)※平均數(shù)—四分位數(shù)眾數(shù)幾何平均數(shù)—眾數(shù)中位數(shù)

中位數(shù)——四分位數(shù)四分位數(shù)———眾數(shù)本章要點集中趨勢離散趨勢分類數(shù)據:異眾比率順序數(shù)據:極差與四分位差數(shù)值型數(shù)據:方差和標準差相對離散程度:離散系數(shù)47異眾比率對分類數(shù)據離散程度的測度非眾數(shù)組的頻數(shù)占總頻數(shù)的比例計算公式為用于衡量眾數(shù)的代表性48異眾比率49解:

在所調查的50人當中,購買其他品牌飲料的人數(shù)占70%,異眾比率比較大。因此,用“可口可樂”代表消費者購買飲料品牌的狀況,其代表性不是很好不同品牌飲料的頻數(shù)分布

飲料品牌頻數(shù)比例百分比(%)

可口可樂旭日升冰茶百事可樂匯源果汁露露15119690.300.220.180.120.183022181218合計501100本章要點集中趨勢離散趨勢分類數(shù)據:異眾比率順序數(shù)據:極差與四分位差數(shù)值型數(shù)據:方差和標準差相對離散程度:離散系數(shù)50極差(range)一組數(shù)據的最大值與最小值之差離散程度的最簡單測度值易受極端值影響未考慮數(shù)據的分布計算公式為51R

=max(xi)-min(xi)極差(全距)52全距相同但分散程度不同四分位差(quartiledeviation)對順序數(shù)據離散程度的測度也稱為內距或四分間距上四分位數(shù)與下四分位數(shù)之差

Qd=Q3

Q1反映了中間50%數(shù)據的離散程度不受極端值的影響用于衡量中位數(shù)的代表性53盒須圖分析法(5數(shù)綜合)四分位差55解:設非常不滿意為1,不滿意為2,一般為3,滿意為4,非常滿意為5

。已知

Q1

=不滿意=2

Q3

=一般=3四分位差為

Qd

=Q3

-

Q1

=3–2

=1甲城市家庭對住房狀況評價的頻數(shù)分布回答類別甲城市戶數(shù)(戶)累計頻數(shù)

非常不滿意

不滿意一般滿意非常滿意2410893453024132225270300合計300—本章要點集中趨勢離散趨勢分類數(shù)據:異眾比率順序數(shù)據:極差與四分位差數(shù)值型數(shù)據:方差和標準差相對離散程度:離散系數(shù)56平均差(meandeviation)各變量值與其平均數(shù)離差絕對值的平均數(shù)能全面反映一組數(shù)據的離散程度數(shù)學性質較差,實際中應用較少計算公式為57未分組數(shù)據組距分組數(shù)據平均差58某電腦公司銷售量數(shù)據平均差計算表按銷售量分組組中值(Mi)頻數(shù)(fi)140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合計—120—2040方差和標準差

(varianceandstandarddeviation)數(shù)據離散程度的最常用測度值反映了各變量值與均值的平均差異根據總體數(shù)據計算的,稱為總體方差或標準差,記為

2();根據樣本數(shù)據計算的,稱為樣本方差或標準差,記為s2(s)59總體方差和標準差

60未分組數(shù)據組距分組數(shù)據未分組數(shù)據組距分組數(shù)據方差的計算公式標準差的計算公式樣本方差和標準差61未分組數(shù)據組距分組數(shù)據未分組數(shù)據組距分組據數(shù)方差的計算公式標準差的計算公式注意:樣本方差用自由度n-1去除!自由度(degreeoffreedom)自由度是指附加給獨立的觀測值的約束或限制的個數(shù)從字面涵義來看,自由度是指一組數(shù)據中可以自由取值的個數(shù)62自由度(degreeoffreedom)樣本有3個數(shù)值,即x1=2,x2=4,x3=9,則

x=5。當

x

=5確定后,x1,x2和x3有兩個數(shù)據可以自由取值,另一個則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值為什么樣本方差的自由度是n-1呢?因為在計算離差平方和時,必須先求出樣本均值

x

,而

x則是附加給離差平方和的一個約束,因此,計算離差平方和時只有n-1個獨立的觀測值,而不是n個樣本方差用自由度去除,其原因可從多方面解釋,從實際應用角度看,在抽樣估計中,當用樣本方差s2去估計總體方差σ2時,它是σ2的無偏估計量63樣本標準差64某電腦公司銷售量數(shù)據平均差計算表按銷售量分組組中值(Mi)頻數(shù)(fi)140~150150~160160~170170~180180~190190~200200~210210~220220~230230~24014515516517518519520521522523549162720171084540302010010203040501602703202700170200240160250合計—120—55400數(shù)據分布數(shù)量的估計(經驗法則)65Z值若數(shù)據型態(tài)為鐘形時,為了解觀察值在數(shù)據中的位置,可計算Z值。樣本值的Z值:

母體

值的Z值:

66Z值設A班學生的成績平均為75分,標準偏差為10分,而A班同學甲的成績?yōu)?0分,則70分的Z值為:

表示同學甲的成績低于平均數(shù)0.5個標準偏差。67Z值又如B班學生的平均成績?yōu)?5分,標準偏差為10,而B班學生乙的成績?yōu)?0分,則70分的Z值為:

表示學生乙的成績高于平均數(shù)0.5個標準偏差。68切比雪夫不等式

(Chebyshev’sinequality)適用任何分布形狀的數(shù)據對于任意分布形態(tài)的數(shù)據,根據切比雪夫不等式,至少有1-1/k2的數(shù)據落在k個標準差之內。其中k是大于1的任意值,但不一定是整數(shù)69切比雪夫不等式

(Chebyshev’sinequality)對于k=2,3,4,該不等式的含義是至少有75%的數(shù)據落在平均數(shù)加減2個標準差的范圍之內至少有89%的數(shù)據落在平均數(shù)加減3個標準差的范圍之內至少有94%的數(shù)據落在平均數(shù)加減4個標準差的范圍之內70切比雪夫不等式

(Chebyshev’sinequality)100個學生統(tǒng)計學平均成績?yōu)?5分,標準差為5分:成績在7525=65~85分的同學至少有75位成績在7535=60~90分的同學至少有89位71本章要點集中趨勢離散趨勢分類數(shù)據:異眾比率順序數(shù)據:極差與四分位差數(shù)值型數(shù)據:方差和標準差相對離散程度:離散系數(shù)72離散系數(shù)(coefficientofvariation)標準差與其相應的均值之比對數(shù)據相對離散程度的測度消除了數(shù)據水平高低和計量單位的影響用于對不同組別數(shù)據離散程度的比較計算公式為73離散系數(shù)74某管理局所屬8家企業(yè)的產品銷售數(shù)據企業(yè)編號產品銷售額(萬元)x1銷售利潤(萬元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例】某管理局抽查了所屬的8家企業(yè),其產品銷售數(shù)據如表。試比較產品銷售額與銷售利潤的離散程度離散系數(shù)75結論:計算結果表明,v1<v2,說明產品銷售額的離散程度小于銷售利潤的離散程度v1=536.25309.19=0.577v2=32.521523.09=0.710數(shù)據類型與離散程度測度值76數(shù)據類型和所適用的離散程度測度值數(shù)據類型分類數(shù)據順序數(shù)據數(shù)值型數(shù)據適用的測度值※異眾比率※四分位差※方差或標準差—

異眾比率※離散系數(shù)(比較時用)——

平均差——

極差——

四分位差——

異眾比率本章要點集中趨勢離散趨勢偏態(tài)與峰態(tài)77偏態(tài)與峰態(tài)分布的形狀78扁平分布尖峰分布偏態(tài)峰態(tài)左偏分布右偏分布與標準正態(tài)分布比較!偏態(tài)系數(shù)偏態(tài)系數(shù)的計算公式:

其中偏態(tài)方向和程度的判別:按上面公式計算出來的偏度指標,其符號可以表明分布的偏斜方向,其絕對值大小則可以表明分布的偏斜程度。79偏態(tài)統(tǒng)計學家Pearson于1895年首次提出數(shù)據分布偏斜程度的測度偏態(tài)系數(shù)=0為對稱分布偏態(tài)系數(shù)>0為右偏分布偏態(tài)系數(shù)<0為左偏分布偏態(tài)系數(shù)大于1或小于-1,被稱為高度偏態(tài)分布;偏態(tài)系數(shù)在0.5~1或-0.5~-1之間,被認為是中等偏態(tài)分布;

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論