集中、離中、偏態(tài)與峰態(tài);

上傳人：扣*** IP屬地：寧夏上傳時(shí)間：2020-11-09 格式：PPT 頁(yè)數(shù)：115 大?。?54KB 積分：22 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩110頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)的集中趨勢(shì)、分散趨勢(shì)、偏度與峰度,數(shù)據(jù)的概括性度量,2.2 分布集中趨勢(shì)的測(cè)度 2.3 分布離散程度的測(cè)度 2.4 分布偏態(tài)與峰度的測(cè)度,數(shù)據(jù)分布的特征,集中趨勢(shì)的度量,分類數(shù)據(jù)：眾數(shù) 順序數(shù)據(jù)：中位數(shù) 數(shù)值型數(shù)據(jù)：平均數(shù) 眾數(shù)、中位數(shù)和平均數(shù)比較,集中趨勢(shì)(central tendency),一組數(shù)據(jù)向其中心值靠攏的傾向和程度測(cè)度集中趨勢(shì)就是尋找數(shù)據(jù)一般水平的代表值/中心值不同類型的數(shù)據(jù)用不同的集中趨勢(shì)測(cè)度值低層次數(shù)據(jù)的測(cè)度值適用于高層次的測(cè)量數(shù)據(jù)，但高層次數(shù)據(jù)的測(cè)度值并不適用于低層次的測(cè)量數(shù)據(jù),分類數(shù)據(jù)：眾數(shù),眾數(shù)(mode),一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值分布最高峰點(diǎn)所對(duì)應(yīng)的

2、數(shù)值即眾數(shù) 一種位置代表值，不受極端值的影響，應(yīng)用場(chǎng)合有限，一組數(shù)據(jù)可能沒有眾數(shù)或有幾個(gè)眾數(shù) 主要用于分類數(shù)據(jù)，也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù),眾數(shù)(不惟一性),無(wú)眾數(shù)原始數(shù)據(jù): 10 5 9 12 6 8,一個(gè)眾數(shù)原始數(shù)據(jù): 6 5 9 8 5 5,多于一個(gè)眾數(shù)原始數(shù)據(jù): 25 28 28 36 42 42,分類數(shù)據(jù)的眾數(shù) (例題分析),解：這里的變量為“飲料品牌”，這是個(gè)分類變量，不同類型的飲料就是變量值所調(diào)查的50人中，購(gòu)買可口可樂的人數(shù)最多，為15人，占被調(diào)查總?cè)藬?shù)的30%，因此眾數(shù)為“可口可樂”這一品牌，即 mo可口可樂,順序數(shù)據(jù)的眾數(shù) (例題分析),解：這里的數(shù)據(jù)為順序數(shù)據(jù)。變量

3、為“回答類別” 甲城市中對(duì)住房表示不滿意的戶數(shù)最多，為108戶，因此眾數(shù)為“不滿意”這一類別，即 mo不滿意,統(tǒng)計(jì)函數(shù)mode,數(shù)值型數(shù)據(jù)的眾數(shù) (步驟),下限公式：上限公式：,數(shù)值型數(shù)據(jù)的眾數(shù) (例題分析),順序數(shù)據(jù)：中位數(shù)和分位數(shù),中位數(shù)(median),排序后處于中間位置上的數(shù)據(jù) 1，4，7，11，13（113） 1，4，7，11，13，19,不受極端值的影響，具有穩(wěn)健（穩(wěn)定）性特點(diǎn) 主要用于順序數(shù)據(jù)，也可用數(shù)值型數(shù)據(jù)，但不能用于分類數(shù)據(jù),中位數(shù)(未分組資料),位置確定,數(shù)值確定,數(shù)值型數(shù)據(jù)的中位數(shù) (9個(gè)數(shù)據(jù)的算例),【例】 9個(gè)家庭的人均月收入數(shù)據(jù) 原始數(shù)據(jù): 1500 750 7

4、80 1080 850 960 2000 1250 1630 排序: 750 780 850 960 1080 1250 1500 1630 2000 位置: 1 2 3 4 5 6 7 8 9,中位數(shù) 1080,數(shù)值型數(shù)據(jù)的中位數(shù) (10個(gè)數(shù)據(jù)的算例),【例】：10個(gè)家庭的人均月收入數(shù)據(jù) 排序: 660 750 780 850 960 1080 1250 1500 1630 2000 位置: 1 2 3 4 5 6 7 8 9 10,統(tǒng)計(jì)函數(shù)median,順序數(shù)據(jù)的中位數(shù) (例題分析),解：中位數(shù)的位置為 (300+1)/2150.5 從累計(jì)頻數(shù)看，中位數(shù)在“一般”這一組別中中位數(shù)

5、為 me=一般,數(shù)值型數(shù)據(jù)的中位數(shù),數(shù)值型數(shù)據(jù)的中位數(shù) (例題分析),中位數(shù)位置：,中位數(shù)的性質(zhì),如果數(shù)據(jù)大量重復(fù)某一數(shù)值，此時(shí)中位數(shù)未必準(zhǔn)確，在解釋時(shí)要特別小心各變量值與中位數(shù)的離差絕對(duì)值之和最小，即,四分位數(shù)(quartile),排序后處于25%和75%位置上的值,不受極端值的影響主要用于順序數(shù)據(jù)，也可用于數(shù)值型數(shù)據(jù)，但不能用于分類數(shù)據(jù),四分位數(shù)(位置的確定),方法2：較準(zhǔn)確算法,方法1：定義算法,四分位數(shù)(位置的確定),方法3：其中表示中位數(shù)的位置取整。這樣計(jì)算出的四分位數(shù)的位置，要么是整數(shù)，要么在兩個(gè)數(shù)之間0.5的位置上方法4： excel給出的四分位數(shù)位置的確定方法如果位

6、置不是整數(shù)，則按比例分?jǐn)偽恢脙蓚?cè)數(shù)值的差值,順序數(shù)據(jù)的四分位數(shù) (例題分析),解：ql位置= (300)/4 =75 qu位置 =(3300)/4 =225 從累計(jì)頻數(shù)看， ql在“不滿意”這一組別中； qu在 “一般”這一組別中四分位數(shù)為 ql = 不滿意 qu = 一般,數(shù)值型數(shù)據(jù)的四分位數(shù) (9個(gè)數(shù)據(jù)的算例),【例】：9個(gè)家庭的人均月收入數(shù)據(jù)(4種方法計(jì)算) 原始數(shù)據(jù): 1500 750 780 1080 850 960 2000 1250 1630 排序: 750 780 850 960 1080 1250 1500 1630 2000 位置: 1 2 3 4 5 6 7 8

7、9,方法1,數(shù)值型數(shù)據(jù)的四分位數(shù) (9個(gè)數(shù)據(jù)的算例),【例】：9個(gè)家庭的人均月收入數(shù)據(jù) 原始數(shù)據(jù): 1500 750 780 1080 850 960 2000 1250 1630 排序: 750 780 850 960 1080 1250 1500 1630 2000 位置: 1 2 3 4 5 6 7 8 9,方法2,數(shù)值型數(shù)據(jù)的四分位數(shù) (9個(gè)數(shù)據(jù)的算例),【例】：9個(gè)家庭的人均月收入數(shù)據(jù) 原始數(shù)據(jù): 1500 750 780 1080 850 960 2000 1250 1630 排序: 750 780 850 960 1080 1250 1500 1630 2000 位置:

8、1 2 3 4 5 6 7 8 9,方法3,數(shù)值型數(shù)據(jù)的四分位數(shù) (9個(gè)數(shù)據(jù)的算例),【例】：9個(gè)家庭的人均月收入數(shù)據(jù) 原始數(shù)據(jù): 1500 750 780 1080 850 960 2000 1250 1630 排序: 750 780 850 960 1080 1250 1500 1630 2000 位置: 1 2 3 4 5 6 7 8 9,方法4,統(tǒng)計(jì)函數(shù)quartile,數(shù)值型數(shù)據(jù)：平均數(shù),算術(shù)平均數(shù)(mean),也稱為均值集中趨勢(shì)的最常用、最重要的測(cè)度值分子分母必須屬于同一總體易受極端值的影響有簡(jiǎn)單平均數(shù)和加權(quán)平均數(shù)之分,http:/www.faceresearch.or

9、g/demos/average,簡(jiǎn)單算術(shù)平均數(shù)(simple mean),設(shè)一組數(shù)據(jù)為：x1 ，x2 ，，xn (總體數(shù)據(jù)xn),簡(jiǎn)單算術(shù)平均數(shù) （未分組資料）,例：設(shè)有一組大學(xué)生的月生活費(fèi)支出為： 150，200，240，300，350，500（單位：元）。則平均月生活費(fèi)支出=150+200+240+300+350+500 =290,加權(quán)平均數(shù),例：有一班級(jí)的大學(xué)生月生活費(fèi)支出如下表：月生活費(fèi)（元）x 人數(shù)（人）f 頻率（%） 150 3 5.36 200 5 8.93 240 7 12.50 300 24 42.85 350 16 28.57 500 1 1.79 合計(jì) 56 10

10、0.00 則平均生活費(fèi)支出？ =（150*3+200*5+240*7+300*24+350*16+500*1）/56=293.39 （為什么由分組資料計(jì)算平均指標(biāo)不能將各組的標(biāo)志值簡(jiǎn)單平均？）,加權(quán)平均數(shù) (weighted mean),設(shè)各組的標(biāo)志值為： x1 ，x2 ，，xk 相應(yīng)的頻數(shù)為： f1 ， f2 ，，fk,加權(quán)平均,加權(quán)平均數(shù)(權(quán)數(shù)對(duì)均值的影響),甲乙兩組各有10名學(xué)生，考試成績(jī)及其分布數(shù)據(jù)如下甲組：考試成績(jī)（x ）: 0 20 100 人數(shù)分布（f ）：1 1 8 乙組：考試成績(jī)（x）: 0 20 100 人數(shù)分布（f ）：8 1 1,統(tǒng)計(jì)函數(shù)average,加權(quán)平

11、均數(shù)(權(quán)數(shù)對(duì)均值的影響),平均數(shù)的大小不僅取決于各組標(biāo)志值 x的大小，同時(shí)還受各組次數(shù)f多少的影響。各組標(biāo)志值次數(shù)的多少在平均數(shù)的計(jì)算中具有權(quán)衡輕重的作用，因而把各組的次數(shù)又稱為權(quán)數(shù)，用各組的次數(shù)去乘以各組的標(biāo)志值，就是對(duì)各組的標(biāo)志值進(jìn)行加權(quán)。所以，用這種方法計(jì)算的算術(shù)平均數(shù)，稱為加權(quán)算術(shù)平均數(shù)。如果各組次數(shù)完全相同，結(jié)果會(huì)怎樣？,實(shí)務(wù)中給定的權(quán)數(shù)資料，既可以是絕對(duì)數(shù)，也可以是相對(duì)數(shù)，即頻率或稱權(quán)數(shù)系數(shù)。,加權(quán)平均數(shù)(權(quán)數(shù)為相對(duì)數(shù)),月生活費(fèi)（元）人數(shù)（%） 150 5.36 200 8.93 240 12.50 300 42.85 350 28.57 500 1.79 合計(jì) 100.

12、00,加權(quán)平均數(shù) (組距數(shù)列),設(shè)各組的組中值為： m1 ，m2 ，，mk 相應(yīng)的頻數(shù)為： f1 ， f2 ，，fk,加權(quán)平均,加權(quán)平均數(shù) (例題分析),組中值,用組中值代表各組實(shí)際數(shù)據(jù) 假定各組數(shù)據(jù)在組中均勻分布各數(shù)據(jù)與組中值的誤差可以相互抵消,平均數(shù)(數(shù)學(xué)性質(zhì)),1.各變量值與平均數(shù)的離差之和等于零,2. 各變量值與平均數(shù)的離差平方和最小,3. 均值是統(tǒng)計(jì)分布的均衡點(diǎn),中位數(shù)和平均數(shù)數(shù)學(xué)性質(zhì)的驗(yàn)證,幾何平均數(shù)(geometric mean),n 個(gè)變量值乘積的 n 次方根適用于對(duì)比率數(shù)據(jù)的平均主要用于計(jì)算平均增長(zhǎng)率、平均發(fā)展速度計(jì)算公式為,5. 可看作是平均數(shù)的一種變形,幾何

13、平均數(shù)（例題）,表2.13 我國(guó)1998-2002年的gdp,表2.14 我國(guó)1998-2002年的gdp發(fā)展速度,幾何平均數(shù) (例題分析),【例】某水泥生產(chǎn)企業(yè)1999年的水泥產(chǎn)量為100萬(wàn)噸，2000年與1999年相比增長(zhǎng)率為9%，2001年與2000年相比增長(zhǎng)率為16%，2002年與2001年相比增長(zhǎng)率為20%。求各年的年平均增長(zhǎng)率,年平均增長(zhǎng)率114.91%-1=14.91%,幾何平均數(shù) (例題分析),【例】一位投資者購(gòu)持有一種股票，在2000、2001、2002和2003年收益率分別為4.5%、2.1%、25.5%、1.9%。計(jì)算該投資者在這四年內(nèi)的平均收益率,？算術(shù)平均：,幾何平均

14、：,統(tǒng)計(jì)函數(shù)geomean,切尾均值(trimmed mean),去掉大小兩端的若干數(shù)值后計(jì)算中間數(shù)據(jù)的均值在電視大獎(jiǎng)賽、體育比賽及需要人們進(jìn)行綜合評(píng)價(jià)的比賽項(xiàng)目中已得到廣泛應(yīng)用計(jì)算公式為,n 表示觀察值的個(gè)數(shù)；表示切尾系數(shù)，,切尾均值 (例題分析),【例】謀次比賽共有11名評(píng)委，對(duì)某位歌手的給分分別是：,經(jīng)整理得到順序統(tǒng)計(jì)量值為,去掉一個(gè)最高分和一個(gè)最低分，取1/11,切尾均值（trimmed mean）,=0，切尾均值就是算數(shù)平均數(shù) 1/2，切尾均值就是中位數(shù) 改變的值可以選擇集中趨勢(shì)的測(cè)度值切尾均值是結(jié)合了均值利用數(shù)據(jù)信息充分和中位數(shù)不受極端值影響的兩個(gè)有點(diǎn)而形成的新型統(tǒng)計(jì)量,眾數(shù)

15、、中位數(shù)和均值的關(guān)系,眾數(shù)、中位數(shù)和平均數(shù)的關(guān)系,眾數(shù)、中位數(shù)和平均數(shù)的關(guān)系,取決于次數(shù)分布狀況對(duì)稱分布時(shí)，中位數(shù)、眾數(shù)和算術(shù)平均數(shù)合而為一，即： me =m0= x 在非對(duì)稱分布的情況下，中位數(shù)、眾數(shù)和算術(shù)平均數(shù)之間存在一定的差別。右偏，則三者之間的關(guān)系是 : m0 me x；左偏，則三者之間的關(guān)系是: m0 me x。無(wú)論是右偏還是左偏，中位數(shù)總是介于算術(shù)平均數(shù)和眾數(shù)之間。,眾數(shù)、中位數(shù)和平均數(shù)的關(guān)系,適度偏態(tài)時(shí)，x-me的距離是x-m0的1/3。如果x-me0,說明右偏如果x-me0,說明左偏如果x-me較大，說明偏態(tài)較嚴(yán)重，反之，較輕,眾數(shù)、中位數(shù)、平均數(shù)的特點(diǎn)和應(yīng)用,眾

16、數(shù) 優(yōu)點(diǎn)：不受極端值影響缺點(diǎn)：具有不惟一性偏態(tài)分布且有明顯峰值時(shí)應(yīng)用比均值好中位數(shù) 優(yōu)點(diǎn)：不受極端值影響數(shù)據(jù)偏態(tài)分布時(shí)應(yīng)用比均值好平均數(shù) 優(yōu)點(diǎn)：數(shù)學(xué)性質(zhì)優(yōu)良缺點(diǎn)：易受極端值影響數(shù)據(jù)對(duì)稱分布或接近對(duì)稱分布時(shí)應(yīng)用,數(shù)據(jù)類型與集中趨勢(shì)測(cè)度值,分布離散程度的測(cè)度,集中趨勢(shì)只是數(shù)據(jù)分布的一個(gè)特征，它所反映的是總體各單位變量值向其中心值聚集的程度。而各變量值之間的離散和差異狀況如何，均值的代表性有多大，這就需要用離中程度對(duì)其進(jìn)行考察。,案例1,案例有兩組男生身高分別為：甲組（cm）：168，172，172，173，175，190 乙組（cm）：168，172，175，175，178，182

17、兩組平均身高均為175cm，它們的代表性一樣嗎？,案例2,案例有男、女兩組身高：男組（cm）: 168，172，172，173，175，190 女組（cm）：163，164，165，165，167，171 男組平均身高175cm；女組平均身高165.83cm。思考：兩組平均身高的代表性如何評(píng)價(jià)？,離散程度,數(shù)據(jù)分布的另一個(gè)重要特征反映各變量值遠(yuǎn)離其中心值的程度(離散程度) 從另一個(gè)側(cè)面說明了集中趨勢(shì)測(cè)度值的代表程度變量值變異大，離散程度就大，均值的代表性就小。反之亦然。,離散程度,分類數(shù)據(jù)：異眾比率順序數(shù)據(jù)：四分位差數(shù)值型數(shù)據(jù)：方差和標(biāo)準(zhǔn)差相對(duì)位置度量：離散系數(shù),異眾比率(v

18、ariation ratio),1.對(duì)分類數(shù)據(jù)離散程度的測(cè)度 2.非眾數(shù)組的頻數(shù)占總頻數(shù)的比例 3.計(jì)算公式為,4. 用于衡量眾數(shù)的代表性,異眾比率 (例題分析),解：在所調(diào)查的50人當(dāng)中，購(gòu)買其他品牌飲料的人數(shù)占70%，異眾比率比較大。因此，用“可口可樂”代表消費(fèi)者購(gòu)買飲料品牌的狀況，其代表性不是很好,內(nèi)距（inter-quartile range，iqr）,也稱四分位差，是兩個(gè)四分位數(shù)之差內(nèi)距=上四分位數(shù)-下四分位數(shù)=q3-q1 極差容易受極端值影響，內(nèi)距基本不受極端值影響內(nèi)距反映的是中間50%數(shù)值大小的差異，,四分位差 (例題分析),解：設(shè)非常不滿意為1,不滿意為2, 一般為3,

19、滿意為 4, 非常滿意為5 。已知 ql = 不滿意 = 2 qu = 一般 = 3 四分位差為 qd = qu - ql = 3 2 = 1,極差(range),又稱全距。一組數(shù)據(jù)的最大值與最小值之差離散程度的最簡(jiǎn)單測(cè)度值易受極端值影響未考慮數(shù)據(jù)的分布,r = max(xi) - min(xi),計(jì)算公式為,平均差(mean deviation),各變量值與其平均數(shù)離差絕對(duì)值的平均數(shù) 能全面反映一組數(shù)據(jù)的離散程度數(shù)學(xué)性質(zhì)較差，實(shí)際中應(yīng)用較少,計(jì)算公式為,未分組數(shù)據(jù),組距分組數(shù)據(jù),平均差 (例題分析),平均差 (例題分析),含義：每一天的銷售量同平均數(shù)相比，平均相差17臺(tái),統(tǒng)計(jì)函數(shù)

20、avedev,方差和標(biāo)準(zhǔn)差(variance and standard deviation),數(shù)據(jù)離散程度的最常用測(cè)度值反映了各變量值與均值的平均差異根據(jù)總體數(shù)據(jù)計(jì)算的，稱為總體方差或標(biāo)準(zhǔn)差，記為2()；根據(jù)樣本數(shù)據(jù)計(jì)算的，稱為樣本方差或標(biāo)準(zhǔn)差，記為s2(s),標(biāo)準(zhǔn)差與平均差,標(biāo)準(zhǔn)差與平均差雖都是變量值與均值的平均離差，但不同的是平均差所平均的是離差絕對(duì)值，而標(biāo)準(zhǔn)差平均的是離差平方。標(biāo)準(zhǔn)差徹底解決了正負(fù)離差不能相加的問題。它在抽樣調(diào)查、相關(guān)分析中應(yīng)用較多，所以標(biāo)準(zhǔn)差是應(yīng)用較為廣泛的一種離中趨勢(shì)的測(cè)度值。,總體方差和標(biāo)準(zhǔn)差 (population variance and standard

21、 deviation),未分組數(shù)據(jù),組距分組數(shù)據(jù),未分組數(shù)據(jù),組距分組數(shù)據(jù),方差的計(jì)算公式,標(biāo)準(zhǔn)差的計(jì)算公式,樣本方差和標(biāo)準(zhǔn)差 (simple variance and standard deviation),未分組數(shù)據(jù),組距分組數(shù)據(jù),未分組數(shù)據(jù),組距分組數(shù)據(jù),方差的計(jì)算公式,標(biāo)準(zhǔn)差的計(jì)算公式,自由度 (degree of freedom),自由度是指附加給獨(dú)立的觀測(cè)值的約束或限制的個(gè)數(shù) 從字面涵義來(lái)看，自由度是指一組數(shù)據(jù)中可以自由取值的個(gè)數(shù) 當(dāng)樣本數(shù)據(jù)的個(gè)數(shù)為n時(shí)，若樣本平均數(shù)確定后，則附加給n個(gè)觀測(cè)值的約束個(gè)數(shù)就是1個(gè)，因此只有n-1個(gè)數(shù)據(jù)可以自由取值，其中必有一個(gè)數(shù)據(jù)不能自由取值按著這

22、一邏輯，如果對(duì)n個(gè)觀測(cè)值附加的約束個(gè)數(shù)為k個(gè)，自由度則為n-k,自由度 (degree of freedom),樣本有3個(gè)數(shù)值，即x1=2，x2=4，x3=9，則 x = 5。當(dāng) x = 5 確定后，x1，x2和x3有兩個(gè)數(shù)據(jù)可以自由取值，另一個(gè)則不能自由取值，比如x1=6，x2=7，那么x3則必然取2，而不能取其他值為什么樣本方差的自由度是n-1呢？因?yàn)樵谟?jì)算離差平方和時(shí)，必須先求出樣本均值x ，而x則是附加給離差平方和的一個(gè)約束，因此，計(jì)算離差平方和時(shí)只有n-1個(gè)獨(dú)立的觀測(cè)值，而不是n個(gè) 樣本方差用自由度去除，其原因可從多方面解釋，從實(shí)際應(yīng)用角度看，在抽樣估計(jì)中，當(dāng)用樣本方差s2去估計(jì)總

23、體方差2時(shí)，它是2的無(wú)偏估計(jì)量,樣本標(biāo)準(zhǔn)差 (例題分析),樣本標(biāo)準(zhǔn)差 (例題分析),含義：每一天的銷售量與平均數(shù)相比，平均相差21.58臺(tái),統(tǒng)計(jì)函數(shù)stdev,方差的數(shù)學(xué)性質(zhì),變量的方差等于變量平方的平均數(shù)減去變量平均數(shù)的平方。變量對(duì)算術(shù)平均數(shù)的方差，小于對(duì)任意常數(shù)的方差。,相對(duì)離散程度,平均差和標(biāo)準(zhǔn)差其數(shù)值大小，不僅決定于各標(biāo)志值的差異程度，還決定于數(shù)列平均水平的高低，同時(shí)它們具有與標(biāo)志值相同的名數(shù)。對(duì)于具有不同平均水平和不同計(jì)量單位的數(shù)列，就不能直接利用標(biāo)準(zhǔn)差等來(lái)比較其標(biāo)志變動(dòng)程度的大小，而需要用變異系數(shù)，以消除不同數(shù)列水平的影響。,離散系數(shù)(coefficient of vari

24、ation),1. 又稱變異系數(shù)。標(biāo)準(zhǔn)差（或平均差）與其相應(yīng)的均值之比對(duì)數(shù)據(jù)相對(duì)離散程度的測(cè)度消除了數(shù)據(jù)水平高低和計(jì)量單位的影響 4.用于對(duì)不同組別數(shù)據(jù)離散程度的比較 5. 計(jì)算公式為,離散系數(shù) (例題分析),【例】某管理局抽查了所屬的8家企業(yè)，其產(chǎn)品銷售數(shù)據(jù)如表。試比較產(chǎn)品銷售額與銷售利潤(rùn)的離散程度,離散系數(shù) (例題分析),結(jié)論：計(jì)算結(jié)果表明，v1v2，說明產(chǎn)品銷售額的離散程度小于銷售利潤(rùn)的離散程度,標(biāo)準(zhǔn)分?jǐn)?shù)(standard score),1. 也稱標(biāo)準(zhǔn)化值 2.對(duì)某一個(gè)值在一組數(shù)據(jù)中相對(duì)位置的度量 3.可用于判斷一組數(shù)據(jù)是否有離群點(diǎn) 4.用于對(duì)變量的標(biāo)準(zhǔn)化處理 5. 計(jì)算公式為

25、,標(biāo)準(zhǔn)分?jǐn)?shù)(性質(zhì)),均值等于0 2.方差等于1,標(biāo)準(zhǔn)分?jǐn)?shù)(性質(zhì)),z分?jǐn)?shù)只是將原始數(shù)據(jù)進(jìn)行了線性變換，它并沒有改變一個(gè)數(shù)據(jù)在改組數(shù)據(jù)中的位置，也沒有改變?cè)摻M數(shù)分布的形狀，而只是將該組數(shù)據(jù)變?yōu)榫禐?，標(biāo)準(zhǔn)差為1。,標(biāo)準(zhǔn)化值 (例題分析),經(jīng)驗(yàn)法則,經(jīng)驗(yàn)法則表明：當(dāng)一組數(shù)據(jù)對(duì)稱分布時(shí) 約有68%的數(shù)據(jù)在平均數(shù)加減1個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi) 約有95%的數(shù)據(jù)在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi) 約有99%的數(shù)據(jù)在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi),切比雪夫不等式(chebyshevs inequality ),對(duì)于任一隨機(jī)變量x ,若ex與dx均存在,則對(duì)任意0, 恒有p|x-ex|=1-dx/2 如果一組數(shù)據(jù)

26、不是對(duì)稱分布，經(jīng)驗(yàn)法則就不再使用，這時(shí)可使用切比雪夫不等式，它對(duì)任何分布形狀的數(shù)據(jù)都適用切比雪夫不等式提供的是“下界”，也就是“所占比例至少和多少” 對(duì)于任意分布形態(tài)的數(shù)據(jù)，根據(jù)切比雪夫不等式，至少有1-1/k2數(shù)據(jù)落在k個(gè)標(biāo)準(zhǔn)差之內(nèi)。其中k是大于1的任意值，但不一定是整數(shù) 在任何數(shù)據(jù)集中，與平均數(shù)超過k倍標(biāo)準(zhǔn)差的數(shù)據(jù)占的比例至多是1/k2。,的,切比雪夫不等式(chebyshevs inequality ),對(duì)于k=2，3，4，該不等式的含義是至少有75%的數(shù)據(jù)落在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi) 至少有89%的數(shù)據(jù)落在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi) 至少有94%的數(shù)據(jù)落在平均數(shù)加減4個(gè)標(biāo)

27、準(zhǔn)差的范圍之內(nèi) 若一班有36個(gè)學(xué)生，而在一次考試中，平均分是80分，標(biāo)準(zhǔn)差是10分，我們便可得出結(jié)論：少於50分（與平均相差3個(gè)標(biāo)準(zhǔn)差以上）的人，數(shù)目不多於4個(gè)（=36*1/9,箱線圖 (box plot),用于顯示未分組的原始數(shù)據(jù)的分布由一組數(shù)據(jù)的5個(gè)特征值繪制而成，它由一個(gè)箱子和兩條線段組成繪制方法首先找出一組數(shù)據(jù)的5個(gè)特征值，即最大值、最小值、中位數(shù)me和兩個(gè)四分位數(shù)(下四分位數(shù)ql和上四分位數(shù)qu) 連接兩個(gè)四分位數(shù)畫出箱子，再將兩個(gè)極值點(diǎn)與箱子相連接該箱線圖也稱為median/quart./range箱線圖,未分組數(shù)據(jù)單批數(shù)據(jù)箱線圖(箱線圖的構(gòu)成),中位數(shù),4,6,8,10,

28、12,median/quart./range箱線圖,未分組數(shù)據(jù)單批數(shù)據(jù)箱線圖(例題分析),分布的形狀與箱線圖,不同分布的箱線圖,未分組數(shù)據(jù)多批數(shù)據(jù)箱線圖 (例題分析),【例】從某大學(xué)經(jīng)濟(jì)管理專業(yè)二年級(jí)學(xué)生中隨機(jī)抽取11人，對(duì)8門主要課程的考試成績(jī)進(jìn)行調(diào)查，所得結(jié)果如右表。試?yán)L制各科考試成績(jī)的批比較箱線圖，并分析各科考試成績(jī)的分布特征,未分組數(shù)據(jù)多批數(shù)據(jù)箱線圖(例題分析median/quart./range),8門課程考試成績(jī)的median/quart./range箱線圖,11名學(xué)生8門課程考試成績(jī)的median/quart./range箱線圖,未分組數(shù)據(jù)多批數(shù)據(jù)箱線圖 (例題分析median

29、/quart./range),分布偏態(tài)與峰度的測(cè)度,偏態(tài)與峰態(tài)分布的形狀,偏態(tài),峰態(tài),偏態(tài)(skewness),統(tǒng)計(jì)學(xué)家pearson于1895年首次提出數(shù)據(jù)分布偏斜方向和程度的測(cè)度偏態(tài)系數(shù)的計(jì)算方式皮爾遜系數(shù)法動(dòng)差法,偏態(tài)系數(shù)皮爾遜偏態(tài)系數(shù)法,pearson偏態(tài)系數(shù)是根據(jù)眾數(shù)、中位數(shù)與均值各自的性質(zhì)，通過比較眾數(shù)或中位數(shù)與均值來(lái)衡量偏斜度的以平均值與中位數(shù)之差對(duì)標(biāo)準(zhǔn)差之比率來(lái)衡量偏斜的程度，偏態(tài)系數(shù)小于0，因?yàn)槠骄鶖?shù)在眾數(shù)之左，是一種左偏的分布，又稱為負(fù)偏。偏態(tài)系數(shù)大于0，因?yàn)榫翟诒姅?shù)之右，是一種右偏的分布，又稱為正偏。偏態(tài)系數(shù)的變動(dòng)范圍為-3sk+3。當(dāng)sk=0時(shí)，表示對(duì)

30、稱分布；當(dāng)sk=3時(shí)，表示極右偏態(tài)；當(dāng)sk=-3時(shí)，表示極左偏態(tài)。,偏態(tài)系數(shù)中心矩偏態(tài)測(cè)度法,中心矩指各個(gè)變量值與平均數(shù)的離差的k次方的平均值，也稱中心動(dòng)差。其計(jì)算公式為： k代表中心動(dòng)差的階數(shù) k=1，一階中心矩，mk=0 k=2，二階中心矩，mk=方差 k=3，三階中心矩， k=4，四階中心矩，,偏態(tài)系數(shù) (coefficient of skewness),統(tǒng)計(jì)上常以三階中心矩作為測(cè)定偏態(tài)的一個(gè)重要指標(biāo)。并且常用三階中心矩m3除以標(biāo)準(zhǔn)差的三次方3 作為偏態(tài)系數(shù)，以測(cè)定數(shù)據(jù)分布的相對(duì)偏斜程度。偏態(tài)系數(shù)：當(dāng)分布對(duì)稱時(shí)， 3 =0；當(dāng)分布不對(duì)稱時(shí)，則形成了正或負(fù)的偏態(tài)系數(shù)。當(dāng)30時(shí)，說明分布為右偏，并且值越大，說明右偏斜的程度越高；當(dāng)3 0時(shí)，說明分布為左偏，值越小，左偏程度越高。,偏態(tài)系數(shù) (例題分析),偏態(tài)系數(shù) (例題分析),結(jié)論：偏態(tài)系數(shù)為正值，但與0的差異不大，說明電腦銷售量為輕微右偏分布，即銷售量較少的天數(shù)占據(jù)多數(shù)，而銷售量較多的天數(shù)則占少數(shù)

人人文庫(kù)> 全部分類> 生活休閑 > 科普知識(shí)

溫馨提示

1. 本站所有資源如無(wú)特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

集中、離中、偏態(tài)與峰態(tài);

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

集中、離中、偏態(tài)與峰態(tài);

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

集中、離中、偏態(tài)與峰態(tài);