




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1統(tǒng)計(jì)學(xué)
Statistics1統(tǒng)計(jì)學(xué)
Statistics2第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.1“位置”的度量4.2離散程度的度量4.3分布形狀的度量4.4標(biāo)準(zhǔn)得分4.5小結(jié)2第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.1“位置”的度3數(shù)據(jù)的描述統(tǒng)計(jì)量不包含總體的任何未知參數(shù)的樣本的函數(shù),稱為統(tǒng)計(jì)量(statistic)。不同的統(tǒng)計(jì)量可以從不同的角度描述數(shù)據(jù)的分布特征,主要包括三個(gè)方面:一是數(shù)據(jù)的“位置”;二是數(shù)據(jù)的離散程度;三是數(shù)據(jù)的分布形狀。3數(shù)據(jù)的描述統(tǒng)計(jì)量不包含總體的任何未知參數(shù)的樣本的函數(shù),稱為4第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.1“位置”的度量4第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.1“位置”的度量5“位置”的度量——均值均值(mean)是將一組數(shù)據(jù)加總后除以數(shù)據(jù)的個(gè)數(shù)得到的結(jié)果。設(shè)一組樣本數(shù)據(jù)為
,樣本數(shù)據(jù)的個(gè)數(shù)(即樣本量)為n,用
表示樣本均值,其計(jì)算公式為:根據(jù)上式計(jì)算得到的平均數(shù)也稱為簡單平均數(shù)(simplemean)或算術(shù)平均數(shù)(arithmeticaverage)。5“位置”的度量——均值均值(mean)是將一組數(shù)據(jù)加總后除6“位置”的度量——均值【例4.1】2018年10月25日,美國財(cái)經(jīng)雜志《福布斯》(Forbes)發(fā)布了2018福布斯中國富豪榜,排名前十位的企業(yè)家財(cái)富值如表4-1,試計(jì)算十位企業(yè)家的平均財(cái)富值。表4-12018年福布斯中國十大富豪財(cái)富值單位:億元解:如果用均值來反映這十位企業(yè)家的平均財(cái)富水平,根據(jù)公式計(jì)算得到6“位置”的度量——均值【例4.1】2018年10月25日,7“位置”的度量——均值由于均值用到了原始數(shù)據(jù)的所有信息,相當(dāng)于是一組數(shù)據(jù)的“重心”位置,因此在現(xiàn)實(shí)中應(yīng)用非常廣泛。但也正是因?yàn)榫档倪@一特點(diǎn),任何一個(gè)數(shù)據(jù)的取值發(fā)生變化,均值也會(huì)隨之改變。如果一組數(shù)據(jù)中出現(xiàn)了極端值(極大值或極小值),作為“重心”的均值就會(huì)向極端值傾斜,對平均水平的代表性可能就會(huì)受到較大影響。7“位置”的度量——均值由于均值用到了原始數(shù)據(jù)的所有信息,相8“位置”的度量——中位數(shù)中位數(shù)(median)是將一組數(shù)據(jù)排序后位于中間位置的那個(gè)數(shù)值。如果一組數(shù)據(jù)
的個(gè)數(shù)n是奇數(shù),那么能夠找到正好對應(yīng)中間位置的數(shù)值即為中位數(shù);如果n是偶數(shù),中位數(shù)就等于中間兩個(gè)數(shù)值的簡單平均數(shù)。設(shè)排序后的數(shù)據(jù)依次為
,用
表示樣本中位數(shù),其計(jì)算公式為:8“位置”的度量——中位數(shù)中位數(shù)(median)是將一組數(shù)據(jù)9“位置”的度量——中位數(shù)【例4.2】沿用例4.1的數(shù)據(jù),試計(jì)算十位企業(yè)家財(cái)富值的中位數(shù)。解:表4-1已經(jīng)給出了按照財(cái)富值排序后的十位企業(yè)家,由于n是偶數(shù),位于中間的是排名第5和第6的兩位企業(yè)家,其財(cái)富值分別是1345.5億元和1179.9億元,因此根據(jù)公式計(jì)算得到9“位置”的度量——中位數(shù)【例4.2】沿用例4.1的數(shù)據(jù),試10“位置”的度量——中位數(shù)中位數(shù)主要由一組數(shù)據(jù)的大小順序和位于中間位置的數(shù)值決定,并沒有充分利用每一個(gè)數(shù)據(jù)的取值信息。但也正因?yàn)榇?,中位?shù)對數(shù)據(jù)中可能存在的極端值并不敏感,即使其他所有數(shù)據(jù)的取值都發(fā)生變化,只要位于中間位置的數(shù)值不變,中位數(shù)就將保持不變。10“位置”的度量——中位數(shù)中位數(shù)主要由一組數(shù)據(jù)的大小順序和11“位置”的度量——四分位數(shù)四分位數(shù)(quartile)是將一組數(shù)據(jù)由小到大排序后,分別位于25%、50%和75%位置上的三個(gè)數(shù)。四分位數(shù)將數(shù)據(jù)等分為四份,第二四分位數(shù)就是中位數(shù)(50%分位數(shù)),也可表示為Q50%。位于75%位置的第一四分位數(shù)稱為上四分位數(shù),記為Q75%,表示該組數(shù)據(jù)中有75%的數(shù)值小于或等于它。位于25%位置的第三四分位數(shù)則稱為下四分位數(shù),記為Q25%,表示該組數(shù)據(jù)中有25%的數(shù)值小于或等于它。11“位置”的度量——四分位數(shù)四分位數(shù)(quartile)是12“位置”的度量——四分位數(shù)上下四分位數(shù)的計(jì)算方法與中位數(shù)類似,先將數(shù)據(jù)由小到大排序,然后確定四分位數(shù)所在的位置:Q25%位置=,Q75%位置=如果根據(jù)公式計(jì)算得到的位置是整數(shù),四分位數(shù)就是該位置對應(yīng)的數(shù)值,否則就要對該位置左右兩個(gè)數(shù)值進(jìn)行相應(yīng)的線性插值。12“位置”的度量——四分位數(shù)上下四分位數(shù)的計(jì)算方法與中位數(shù)13“位置”的度量——四分位數(shù)【例4.3】沿用例4.1的數(shù)據(jù),試計(jì)算十位企業(yè)家財(cái)富值的上下四分位數(shù)。解:首先,需要將十位企業(yè)家按照財(cái)富值由低到高排序(與表4-1中的排序恰好相反),如表4-2所示。表4-22018年福布斯中國十大富豪財(cái)富值(由低到高排序)單位:億元然后,根據(jù)公式計(jì)算得到上下四分位數(shù)位置分別為:Q25%位置=(10+1)/4=2.75;Q75%位置=3×(10+1)/4=8.25。因此,下四分位數(shù)位于表4-2中排在第2和第3的兩位企業(yè)家財(cái)富值之間0.75的位置,即Q25%=979.8+(1007.4-979.8)×0.75=1000.5億元;上四分位數(shù)位于表4-2中排在第8和第9的兩位企業(yè)家財(cái)富值之間0.25的位置,即Q75%=2125.2+(2263.2-2125.2)×0.25=2160億元。13“位置”的度量——四分位數(shù)【例4.3】沿用例4.1的數(shù)據(jù)14“位置”的度量——百分位數(shù)如果一組數(shù)據(jù)由小到大排序后,用99個(gè)點(diǎn)將數(shù)據(jù)劃分成100等份,那么這些分位點(diǎn)上對應(yīng)的數(shù)值就是百分位數(shù)(percentile)。人們可以根據(jù)需要計(jì)算k%分位數(shù),表示數(shù)據(jù)中有k%的數(shù)值小于或等于它。將一組數(shù)據(jù)由小到大排序后,百分位數(shù)的位置為:k%分位數(shù)位置=(n+1)×k%如果根據(jù)公式計(jì)算得到的位置是整數(shù),k%分位數(shù)就是該位置對應(yīng)的數(shù)值,否則就要對該位置左右兩個(gè)數(shù)值進(jìn)行相應(yīng)的線性插值。14“位置”的度量——百分位數(shù)如果一組數(shù)據(jù)由小到大排序后,用15“位置”的度量——百分位數(shù)【例4.4】沿用例4.3的數(shù)據(jù),試計(jì)算十位企業(yè)家財(cái)富值的10%分位數(shù)和90%分位數(shù)。解:表4-2已經(jīng)給出十位企業(yè)家財(cái)富值由低到高的排序結(jié)果,根據(jù)公式計(jì)算得到該例中的10%和90%分位數(shù)的位置分別為:10%分位數(shù)位置=(10+1)×10%=1.1因此,10%分位數(shù)位于表4-2中排在第1和第2的兩位企業(yè)家財(cái)富值之間0.1的位置,即10%分位數(shù)=931.5+(979.8-931.5)×0.1=936.3億元;90%分位數(shù)位于表4-2中排在第9和第10的兩位企業(yè)家財(cái)富值之間0.9的位置,即90%分位數(shù)=2263.2+(2387.4-2263.2)×0.9=2375億元。90%分位數(shù)位置=(10+1)×90%=9.915“位置”的度量——百分位數(shù)【例4.4】沿用例4.3的數(shù)據(jù)16“位置”的度量——眾數(shù)眾數(shù)(mode)是一組數(shù)據(jù)中出現(xiàn)頻數(shù)最高的數(shù)值,通常用
表示。對于類別數(shù)據(jù)(尤其是無序類別數(shù)據(jù)),眾數(shù)是用于描述其“中心位置”的一個(gè)常用平均數(shù),因?yàn)轭悇e數(shù)據(jù)無法計(jì)算均值(無序類別數(shù)據(jù)也不能計(jì)算中位數(shù))。眾數(shù)的確定十分簡單,也不會(huì)受極端值的影響。但可以想象,如果一組數(shù)據(jù)中不同取值出現(xiàn)的頻數(shù)都相同,那么就沒有眾數(shù);而如果一組數(shù)據(jù)的分布存在兩個(gè)甚至更多個(gè)“高峰”,那么眾數(shù)可能不唯一。此外,眾數(shù)只告訴我們一組數(shù)據(jù)中哪個(gè)數(shù)值出現(xiàn)的次數(shù)最多,卻掩蓋了所有數(shù)據(jù)的具體取值。16“位置”的度量——眾數(shù)眾數(shù)(mode)是一組數(shù)據(jù)中出現(xiàn)頻17“位置”的度量——眾數(shù)【例4.5】某大學(xué)新開設(shè)“數(shù)據(jù)科學(xué)”實(shí)驗(yàn)班,并面向2019級全校本科生進(jìn)行選拔,最終進(jìn)入該實(shí)驗(yàn)班的20名同學(xué)的性別和年齡如表4-3所示。試確定這20名同學(xué)性別和年齡的眾數(shù)。表4-3“數(shù)據(jù)科學(xué)”實(shí)驗(yàn)班20名同學(xué)的性別和年齡17“位置”的度量——眾數(shù)【例4.5】某大學(xué)新開設(shè)“數(shù)據(jù)科學(xué)18“位置”的度量——眾數(shù)解:基于表4-3中的數(shù)據(jù)分別統(tǒng)計(jì)“性別”和“年齡”兩個(gè)變量不同取值出現(xiàn)的頻數(shù),如表4-4所示。表4-4“數(shù)據(jù)科學(xué)”實(shí)驗(yàn)班20名同學(xué)性別和年齡的頻數(shù)統(tǒng)計(jì)顯然,該實(shí)驗(yàn)班男同學(xué)的人數(shù)遠(yuǎn)多于女同學(xué),因此“性別”的眾數(shù)是男性;20名同學(xué)中19歲的人數(shù)也多于其他年齡的人數(shù),因此“年齡”的眾數(shù)是19歲。18“位置”的度量——眾數(shù)解:基于表4-3中的數(shù)據(jù)分別統(tǒng)計(jì)“19“位置”的度量——眾數(shù)【例4.6】沿用例3.2的數(shù)據(jù),試結(jié)合直方圖確定150名“網(wǎng)約車”司機(jī)日營業(yè)額的眾數(shù)。解:在例3.2中,我們已經(jīng)對150名“網(wǎng)約車”司機(jī)日營業(yè)額數(shù)據(jù)進(jìn)行了分組和頻數(shù)統(tǒng)計(jì),并最終繪制了直方圖。為便于觀察,將直方圖復(fù)制至此,如圖4-1所示。圖4-1150名“網(wǎng)約車”司機(jī)日營業(yè)額的直方圖19“位置”的度量——眾數(shù)【例4.6】沿用例3.2的數(shù)據(jù),試20“位置”的度量——眾數(shù)依據(jù)直方圖的含義,圖4-1中橫坐標(biāo)是“網(wǎng)約車”司機(jī)日營業(yè)額,每一個(gè)矩形的寬度對應(yīng)的是數(shù)據(jù)分組后每一組的取值區(qū)間,縱坐標(biāo)是頻數(shù)。因此,從圖形中可以非??旖莸匕l(fā)現(xiàn),矩形“最高峰”所在的位置就是眾數(shù)所在的組別,即350元至400元,取該組上下限的中點(diǎn)375元作為這150名“網(wǎng)約車”司機(jī)日營業(yè)額的眾數(shù)。20“位置”的度量——眾數(shù)依據(jù)直方圖的含義,圖4-1中橫坐標(biāo)21“位置”的度量均值、中位數(shù)和眾數(shù)是描述數(shù)據(jù)“中心位置”的三個(gè)主要統(tǒng)計(jì)量。由于均值利用了最多的原始數(shù)據(jù)信息,且容易理解,在日常生活中最為常用。但作為“重心”的均值,容易受到數(shù)據(jù)分布形狀的影響,如果數(shù)據(jù)存在較為嚴(yán)重的偏斜程度(即存在極端值),均值對一組數(shù)據(jù)平均水平的代表性較差,此時(shí)計(jì)算中位數(shù)可能是更好的選擇。而對于無序類別數(shù)據(jù),使用眾數(shù)則是一種必然。21“位置”的度量均值、中位數(shù)和眾數(shù)是描述數(shù)據(jù)“中心位置”的22第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.2離散程度的度量22第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.2離散程度的度量23離散程度的度量——極差極差(range)是一組數(shù)據(jù)的最大值和最小值的差值,也稱全距,通常用R表示。極差計(jì)算簡單,反映了一組數(shù)據(jù)取值的波動(dòng)范圍。但極差只利用了最大值和最小值兩個(gè)數(shù)值的信息,對極端值十分敏感,對數(shù)據(jù)內(nèi)部的具體變動(dòng)情況揭示不夠完整。23離散程度的度量——極差極差(range)是一組數(shù)據(jù)的最大24離散程度的度量——極差【例4.7】針對新上映的兩部國產(chǎn)賀歲片,隨機(jī)采訪10位觀眾,評分結(jié)果如表4-5所示。試分別計(jì)算觀眾對兩部電影評分的極差。表4-510位觀眾對兩部國產(chǎn)賀歲片的評分單位:分24離散程度的度量——極差【例4.7】針對新上映的兩部國產(chǎn)賀25離散程度的度量——極差解:首先,將10位觀眾對兩部電影的評分分別由低到高排序,如表4-6所示。表4-610位觀眾對兩部國產(chǎn)賀歲片的評分(排序后)單位:分基于表4-6中的數(shù)據(jù),10位觀眾對賀歲片1的最高評分為10分,最低評分為2分,因此極差=10-2=8分;而對賀歲片2的最高評分為9分,最低評分為6分,極差=9-6=3分。25離散程度的度量——極差解:首先,將10位觀眾對兩部電影的26離散程度的度量——四分位差四分位差(interquartilerange)是一組數(shù)據(jù)上四分位數(shù)與下四分位數(shù)的差值,也稱四分位距或內(nèi)距,通常用IQR表示,即IQR=Q75%-Q25%。四分位差反映了中間50%數(shù)據(jù)的離散程度,由上下四分位數(shù)的取值決定,不受數(shù)據(jù)極端值的影響。在箱線圖中,箱子的長度就等于四分位差。26離散程度的度量——四分位差四分位差(interquart27離散程度的度量——四分位差【例4.8】沿用例4.7的數(shù)據(jù),試分別計(jì)算10位觀眾對兩部電影評分的四分位差。解:根據(jù)公式計(jì)算得到兩組評分的上下四分位數(shù)位置為:Q25%位置=(10+1)/4=2.75;Q75%位置=3×(10+1)/4=8.25因此,對賀歲片1有Q25%=5;Q75%=7+(8-7)×0.25=7.25;IQR=Q75%-Q25%=7.25-5=2.25(分)對賀歲片2有Q25%=7;Q75%=9;IQR=Q75%-Q25%=9-7=2(分)27離散程度的度量——四分位差【例4.8】沿用例4.7的數(shù)據(jù)28離散程度的度量——方差和標(biāo)準(zhǔn)差方差(variance)是用于度量一組數(shù)據(jù)中每一個(gè)數(shù)值與該組數(shù)據(jù)均值的平均偏離程度的重要統(tǒng)計(jì)量。設(shè)一組樣本數(shù)據(jù)為
,樣本數(shù)據(jù)的個(gè)數(shù)(即樣本量)為n,用
表示樣本方差,其計(jì)算公式為:方差通過計(jì)算每一個(gè)數(shù)值與均值的離差平方和,避免了數(shù)據(jù)變動(dòng)差值的正負(fù)抵消,再除以減去1之后的樣本量,反映了一組數(shù)據(jù)在均值附近取值的平均離散程度。28離散程度的度量——方差和標(biāo)準(zhǔn)差方差(variance)是29離散程度的度量——方差和標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差(standarddeviation)是方差的平方根,即由于方差和標(biāo)準(zhǔn)差利用了每一個(gè)原始數(shù)據(jù)的取值,揭示了比極差和四分位差更為全面的信息,因此是最常用的度量數(shù)據(jù)離散程度的統(tǒng)計(jì)量。相較于方差,標(biāo)準(zhǔn)差具有與原始數(shù)據(jù)相同的計(jì)量單位,更易理解,在分析實(shí)際問題時(shí)也被應(yīng)用得更頻繁。29離散程度的度量——方差和標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差(standard30離散程度的度量——方差和標(biāo)準(zhǔn)差【例4.9】沿用例4.7的數(shù)據(jù),試分別計(jì)算10位觀眾對兩部電影評分的方差和標(biāo)準(zhǔn)差。解:分別用
和表示10位觀眾對兩部電影評分的均值,
和表示10位觀眾對兩部電影評分的方差。首先,根據(jù)均值公式計(jì)算得到然后,根據(jù)方差公式計(jì)算得到進(jìn)一步地30離散程度的度量——方差和標(biāo)準(zhǔn)差【例4.9】沿用例4.7的31離散程度的度量——離散系數(shù)離散系數(shù)(coefficientofvariation)是一組數(shù)據(jù)的標(biāo)準(zhǔn)差與該組數(shù)據(jù)均值的比值,也稱變異系數(shù),通常用CV表示,其計(jì)算公式為:由于標(biāo)準(zhǔn)差與均值計(jì)量單位相同,而均值又在一定程度上代表了原始數(shù)據(jù)取值大小的一般水平,因此離散系數(shù)消除了二者對標(biāo)準(zhǔn)差的影響,反映了一組數(shù)據(jù)的相對離散程度,可用于不同數(shù)據(jù)的比較。31離散程度的度量——離散系數(shù)離散系數(shù)(coefficien32離散程度的度量——離散系數(shù)【例4.10】表4-7給出了2017年16家上市公司的每股收益數(shù)據(jù),其中8家為醫(yī)藥企業(yè),8家為鋼鐵企業(yè)。試比較這兩個(gè)不同行業(yè)公司每股收益的離散程度。表4-72017年16家上市公司的每股收益單位:元32離散程度的度量——離散系數(shù)【例4.10】表4-7給出了233離散程度的度量——離散系數(shù)解:分別用
和表示8家醫(yī)藥企業(yè)和8家鋼鐵企業(yè)每股收益的均值,
和表示各自的標(biāo)準(zhǔn)差。首先,根據(jù)公式計(jì)算得到進(jìn)一步計(jì)算醫(yī)藥企業(yè)和鋼鐵企業(yè)每股收益的離散系數(shù),分別用
和表示33離散程度的度量——離散系數(shù)解:分別用和34第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.3分布形狀的度量34第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.3分布形狀的度量35分布形狀的度量借助直方圖(或箱線圖)可以初步地觀察數(shù)據(jù)的分布形狀。如果數(shù)據(jù)的直方圖只有一個(gè)“最高峰”,就是單峰分布。圖4-2給出了三種常見的數(shù)據(jù)單峰分布形狀,從圖中可以直觀地看出,圖4-2(a)、(b)、(c)分別為對稱分布、左偏分布和右偏分布。圖4-2三種常見的數(shù)據(jù)單峰分布形狀35分布形狀的度量借助直方圖(或箱線圖)可以初步地觀察數(shù)據(jù)的36分布形狀的度量——偏度系數(shù)偏度(skewness)是指數(shù)據(jù)分布的偏斜性(即不對稱性),測度數(shù)據(jù)分布偏斜程度的統(tǒng)計(jì)量稱為偏度系數(shù)(coefficientofskewness),通常用SK表示。設(shè)一組樣本數(shù)據(jù)為
,樣本數(shù)據(jù)的個(gè)數(shù)(即樣本量)為n,偏度系數(shù)的計(jì)算公式為:當(dāng)數(shù)據(jù)呈左右對稱分布時(shí),偏度系數(shù)等于0,否則說明數(shù)據(jù)分布存在一定的偏斜程度。通常情況下,偏度系數(shù)大于1或小于-1,視為嚴(yán)重偏斜分布;偏度系數(shù)為0.5~1或-1~-0.5,視為中等偏斜分布;偏度系數(shù)為-0.5~0.5,視為輕微偏斜分布。36分布形狀的度量——偏度系數(shù)偏度(skewness)是指數(shù)37分布形狀的度量——偏度系數(shù)偏度系數(shù)為負(fù)值表示數(shù)據(jù)呈左偏分布,對應(yīng)圖4-2(b),分布曲線的左側(cè)有一個(gè)長尾,說明數(shù)據(jù)中存在個(gè)別的極小值;偏度系數(shù)為正值表示數(shù)據(jù)呈右偏分布,對應(yīng)圖4-2(c),分布曲線的右側(cè)有一個(gè)長尾,說明數(shù)據(jù)中存在個(gè)別的極大值。多數(shù)情況下,如果一組數(shù)據(jù)呈單峰對稱分布,那么這三個(gè)平均數(shù)應(yīng)該大體相等;如果數(shù)據(jù)呈左偏分布,作為“重心”的均值則會(huì)受極小值的影響,向左尾傾斜,三者的大小關(guān)系為
;反之,如果數(shù)據(jù)呈右偏分布,均值則會(huì)受極大值的影響,向右尾傾斜,從而
。37分布形狀的度量——偏度系數(shù)偏度系數(shù)為負(fù)值表示數(shù)據(jù)呈左偏分38分布形狀的度量——偏度系數(shù)圖4-3結(jié)合箱線圖直觀展示了三種數(shù)據(jù)分布形狀下均值、中位數(shù)和眾數(shù)的關(guān)系。圖4-3三種數(shù)據(jù)分布形狀下均值、中位數(shù)和眾數(shù)的關(guān)系38分布形狀的度量——偏度系數(shù)圖4-3結(jié)合箱線圖直觀展示了三39分布形狀的度量——峰度系數(shù)峰度(kurtosis)是指數(shù)據(jù)分布的陡峭程度(即峰值的高低),測度峰度的統(tǒng)計(jì)量稱為峰度系數(shù)(coefficientofkurtosis),通常用K表示。設(shè)一組樣本數(shù)據(jù)為
,樣本數(shù)據(jù)的個(gè)數(shù)(即樣本量)為n,峰度系數(shù)的計(jì)算公式為:由于標(biāo)準(zhǔn)正態(tài)分布的峰度系數(shù)為0,因此一組數(shù)據(jù)的峰度通常是與其相比較。如果峰度系數(shù)大于0,說明數(shù)據(jù)的峰值更陡峭,分布更集中;如果峰度系數(shù)小于0,則說明數(shù)據(jù)的峰值更扁平,分布更分散。39分布形狀的度量——峰度系數(shù)峰度(kurtosis)是指數(shù)40第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.4標(biāo)準(zhǔn)得分40第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.4標(biāo)準(zhǔn)得分41標(biāo)準(zhǔn)得分對于均值和標(biāo)準(zhǔn)差不同的兩組(或多組)數(shù)據(jù),如何對其進(jìn)行比較?例如,某大學(xué)為金融專業(yè)本科生開設(shè)了兩個(gè)平行班的《統(tǒng)計(jì)學(xué)》課程,由兩位老師分別授課、統(tǒng)一考試。一班的期末考試平均成績?yōu)?5分,標(biāo)準(zhǔn)差為10分;二班的期末考試平均成績?yōu)?0分,標(biāo)準(zhǔn)差為6分。一班的小明和二班的小雨考試成績都是90分,誰的表現(xiàn)更好呢?41標(biāo)準(zhǔn)得分對于均值和標(biāo)準(zhǔn)差不同的兩組(或多組)數(shù)據(jù),如何對42標(biāo)準(zhǔn)得分對于均值和標(biāo)準(zhǔn)差不同的兩組(或多組)數(shù)據(jù),需要將其進(jìn)行標(biāo)準(zhǔn)化處理之后才能對比,而常用的一種標(biāo)準(zhǔn)化方法就是計(jì)算標(biāo)準(zhǔn)得分。標(biāo)準(zhǔn)得分(standardscore)是一組數(shù)據(jù)中的某個(gè)數(shù)值與該組數(shù)據(jù)均值之差再除以該組數(shù)據(jù)標(biāo)準(zhǔn)差之后的結(jié)果,又稱為z得分(z-score)。設(shè)一組樣本數(shù)據(jù)為
,用zi表示xi對應(yīng)的標(biāo)準(zhǔn)得分,其計(jì)算公式為:42標(biāo)準(zhǔn)得分對于均值和標(biāo)準(zhǔn)差不同的兩組(或多組)數(shù)據(jù),需要將43標(biāo)準(zhǔn)得分標(biāo)準(zhǔn)得分的含義是某個(gè)數(shù)值離該組數(shù)據(jù)均值幾個(gè)標(biāo)準(zhǔn)差遠(yuǎn),它測度了每個(gè)數(shù)值在該組數(shù)據(jù)中的相對位置。小明成績的標(biāo)準(zhǔn)得分是(90-75)/10=1.5,而小雨成績的標(biāo)準(zhǔn)得分是(90-80)/6=1.67,小雨的表現(xiàn)更好一些!將不同的原始數(shù)據(jù)轉(zhuǎn)換為標(biāo)準(zhǔn)得分,實(shí)際上是將其統(tǒng)一轉(zhuǎn)換到均值為0、方差為1的“新”尺度下,這樣就可以進(jìn)行“公平”的比較。43標(biāo)準(zhǔn)得分標(biāo)準(zhǔn)得分的含義是某個(gè)數(shù)值離該組數(shù)據(jù)均值幾個(gè)標(biāo)準(zhǔn)差44標(biāo)準(zhǔn)得分標(biāo)準(zhǔn)得分的另一個(gè)重要用途是幫助識別離群點(diǎn)。對于單峰對稱分布的數(shù)據(jù),有經(jīng)驗(yàn)法則表明:均值加減1個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)應(yīng)包含一組數(shù)據(jù)大約68%的數(shù)值;均值加減2個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)應(yīng)包含一組數(shù)據(jù)大約95%的數(shù)值;均值加減3個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)應(yīng)包含一組數(shù)據(jù)大約99.73%的數(shù)值。也就是說,正常情況下,來自同一總體的一組樣本數(shù)據(jù)的標(biāo)準(zhǔn)得分應(yīng)該大部分在-2到2之間變化,否則就有些“不同尋?!?;而一個(gè)數(shù)值距離一組數(shù)據(jù)均值超過3個(gè)標(biāo)準(zhǔn)差的概率更是不到0.3%,這顯然是一個(gè)小概率事件。因此,如果一個(gè)數(shù)值的標(biāo)準(zhǔn)得分大于3或小于-3,人們常常會(huì)懷疑這可能是一個(gè)離群點(diǎn)。44標(biāo)準(zhǔn)得分標(biāo)準(zhǔn)得分的另一個(gè)重要用途是幫助識別離群點(diǎn)。對于單45第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.5小結(jié)45第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.5小結(jié)46小結(jié)借助統(tǒng)計(jì)量可以直觀快捷地揭示數(shù)據(jù)的基本分布特征,不同的統(tǒng)計(jì)量有各自的優(yōu)缺點(diǎn)和適用情形。均值、中位數(shù)和眾數(shù)是度量一組數(shù)據(jù)“中心位置”的三個(gè)常用平均數(shù),也可以根據(jù)分析需要計(jì)算其他指定的百分位數(shù)。平均數(shù)對一組數(shù)據(jù)的代表性好壞與其離散程度有直接關(guān)聯(lián),方差和標(biāo)準(zhǔn)差是最常用的度量一組數(shù)據(jù)離散程度的統(tǒng)計(jì)量,要對比多組數(shù)據(jù)的離散程度,則應(yīng)計(jì)算離散系數(shù)。46小結(jié)借助統(tǒng)計(jì)量可以直觀快捷地揭示數(shù)據(jù)的基本分布特征,不同47小結(jié)偏度系數(shù)和峰度系數(shù)可以分別度量數(shù)據(jù)分布的偏斜程度以及峰值的高低,如果數(shù)據(jù)分布左右對稱,均值、中位數(shù)和眾數(shù)大體相等,均值作為一組數(shù)據(jù)平均水平的代表是最好的選擇;但如果數(shù)據(jù)存在較為嚴(yán)重的偏斜程度,中位數(shù)的代表性會(huì)更好;而對于無序類別數(shù)據(jù),眾數(shù)則是一種必然選擇。對于均值和標(biāo)準(zhǔn)差不同的數(shù)據(jù),可以將其轉(zhuǎn)換為標(biāo)準(zhǔn)得分再進(jìn)行比較,并且利用標(biāo)準(zhǔn)得分還可以判斷某個(gè)數(shù)值在一組數(shù)據(jù)中的相對位置是否異常,識別可能存在的離群點(diǎn)。47小結(jié)偏度系數(shù)和峰度系數(shù)可以分別度量數(shù)據(jù)分布的偏斜程度以及48統(tǒng)計(jì)學(xué)
Statistics1統(tǒng)計(jì)學(xué)
Statistics49第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.1“位置”的度量4.2離散程度的度量4.3分布形狀的度量4.4標(biāo)準(zhǔn)得分4.5小結(jié)2第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.1“位置”的度50數(shù)據(jù)的描述統(tǒng)計(jì)量不包含總體的任何未知參數(shù)的樣本的函數(shù),稱為統(tǒng)計(jì)量(statistic)。不同的統(tǒng)計(jì)量可以從不同的角度描述數(shù)據(jù)的分布特征,主要包括三個(gè)方面:一是數(shù)據(jù)的“位置”;二是數(shù)據(jù)的離散程度;三是數(shù)據(jù)的分布形狀。3數(shù)據(jù)的描述統(tǒng)計(jì)量不包含總體的任何未知參數(shù)的樣本的函數(shù),稱為51第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.1“位置”的度量4第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.1“位置”的度量52“位置”的度量——均值均值(mean)是將一組數(shù)據(jù)加總后除以數(shù)據(jù)的個(gè)數(shù)得到的結(jié)果。設(shè)一組樣本數(shù)據(jù)為
,樣本數(shù)據(jù)的個(gè)數(shù)(即樣本量)為n,用
表示樣本均值,其計(jì)算公式為:根據(jù)上式計(jì)算得到的平均數(shù)也稱為簡單平均數(shù)(simplemean)或算術(shù)平均數(shù)(arithmeticaverage)。5“位置”的度量——均值均值(mean)是將一組數(shù)據(jù)加總后除53“位置”的度量——均值【例4.1】2018年10月25日,美國財(cái)經(jīng)雜志《福布斯》(Forbes)發(fā)布了2018福布斯中國富豪榜,排名前十位的企業(yè)家財(cái)富值如表4-1,試計(jì)算十位企業(yè)家的平均財(cái)富值。表4-12018年福布斯中國十大富豪財(cái)富值單位:億元解:如果用均值來反映這十位企業(yè)家的平均財(cái)富水平,根據(jù)公式計(jì)算得到6“位置”的度量——均值【例4.1】2018年10月25日,54“位置”的度量——均值由于均值用到了原始數(shù)據(jù)的所有信息,相當(dāng)于是一組數(shù)據(jù)的“重心”位置,因此在現(xiàn)實(shí)中應(yīng)用非常廣泛。但也正是因?yàn)榫档倪@一特點(diǎn),任何一個(gè)數(shù)據(jù)的取值發(fā)生變化,均值也會(huì)隨之改變。如果一組數(shù)據(jù)中出現(xiàn)了極端值(極大值或極小值),作為“重心”的均值就會(huì)向極端值傾斜,對平均水平的代表性可能就會(huì)受到較大影響。7“位置”的度量——均值由于均值用到了原始數(shù)據(jù)的所有信息,相55“位置”的度量——中位數(shù)中位數(shù)(median)是將一組數(shù)據(jù)排序后位于中間位置的那個(gè)數(shù)值。如果一組數(shù)據(jù)
的個(gè)數(shù)n是奇數(shù),那么能夠找到正好對應(yīng)中間位置的數(shù)值即為中位數(shù);如果n是偶數(shù),中位數(shù)就等于中間兩個(gè)數(shù)值的簡單平均數(shù)。設(shè)排序后的數(shù)據(jù)依次為
,用
表示樣本中位數(shù),其計(jì)算公式為:8“位置”的度量——中位數(shù)中位數(shù)(median)是將一組數(shù)據(jù)56“位置”的度量——中位數(shù)【例4.2】沿用例4.1的數(shù)據(jù),試計(jì)算十位企業(yè)家財(cái)富值的中位數(shù)。解:表4-1已經(jīng)給出了按照財(cái)富值排序后的十位企業(yè)家,由于n是偶數(shù),位于中間的是排名第5和第6的兩位企業(yè)家,其財(cái)富值分別是1345.5億元和1179.9億元,因此根據(jù)公式計(jì)算得到9“位置”的度量——中位數(shù)【例4.2】沿用例4.1的數(shù)據(jù),試57“位置”的度量——中位數(shù)中位數(shù)主要由一組數(shù)據(jù)的大小順序和位于中間位置的數(shù)值決定,并沒有充分利用每一個(gè)數(shù)據(jù)的取值信息。但也正因?yàn)榇?,中位?shù)對數(shù)據(jù)中可能存在的極端值并不敏感,即使其他所有數(shù)據(jù)的取值都發(fā)生變化,只要位于中間位置的數(shù)值不變,中位數(shù)就將保持不變。10“位置”的度量——中位數(shù)中位數(shù)主要由一組數(shù)據(jù)的大小順序和58“位置”的度量——四分位數(shù)四分位數(shù)(quartile)是將一組數(shù)據(jù)由小到大排序后,分別位于25%、50%和75%位置上的三個(gè)數(shù)。四分位數(shù)將數(shù)據(jù)等分為四份,第二四分位數(shù)就是中位數(shù)(50%分位數(shù)),也可表示為Q50%。位于75%位置的第一四分位數(shù)稱為上四分位數(shù),記為Q75%,表示該組數(shù)據(jù)中有75%的數(shù)值小于或等于它。位于25%位置的第三四分位數(shù)則稱為下四分位數(shù),記為Q25%,表示該組數(shù)據(jù)中有25%的數(shù)值小于或等于它。11“位置”的度量——四分位數(shù)四分位數(shù)(quartile)是59“位置”的度量——四分位數(shù)上下四分位數(shù)的計(jì)算方法與中位數(shù)類似,先將數(shù)據(jù)由小到大排序,然后確定四分位數(shù)所在的位置:Q25%位置=,Q75%位置=如果根據(jù)公式計(jì)算得到的位置是整數(shù),四分位數(shù)就是該位置對應(yīng)的數(shù)值,否則就要對該位置左右兩個(gè)數(shù)值進(jìn)行相應(yīng)的線性插值。12“位置”的度量——四分位數(shù)上下四分位數(shù)的計(jì)算方法與中位數(shù)60“位置”的度量——四分位數(shù)【例4.3】沿用例4.1的數(shù)據(jù),試計(jì)算十位企業(yè)家財(cái)富值的上下四分位數(shù)。解:首先,需要將十位企業(yè)家按照財(cái)富值由低到高排序(與表4-1中的排序恰好相反),如表4-2所示。表4-22018年福布斯中國十大富豪財(cái)富值(由低到高排序)單位:億元然后,根據(jù)公式計(jì)算得到上下四分位數(shù)位置分別為:Q25%位置=(10+1)/4=2.75;Q75%位置=3×(10+1)/4=8.25。因此,下四分位數(shù)位于表4-2中排在第2和第3的兩位企業(yè)家財(cái)富值之間0.75的位置,即Q25%=979.8+(1007.4-979.8)×0.75=1000.5億元;上四分位數(shù)位于表4-2中排在第8和第9的兩位企業(yè)家財(cái)富值之間0.25的位置,即Q75%=2125.2+(2263.2-2125.2)×0.25=2160億元。13“位置”的度量——四分位數(shù)【例4.3】沿用例4.1的數(shù)據(jù)61“位置”的度量——百分位數(shù)如果一組數(shù)據(jù)由小到大排序后,用99個(gè)點(diǎn)將數(shù)據(jù)劃分成100等份,那么這些分位點(diǎn)上對應(yīng)的數(shù)值就是百分位數(shù)(percentile)。人們可以根據(jù)需要計(jì)算k%分位數(shù),表示數(shù)據(jù)中有k%的數(shù)值小于或等于它。將一組數(shù)據(jù)由小到大排序后,百分位數(shù)的位置為:k%分位數(shù)位置=(n+1)×k%如果根據(jù)公式計(jì)算得到的位置是整數(shù),k%分位數(shù)就是該位置對應(yīng)的數(shù)值,否則就要對該位置左右兩個(gè)數(shù)值進(jìn)行相應(yīng)的線性插值。14“位置”的度量——百分位數(shù)如果一組數(shù)據(jù)由小到大排序后,用62“位置”的度量——百分位數(shù)【例4.4】沿用例4.3的數(shù)據(jù),試計(jì)算十位企業(yè)家財(cái)富值的10%分位數(shù)和90%分位數(shù)。解:表4-2已經(jīng)給出十位企業(yè)家財(cái)富值由低到高的排序結(jié)果,根據(jù)公式計(jì)算得到該例中的10%和90%分位數(shù)的位置分別為:10%分位數(shù)位置=(10+1)×10%=1.1因此,10%分位數(shù)位于表4-2中排在第1和第2的兩位企業(yè)家財(cái)富值之間0.1的位置,即10%分位數(shù)=931.5+(979.8-931.5)×0.1=936.3億元;90%分位數(shù)位于表4-2中排在第9和第10的兩位企業(yè)家財(cái)富值之間0.9的位置,即90%分位數(shù)=2263.2+(2387.4-2263.2)×0.9=2375億元。90%分位數(shù)位置=(10+1)×90%=9.915“位置”的度量——百分位數(shù)【例4.4】沿用例4.3的數(shù)據(jù)63“位置”的度量——眾數(shù)眾數(shù)(mode)是一組數(shù)據(jù)中出現(xiàn)頻數(shù)最高的數(shù)值,通常用
表示。對于類別數(shù)據(jù)(尤其是無序類別數(shù)據(jù)),眾數(shù)是用于描述其“中心位置”的一個(gè)常用平均數(shù),因?yàn)轭悇e數(shù)據(jù)無法計(jì)算均值(無序類別數(shù)據(jù)也不能計(jì)算中位數(shù))。眾數(shù)的確定十分簡單,也不會(huì)受極端值的影響。但可以想象,如果一組數(shù)據(jù)中不同取值出現(xiàn)的頻數(shù)都相同,那么就沒有眾數(shù);而如果一組數(shù)據(jù)的分布存在兩個(gè)甚至更多個(gè)“高峰”,那么眾數(shù)可能不唯一。此外,眾數(shù)只告訴我們一組數(shù)據(jù)中哪個(gè)數(shù)值出現(xiàn)的次數(shù)最多,卻掩蓋了所有數(shù)據(jù)的具體取值。16“位置”的度量——眾數(shù)眾數(shù)(mode)是一組數(shù)據(jù)中出現(xiàn)頻64“位置”的度量——眾數(shù)【例4.5】某大學(xué)新開設(shè)“數(shù)據(jù)科學(xué)”實(shí)驗(yàn)班,并面向2019級全校本科生進(jìn)行選拔,最終進(jìn)入該實(shí)驗(yàn)班的20名同學(xué)的性別和年齡如表4-3所示。試確定這20名同學(xué)性別和年齡的眾數(shù)。表4-3“數(shù)據(jù)科學(xué)”實(shí)驗(yàn)班20名同學(xué)的性別和年齡17“位置”的度量——眾數(shù)【例4.5】某大學(xué)新開設(shè)“數(shù)據(jù)科學(xué)65“位置”的度量——眾數(shù)解:基于表4-3中的數(shù)據(jù)分別統(tǒng)計(jì)“性別”和“年齡”兩個(gè)變量不同取值出現(xiàn)的頻數(shù),如表4-4所示。表4-4“數(shù)據(jù)科學(xué)”實(shí)驗(yàn)班20名同學(xué)性別和年齡的頻數(shù)統(tǒng)計(jì)顯然,該實(shí)驗(yàn)班男同學(xué)的人數(shù)遠(yuǎn)多于女同學(xué),因此“性別”的眾數(shù)是男性;20名同學(xué)中19歲的人數(shù)也多于其他年齡的人數(shù),因此“年齡”的眾數(shù)是19歲。18“位置”的度量——眾數(shù)解:基于表4-3中的數(shù)據(jù)分別統(tǒng)計(jì)“66“位置”的度量——眾數(shù)【例4.6】沿用例3.2的數(shù)據(jù),試結(jié)合直方圖確定150名“網(wǎng)約車”司機(jī)日營業(yè)額的眾數(shù)。解:在例3.2中,我們已經(jīng)對150名“網(wǎng)約車”司機(jī)日營業(yè)額數(shù)據(jù)進(jìn)行了分組和頻數(shù)統(tǒng)計(jì),并最終繪制了直方圖。為便于觀察,將直方圖復(fù)制至此,如圖4-1所示。圖4-1150名“網(wǎng)約車”司機(jī)日營業(yè)額的直方圖19“位置”的度量——眾數(shù)【例4.6】沿用例3.2的數(shù)據(jù),試67“位置”的度量——眾數(shù)依據(jù)直方圖的含義,圖4-1中橫坐標(biāo)是“網(wǎng)約車”司機(jī)日營業(yè)額,每一個(gè)矩形的寬度對應(yīng)的是數(shù)據(jù)分組后每一組的取值區(qū)間,縱坐標(biāo)是頻數(shù)。因此,從圖形中可以非??旖莸匕l(fā)現(xiàn),矩形“最高峰”所在的位置就是眾數(shù)所在的組別,即350元至400元,取該組上下限的中點(diǎn)375元作為這150名“網(wǎng)約車”司機(jī)日營業(yè)額的眾數(shù)。20“位置”的度量——眾數(shù)依據(jù)直方圖的含義,圖4-1中橫坐標(biāo)68“位置”的度量均值、中位數(shù)和眾數(shù)是描述數(shù)據(jù)“中心位置”的三個(gè)主要統(tǒng)計(jì)量。由于均值利用了最多的原始數(shù)據(jù)信息,且容易理解,在日常生活中最為常用。但作為“重心”的均值,容易受到數(shù)據(jù)分布形狀的影響,如果數(shù)據(jù)存在較為嚴(yán)重的偏斜程度(即存在極端值),均值對一組數(shù)據(jù)平均水平的代表性較差,此時(shí)計(jì)算中位數(shù)可能是更好的選擇。而對于無序類別數(shù)據(jù),使用眾數(shù)則是一種必然。21“位置”的度量均值、中位數(shù)和眾數(shù)是描述數(shù)據(jù)“中心位置”的69第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.2離散程度的度量22第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.2離散程度的度量70離散程度的度量——極差極差(range)是一組數(shù)據(jù)的最大值和最小值的差值,也稱全距,通常用R表示。極差計(jì)算簡單,反映了一組數(shù)據(jù)取值的波動(dòng)范圍。但極差只利用了最大值和最小值兩個(gè)數(shù)值的信息,對極端值十分敏感,對數(shù)據(jù)內(nèi)部的具體變動(dòng)情況揭示不夠完整。23離散程度的度量——極差極差(range)是一組數(shù)據(jù)的最大71離散程度的度量——極差【例4.7】針對新上映的兩部國產(chǎn)賀歲片,隨機(jī)采訪10位觀眾,評分結(jié)果如表4-5所示。試分別計(jì)算觀眾對兩部電影評分的極差。表4-510位觀眾對兩部國產(chǎn)賀歲片的評分單位:分24離散程度的度量——極差【例4.7】針對新上映的兩部國產(chǎn)賀72離散程度的度量——極差解:首先,將10位觀眾對兩部電影的評分分別由低到高排序,如表4-6所示。表4-610位觀眾對兩部國產(chǎn)賀歲片的評分(排序后)單位:分基于表4-6中的數(shù)據(jù),10位觀眾對賀歲片1的最高評分為10分,最低評分為2分,因此極差=10-2=8分;而對賀歲片2的最高評分為9分,最低評分為6分,極差=9-6=3分。25離散程度的度量——極差解:首先,將10位觀眾對兩部電影的73離散程度的度量——四分位差四分位差(interquartilerange)是一組數(shù)據(jù)上四分位數(shù)與下四分位數(shù)的差值,也稱四分位距或內(nèi)距,通常用IQR表示,即IQR=Q75%-Q25%。四分位差反映了中間50%數(shù)據(jù)的離散程度,由上下四分位數(shù)的取值決定,不受數(shù)據(jù)極端值的影響。在箱線圖中,箱子的長度就等于四分位差。26離散程度的度量——四分位差四分位差(interquart74離散程度的度量——四分位差【例4.8】沿用例4.7的數(shù)據(jù),試分別計(jì)算10位觀眾對兩部電影評分的四分位差。解:根據(jù)公式計(jì)算得到兩組評分的上下四分位數(shù)位置為:Q25%位置=(10+1)/4=2.75;Q75%位置=3×(10+1)/4=8.25因此,對賀歲片1有Q25%=5;Q75%=7+(8-7)×0.25=7.25;IQR=Q75%-Q25%=7.25-5=2.25(分)對賀歲片2有Q25%=7;Q75%=9;IQR=Q75%-Q25%=9-7=2(分)27離散程度的度量——四分位差【例4.8】沿用例4.7的數(shù)據(jù)75離散程度的度量——方差和標(biāo)準(zhǔn)差方差(variance)是用于度量一組數(shù)據(jù)中每一個(gè)數(shù)值與該組數(shù)據(jù)均值的平均偏離程度的重要統(tǒng)計(jì)量。設(shè)一組樣本數(shù)據(jù)為
,樣本數(shù)據(jù)的個(gè)數(shù)(即樣本量)為n,用
表示樣本方差,其計(jì)算公式為:方差通過計(jì)算每一個(gè)數(shù)值與均值的離差平方和,避免了數(shù)據(jù)變動(dòng)差值的正負(fù)抵消,再除以減去1之后的樣本量,反映了一組數(shù)據(jù)在均值附近取值的平均離散程度。28離散程度的度量——方差和標(biāo)準(zhǔn)差方差(variance)是76離散程度的度量——方差和標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差(standarddeviation)是方差的平方根,即由于方差和標(biāo)準(zhǔn)差利用了每一個(gè)原始數(shù)據(jù)的取值,揭示了比極差和四分位差更為全面的信息,因此是最常用的度量數(shù)據(jù)離散程度的統(tǒng)計(jì)量。相較于方差,標(biāo)準(zhǔn)差具有與原始數(shù)據(jù)相同的計(jì)量單位,更易理解,在分析實(shí)際問題時(shí)也被應(yīng)用得更頻繁。29離散程度的度量——方差和標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差(standard77離散程度的度量——方差和標(biāo)準(zhǔn)差【例4.9】沿用例4.7的數(shù)據(jù),試分別計(jì)算10位觀眾對兩部電影評分的方差和標(biāo)準(zhǔn)差。解:分別用
和表示10位觀眾對兩部電影評分的均值,
和表示10位觀眾對兩部電影評分的方差。首先,根據(jù)均值公式計(jì)算得到然后,根據(jù)方差公式計(jì)算得到進(jìn)一步地30離散程度的度量——方差和標(biāo)準(zhǔn)差【例4.9】沿用例4.7的78離散程度的度量——離散系數(shù)離散系數(shù)(coefficientofvariation)是一組數(shù)據(jù)的標(biāo)準(zhǔn)差與該組數(shù)據(jù)均值的比值,也稱變異系數(shù),通常用CV表示,其計(jì)算公式為:由于標(biāo)準(zhǔn)差與均值計(jì)量單位相同,而均值又在一定程度上代表了原始數(shù)據(jù)取值大小的一般水平,因此離散系數(shù)消除了二者對標(biāo)準(zhǔn)差的影響,反映了一組數(shù)據(jù)的相對離散程度,可用于不同數(shù)據(jù)的比較。31離散程度的度量——離散系數(shù)離散系數(shù)(coefficien79離散程度的度量——離散系數(shù)【例4.10】表4-7給出了2017年16家上市公司的每股收益數(shù)據(jù),其中8家為醫(yī)藥企業(yè),8家為鋼鐵企業(yè)。試比較這兩個(gè)不同行業(yè)公司每股收益的離散程度。表4-72017年16家上市公司的每股收益單位:元32離散程度的度量——離散系數(shù)【例4.10】表4-7給出了280離散程度的度量——離散系數(shù)解:分別用
和表示8家醫(yī)藥企業(yè)和8家鋼鐵企業(yè)每股收益的均值,
和表示各自的標(biāo)準(zhǔn)差。首先,根據(jù)公式計(jì)算得到進(jìn)一步計(jì)算醫(yī)藥企業(yè)和鋼鐵企業(yè)每股收益的離散系數(shù),分別用
和表示33離散程度的度量——離散系數(shù)解:分別用和81第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.3分布形狀的度量34第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.3分布形狀的度量82分布形狀的度量借助直方圖(或箱線圖)可以初步地觀察數(shù)據(jù)的分布形狀。如果數(shù)據(jù)的直方圖只有一個(gè)“最高峰”,就是單峰分布。圖4-2給出了三種常見的數(shù)據(jù)單峰分布形狀,從圖中可以直觀地看出,圖4-2(a)、(b)、(c)分別為對稱分布、左偏分布和右偏分布。圖4-2三種常見的數(shù)據(jù)單峰分布形狀35分布形狀的度量借助直方圖(或箱線圖)可以初步地觀察數(shù)據(jù)的83分布形狀的度量——偏度系數(shù)偏度(skewness)是指數(shù)據(jù)分布的偏斜性(即不對稱性),測度數(shù)據(jù)分布偏斜程度的統(tǒng)計(jì)量稱為偏度系數(shù)(coefficientofskewness),通常用SK表示。設(shè)一組樣本數(shù)據(jù)為
,樣本數(shù)據(jù)的個(gè)數(shù)(即樣本量)為n,偏度系數(shù)的計(jì)算公式為:當(dāng)數(shù)據(jù)呈左右對稱分布時(shí),偏度系數(shù)等于0,否則說明數(shù)據(jù)分布存在一定的偏斜程度。通常情況下,偏度系數(shù)大于1或小于-1,視為嚴(yán)重偏斜分布;偏度系數(shù)為0.5~1或-1~-0.5,視為中等偏斜分布;偏度系數(shù)為-0.5~0.5,視為輕微偏斜分布。36分布形狀的度量——偏度系數(shù)偏度(skewness)是指數(shù)84分布形狀的度量——偏度系數(shù)偏度系數(shù)為負(fù)值表示數(shù)據(jù)呈左偏分布,對應(yīng)圖4-2(b),分布曲線的左側(cè)有一個(gè)長尾,說明數(shù)據(jù)中存在個(gè)別的極小值;偏度系數(shù)為正值表示數(shù)據(jù)呈右偏分布,對應(yīng)圖4-2(c),分布曲線的右側(cè)有一個(gè)長尾,說明數(shù)據(jù)中存在個(gè)別的極大值。多數(shù)情況下,如果一組數(shù)據(jù)呈單峰對稱分布,那么這三個(gè)平均數(shù)應(yīng)該大體相等;如果數(shù)據(jù)呈左偏分布,作為“重心”的均值則會(huì)受極小值的影響,向左尾傾斜,三者的大小關(guān)系為
;反之,如果數(shù)據(jù)呈右偏分布,均值則會(huì)受極大值的影響,向右尾傾斜,從而
。37分布形狀的度量——偏度系數(shù)偏度系數(shù)為負(fù)值表示數(shù)據(jù)呈左偏分85
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2031年中國容積微調(diào)噴霧式注油機(jī)行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025年巴中職業(yè)技術(shù)學(xué)院單招職業(yè)傾向性測試題庫及完整答案1套
- 2025年安徽馬鋼技師學(xué)院單招職業(yè)適應(yīng)性考試題庫匯編
- 2025年蚌埠經(jīng)濟(jì)技術(shù)職業(yè)學(xué)院單招綜合素質(zhì)考試題庫學(xué)生專用
- 2025年包頭鐵道職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性測試題庫必考題
- 2025年安徽商貿(mào)職業(yè)技術(shù)學(xué)院單招職業(yè)傾向性測試題庫審定版
- 2025年安徽綠海商務(wù)職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫及參考答案1套
- 2025年安陽職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試題庫有答案
- 2025年阿壩職業(yè)學(xué)院單招綜合素質(zhì)考試題庫必考題
- 2025年安陽職業(yè)技術(shù)學(xué)院單招職業(yè)傾向性測試題庫含答案
- 定崗定編定員實(shí)施方案(5篇)
- 零星維修工程項(xiàng)目施工方案1
- 湖北省荊州市2024年七年級上學(xué)期期中數(shù)學(xué)試題【附答案】
- 《ISO 41001-2018 設(shè)施管理- 管理體系 要求及使用指南》專業(yè)讀與應(yīng)用指導(dǎo)材料之2:“4 組織環(huán)境-4.2 理解相關(guān)方的需要和期望”
- 某港口碼頭工程施工組織設(shè)計(jì)
- 資產(chǎn)運(yùn)營總經(jīng)理崗位職責(zé)
- 2024-2025學(xué)年新教材高中英語 Unit 6 Earth first理解 課文精研讀教案 外研版必修第二冊
- 110kV變電站專項(xiàng)電氣試驗(yàn)及調(diào)試方案
- 2024時(shí)事政治必考試題庫(預(yù)熱題)
- DZ∕T 0215-2020 礦產(chǎn)地質(zhì)勘查規(guī)范 煤(正式版)
- 威圖電柜空調(diào)SK3304500使用說書
評論
0/150
提交評論