統(tǒng)計(jì)學(xué)-數(shù)據(jù)的描述統(tǒng)計(jì)量課件

上傳人：外*** IP屬地：貴州上傳時(shí)間：2022-12-22 格式：PPT 頁數(shù)：94 大?。?.52MB 積分：25 舉報(bào) 版權(quán)申訴

統(tǒng)計(jì)學(xué)-數(shù)據(jù)的描述統(tǒng)計(jì)量課件_第2頁

統(tǒng)計(jì)學(xué)-數(shù)據(jù)的描述統(tǒng)計(jì)量課件_第3頁

統(tǒng)計(jì)學(xué)-數(shù)據(jù)的描述統(tǒng)計(jì)量課件_第4頁

統(tǒng)計(jì)學(xué)-數(shù)據(jù)的描述統(tǒng)計(jì)量課件_第5頁

已閱讀5頁，還剩89頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1統(tǒng)計(jì)學(xué)

Statistics1統(tǒng)計(jì)學(xué)

Statistics2第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.1“位置”的度量4.2離散程度的度量4.3分布形狀的度量4.4標(biāo)準(zhǔn)得分4.5小結(jié)2第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.1“位置”的度3數(shù)據(jù)的描述統(tǒng)計(jì)量不包含總體的任何未知參數(shù)的樣本的函數(shù)，稱為統(tǒng)計(jì)量（statistic）。不同的統(tǒng)計(jì)量可以從不同的角度描述數(shù)據(jù)的分布特征，主要包括三個(gè)方面：一是數(shù)據(jù)的“位置”；二是數(shù)據(jù)的離散程度；三是數(shù)據(jù)的分布形狀。3數(shù)據(jù)的描述統(tǒng)計(jì)量不包含總體的任何未知參數(shù)的樣本的函數(shù)，稱為4第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.1“位置”的度量4第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.1“位置”的度量5“位置”的度量——均值均值（mean）是將一組數(shù)據(jù)加總后除以數(shù)據(jù)的個(gè)數(shù)得到的結(jié)果。設(shè)一組樣本數(shù)據(jù)為

，樣本數(shù)據(jù)的個(gè)數(shù)（即樣本量）為n，用

表示樣本均值，其計(jì)算公式為：根據(jù)上式計(jì)算得到的平均數(shù)也稱為簡單平均數(shù)（simplemean）或算術(shù)平均數(shù)（arithmeticaverage）。5“位置”的度量——均值均值（mean）是將一組數(shù)據(jù)加總后除6“位置”的度量——均值【例4.1】2018年10月25日，美國財(cái)經(jīng)雜志《福布斯》（Forbes）發(fā)布了2018福布斯中國富豪榜，排名前十位的企業(yè)家財(cái)富值如表4-1，試計(jì)算十位企業(yè)家的平均財(cái)富值。表4-12018年福布斯中國十大富豪財(cái)富值單位：億元解：如果用均值來反映這十位企業(yè)家的平均財(cái)富水平，根據(jù)公式計(jì)算得到6“位置”的度量——均值【例4.1】2018年10月25日，7“位置”的度量——均值由于均值用到了原始數(shù)據(jù)的所有信息，相當(dāng)于是一組數(shù)據(jù)的“重心”位置，因此在現(xiàn)實(shí)中應(yīng)用非常廣泛。但也正是因?yàn)榫档倪@一特點(diǎn)，任何一個(gè)數(shù)據(jù)的取值發(fā)生變化，均值也會(huì)隨之改變。如果一組數(shù)據(jù)中出現(xiàn)了極端值（極大值或極小值），作為“重心”的均值就會(huì)向極端值傾斜，對平均水平的代表性可能就會(huì)受到較大影響。7“位置”的度量——均值由于均值用到了原始數(shù)據(jù)的所有信息，相8“位置”的度量——中位數(shù)中位數(shù)（median）是將一組數(shù)據(jù)排序后位于中間位置的那個(gè)數(shù)值。如果一組數(shù)據(jù)

的個(gè)數(shù)n是奇數(shù)，那么能夠找到正好對應(yīng)中間位置的數(shù)值即為中位數(shù)；如果n是偶數(shù)，中位數(shù)就等于中間兩個(gè)數(shù)值的簡單平均數(shù)。設(shè)排序后的數(shù)據(jù)依次為

，用

表示樣本中位數(shù)，其計(jì)算公式為：8“位置”的度量——中位數(shù)中位數(shù)（median）是將一組數(shù)據(jù)9“位置”的度量——中位數(shù)【例4.2】沿用例4.1的數(shù)據(jù)，試計(jì)算十位企業(yè)家財(cái)富值的中位數(shù)。解：表4-1已經(jīng)給出了按照財(cái)富值排序后的十位企業(yè)家，由于n是偶數(shù)，位于中間的是排名第5和第6的兩位企業(yè)家，其財(cái)富值分別是1345.5億元和1179.9億元，因此根據(jù)公式計(jì)算得到9“位置”的度量——中位數(shù)【例4.2】沿用例4.1的數(shù)據(jù)，試10“位置”的度量——中位數(shù)中位數(shù)主要由一組數(shù)據(jù)的大小順序和位于中間位置的數(shù)值決定，并沒有充分利用每一個(gè)數(shù)據(jù)的取值信息。但也正因?yàn)榇?，中位?shù)對數(shù)據(jù)中可能存在的極端值并不敏感，即使其他所有數(shù)據(jù)的取值都發(fā)生變化，只要位于中間位置的數(shù)值不變，中位數(shù)就將保持不變。10“位置”的度量——中位數(shù)中位數(shù)主要由一組數(shù)據(jù)的大小順序和11“位置”的度量——四分位數(shù)四分位數(shù)（quartile）是將一組數(shù)據(jù)由小到大排序后，分別位于25%、50%和75%位置上的三個(gè)數(shù)。四分位數(shù)將數(shù)據(jù)等分為四份，第二四分位數(shù)就是中位數(shù)（50%分位數(shù)），也可表示為Q50%。位于75%位置的第一四分位數(shù)稱為上四分位數(shù)，記為Q75%，表示該組數(shù)據(jù)中有75%的數(shù)值小于或等于它。位于25%位置的第三四分位數(shù)則稱為下四分位數(shù),記為Q25%，表示該組數(shù)據(jù)中有25%的數(shù)值小于或等于它。11“位置”的度量——四分位數(shù)四分位數(shù)（quartile）是12“位置”的度量——四分位數(shù)上下四分位數(shù)的計(jì)算方法與中位數(shù)類似，先將數(shù)據(jù)由小到大排序，然后確定四分位數(shù)所在的位置：Q25%位置=，Q75%位置=如果根據(jù)公式計(jì)算得到的位置是整數(shù)，四分位數(shù)就是該位置對應(yīng)的數(shù)值，否則就要對該位置左右兩個(gè)數(shù)值進(jìn)行相應(yīng)的線性插值。12“位置”的度量——四分位數(shù)上下四分位數(shù)的計(jì)算方法與中位數(shù)13“位置”的度量——四分位數(shù)【例4.3】沿用例4.1的數(shù)據(jù)，試計(jì)算十位企業(yè)家財(cái)富值的上下四分位數(shù)。解：首先，需要將十位企業(yè)家按照財(cái)富值由低到高排序（與表4-1中的排序恰好相反），如表4-2所示。表4-22018年福布斯中國十大富豪財(cái)富值（由低到高排序）單位：億元然后，根據(jù)公式計(jì)算得到上下四分位數(shù)位置分別為：Q25%位置=(10+1)/4=2.75；Q75%位置=3×(10+1)/4=8.25。因此，下四分位數(shù)位于表4-2中排在第2和第3的兩位企業(yè)家財(cái)富值之間0.75的位置，即Q25%=979.8+(1007.4-979.8)×0.75=1000.5億元；上四分位數(shù)位于表4-2中排在第8和第9的兩位企業(yè)家財(cái)富值之間0.25的位置，即Q75%=2125.2+(2263.2-2125.2)×0.25=2160億元。13“位置”的度量——四分位數(shù)【例4.3】沿用例4.1的數(shù)據(jù)14“位置”的度量——百分位數(shù)如果一組數(shù)據(jù)由小到大排序后，用99個(gè)點(diǎn)將數(shù)據(jù)劃分成100等份，那么這些分位點(diǎn)上對應(yīng)的數(shù)值就是百分位數(shù)（percentile）。人們可以根據(jù)需要計(jì)算k%分位數(shù)，表示數(shù)據(jù)中有k%的數(shù)值小于或等于它。將一組數(shù)據(jù)由小到大排序后，百分位數(shù)的位置為：k%分位數(shù)位置=(n+1)×k%如果根據(jù)公式計(jì)算得到的位置是整數(shù)，k%分位數(shù)就是該位置對應(yīng)的數(shù)值，否則就要對該位置左右兩個(gè)數(shù)值進(jìn)行相應(yīng)的線性插值。14“位置”的度量——百分位數(shù)如果一組數(shù)據(jù)由小到大排序后，用15“位置”的度量——百分位數(shù)【例4.4】沿用例4.3的數(shù)據(jù)，試計(jì)算十位企業(yè)家財(cái)富值的10%分位數(shù)和90%分位數(shù)。解：表4-2已經(jīng)給出十位企業(yè)家財(cái)富值由低到高的排序結(jié)果，根據(jù)公式計(jì)算得到該例中的10%和90%分位數(shù)的位置分別為：10%分位數(shù)位置=(10+1)×10%=1.1因此，10%分位數(shù)位于表4-2中排在第1和第2的兩位企業(yè)家財(cái)富值之間0.1的位置，即10%分位數(shù)=931.5+(979.8-931.5)×0.1=936.3億元；90%分位數(shù)位于表4-2中排在第9和第10的兩位企業(yè)家財(cái)富值之間0.9的位置，即90%分位數(shù)=2263.2+(2387.4-2263.2)×0.9=2375億元。90%分位數(shù)位置=(10+1)×90%=9.915“位置”的度量——百分位數(shù)【例4.4】沿用例4.3的數(shù)據(jù)16“位置”的度量——眾數(shù)眾數(shù)（mode）是一組數(shù)據(jù)中出現(xiàn)頻數(shù)最高的數(shù)值，通常用

表示。對于類別數(shù)據(jù)（尤其是無序類別數(shù)據(jù)），眾數(shù)是用于描述其“中心位置”的一個(gè)常用平均數(shù)，因?yàn)轭悇e數(shù)據(jù)無法計(jì)算均值（無序類別數(shù)據(jù)也不能計(jì)算中位數(shù)）。眾數(shù)的確定十分簡單，也不會(huì)受極端值的影響。但可以想象，如果一組數(shù)據(jù)中不同取值出現(xiàn)的頻數(shù)都相同，那么就沒有眾數(shù)；而如果一組數(shù)據(jù)的分布存在兩個(gè)甚至更多個(gè)“高峰”，那么眾數(shù)可能不唯一。此外，眾數(shù)只告訴我們一組數(shù)據(jù)中哪個(gè)數(shù)值出現(xiàn)的次數(shù)最多，卻掩蓋了所有數(shù)據(jù)的具體取值。16“位置”的度量——眾數(shù)眾數(shù)（mode）是一組數(shù)據(jù)中出現(xiàn)頻17“位置”的度量——眾數(shù)【例4.5】某大學(xué)新開設(shè)“數(shù)據(jù)科學(xué)”實(shí)驗(yàn)班，并面向2019級全校本科生進(jìn)行選拔，最終進(jìn)入該實(shí)驗(yàn)班的20名同學(xué)的性別和年齡如表4-3所示。試確定這20名同學(xué)性別和年齡的眾數(shù)。表4-3“數(shù)據(jù)科學(xué)”實(shí)驗(yàn)班20名同學(xué)的性別和年齡17“位置”的度量——眾數(shù)【例4.5】某大學(xué)新開設(shè)“數(shù)據(jù)科學(xué)18“位置”的度量——眾數(shù)解：基于表4-3中的數(shù)據(jù)分別統(tǒng)計(jì)“性別”和“年齡”兩個(gè)變量不同取值出現(xiàn)的頻數(shù)，如表4-4所示。表4-4“數(shù)據(jù)科學(xué)”實(shí)驗(yàn)班20名同學(xué)性別和年齡的頻數(shù)統(tǒng)計(jì)顯然，該實(shí)驗(yàn)班男同學(xué)的人數(shù)遠(yuǎn)多于女同學(xué)，因此“性別”的眾數(shù)是男性；20名同學(xué)中19歲的人數(shù)也多于其他年齡的人數(shù)，因此“年齡”的眾數(shù)是19歲。18“位置”的度量——眾數(shù)解：基于表4-3中的數(shù)據(jù)分別統(tǒng)計(jì)“19“位置”的度量——眾數(shù)【例4.6】沿用例3.2的數(shù)據(jù)，試結(jié)合直方圖確定150名“網(wǎng)約車”司機(jī)日營業(yè)額的眾數(shù)。解：在例3.2中，我們已經(jīng)對150名“網(wǎng)約車”司機(jī)日營業(yè)額數(shù)據(jù)進(jìn)行了分組和頻數(shù)統(tǒng)計(jì)，并最終繪制了直方圖。為便于觀察，將直方圖復(fù)制至此，如圖4-1所示。圖4-1150名“網(wǎng)約車”司機(jī)日營業(yè)額的直方圖19“位置”的度量——眾數(shù)【例4.6】沿用例3.2的數(shù)據(jù)，試20“位置”的度量——眾數(shù)依據(jù)直方圖的含義，圖4-1中橫坐標(biāo)是“網(wǎng)約車”司機(jī)日營業(yè)額，每一個(gè)矩形的寬度對應(yīng)的是數(shù)據(jù)分組后每一組的取值區(qū)間，縱坐標(biāo)是頻數(shù)。因此，從圖形中可以非?？旖莸匕l(fā)現(xiàn)，矩形“最高峰”所在的位置就是眾數(shù)所在的組別，即350元至400元，取該組上下限的中點(diǎn)375元作為這150名“網(wǎng)約車”司機(jī)日營業(yè)額的眾數(shù)。20“位置”的度量——眾數(shù)依據(jù)直方圖的含義，圖4-1中橫坐標(biāo)21“位置”的度量均值、中位數(shù)和眾數(shù)是描述數(shù)據(jù)“中心位置”的三個(gè)主要統(tǒng)計(jì)量。由于均值利用了最多的原始數(shù)據(jù)信息，且容易理解，在日常生活中最為常用。但作為“重心”的均值，容易受到數(shù)據(jù)分布形狀的影響，如果數(shù)據(jù)存在較為嚴(yán)重的偏斜程度（即存在極端值），均值對一組數(shù)據(jù)平均水平的代表性較差，此時(shí)計(jì)算中位數(shù)可能是更好的選擇。而對于無序類別數(shù)據(jù)，使用眾數(shù)則是一種必然。21“位置”的度量均值、中位數(shù)和眾數(shù)是描述數(shù)據(jù)“中心位置”的22第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.2離散程度的度量22第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.2離散程度的度量23離散程度的度量——極差極差（range）是一組數(shù)據(jù)的最大值和最小值的差值，也稱全距，通常用R表示。極差計(jì)算簡單，反映了一組數(shù)據(jù)取值的波動(dòng)范圍。但極差只利用了最大值和最小值兩個(gè)數(shù)值的信息，對極端值十分敏感，對數(shù)據(jù)內(nèi)部的具體變動(dòng)情況揭示不夠完整。23離散程度的度量——極差極差（range）是一組數(shù)據(jù)的最大24離散程度的度量——極差【例4.7】針對新上映的兩部國產(chǎn)賀歲片，隨機(jī)采訪10位觀眾，評分結(jié)果如表4-5所示。試分別計(jì)算觀眾對兩部電影評分的極差。表4-510位觀眾對兩部國產(chǎn)賀歲片的評分單位：分24離散程度的度量——極差【例4.7】針對新上映的兩部國產(chǎn)賀25離散程度的度量——極差解：首先，將10位觀眾對兩部電影的評分分別由低到高排序，如表4-6所示。表4-610位觀眾對兩部國產(chǎn)賀歲片的評分（排序后）單位：分基于表4-6中的數(shù)據(jù)，10位觀眾對賀歲片1的最高評分為10分，最低評分為2分，因此極差=10-2=8分；而對賀歲片2的最高評分為9分，最低評分為6分，極差=9-6=3分。25離散程度的度量——極差解：首先，將10位觀眾對兩部電影的26離散程度的度量——四分位差四分位差（interquartilerange）是一組數(shù)據(jù)上四分位數(shù)與下四分位數(shù)的差值，也稱四分位距或內(nèi)距，通常用IQR表示，即IQR=Q75%-Q25%。四分位差反映了中間50%數(shù)據(jù)的離散程度，由上下四分位數(shù)的取值決定，不受數(shù)據(jù)極端值的影響。在箱線圖中，箱子的長度就等于四分位差。26離散程度的度量——四分位差四分位差（interquart27離散程度的度量——四分位差【例4.8】沿用例4.7的數(shù)據(jù)，試分別計(jì)算10位觀眾對兩部電影評分的四分位差。解：根據(jù)公式計(jì)算得到兩組評分的上下四分位數(shù)位置為：Q25%位置=(10+1)/4=2.75；Q75%位置=3×(10+1)/4=8.25因此，對賀歲片1有Q25%=5；Q75%=7+(8-7)×0.25=7.25；IQR=Q75%-Q25%=7.25-5=2.25（分）對賀歲片2有Q25%=7；Q75%=9；IQR=Q75%-Q25%=9-7=2（分）27離散程度的度量——四分位差【例4.8】沿用例4.7的數(shù)據(jù)28離散程度的度量——方差和標(biāo)準(zhǔn)差方差（variance）是用于度量一組數(shù)據(jù)中每一個(gè)數(shù)值與該組數(shù)據(jù)均值的平均偏離程度的重要統(tǒng)計(jì)量。設(shè)一組樣本數(shù)據(jù)為

，樣本數(shù)據(jù)的個(gè)數(shù)（即樣本量）為n，用

表示樣本方差，其計(jì)算公式為：方差通過計(jì)算每一個(gè)數(shù)值與均值的離差平方和，避免了數(shù)據(jù)變動(dòng)差值的正負(fù)抵消，再除以減去1之后的樣本量，反映了一組數(shù)據(jù)在均值附近取值的平均離散程度。28離散程度的度量——方差和標(biāo)準(zhǔn)差方差（variance）是29離散程度的度量——方差和標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差（standarddeviation）是方差的平方根，即由于方差和標(biāo)準(zhǔn)差利用了每一個(gè)原始數(shù)據(jù)的取值，揭示了比極差和四分位差更為全面的信息，因此是最常用的度量數(shù)據(jù)離散程度的統(tǒng)計(jì)量。相較于方差，標(biāo)準(zhǔn)差具有與原始數(shù)據(jù)相同的計(jì)量單位，更易理解，在分析實(shí)際問題時(shí)也被應(yīng)用得更頻繁。29離散程度的度量——方差和標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差（standard30離散程度的度量——方差和標(biāo)準(zhǔn)差【例4.9】沿用例4.7的數(shù)據(jù)，試分別計(jì)算10位觀眾對兩部電影評分的方差和標(biāo)準(zhǔn)差。解：分別用

和表示10位觀眾對兩部電影評分的均值，

和表示10位觀眾對兩部電影評分的方差。首先，根據(jù)均值公式計(jì)算得到然后，根據(jù)方差公式計(jì)算得到進(jìn)一步地30離散程度的度量——方差和標(biāo)準(zhǔn)差【例4.9】沿用例4.7的31離散程度的度量——離散系數(shù)離散系數(shù)（coefficientofvariation）是一組數(shù)據(jù)的標(biāo)準(zhǔn)差與該組數(shù)據(jù)均值的比值，也稱變異系數(shù)，通常用CV表示，其計(jì)算公式為：由于標(biāo)準(zhǔn)差與均值計(jì)量單位相同，而均值又在一定程度上代表了原始數(shù)據(jù)取值大小的一般水平，因此離散系數(shù)消除了二者對標(biāo)準(zhǔn)差的影響，反映了一組數(shù)據(jù)的相對離散程度，可用于不同數(shù)據(jù)的比較。31離散程度的度量——離散系數(shù)離散系數(shù)（coefficien32離散程度的度量——離散系數(shù)【例4.10】表4-7給出了2017年16家上市公司的每股收益數(shù)據(jù)，其中8家為醫(yī)藥企業(yè)，8家為鋼鐵企業(yè)。試比較這兩個(gè)不同行業(yè)公司每股收益的離散程度。表4-72017年16家上市公司的每股收益單位：元32離散程度的度量——離散系數(shù)【例4.10】表4-7給出了233離散程度的度量——離散系數(shù)解：分別用

和表示8家醫(yī)藥企業(yè)和8家鋼鐵企業(yè)每股收益的均值，

和表示各自的標(biāo)準(zhǔn)差。首先，根據(jù)公式計(jì)算得到進(jìn)一步計(jì)算醫(yī)藥企業(yè)和鋼鐵企業(yè)每股收益的離散系數(shù)，分別用

和表示33離散程度的度量——離散系數(shù)解：分別用和34第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.3分布形狀的度量34第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.3分布形狀的度量35分布形狀的度量借助直方圖（或箱線圖）可以初步地觀察數(shù)據(jù)的分布形狀。如果數(shù)據(jù)的直方圖只有一個(gè)“最高峰”，就是單峰分布。圖4-2給出了三種常見的數(shù)據(jù)單峰分布形狀，從圖中可以直觀地看出，圖4-2(a)、(b)、(c)分別為對稱分布、左偏分布和右偏分布。圖4-2三種常見的數(shù)據(jù)單峰分布形狀35分布形狀的度量借助直方圖（或箱線圖）可以初步地觀察數(shù)據(jù)的36分布形狀的度量——偏度系數(shù)偏度（skewness）是指數(shù)據(jù)分布的偏斜性（即不對稱性），測度數(shù)據(jù)分布偏斜程度的統(tǒng)計(jì)量稱為偏度系數(shù)（coefficientofskewness），通常用SK表示。設(shè)一組樣本數(shù)據(jù)為

，樣本數(shù)據(jù)的個(gè)數(shù)（即樣本量）為n，偏度系數(shù)的計(jì)算公式為：當(dāng)數(shù)據(jù)呈左右對稱分布時(shí)，偏度系數(shù)等于0，否則說明數(shù)據(jù)分布存在一定的偏斜程度。通常情況下，偏度系數(shù)大于1或小于-1，視為嚴(yán)重偏斜分布；偏度系數(shù)為0.5~1或-1~-0.5，視為中等偏斜分布；偏度系數(shù)為-0.5~0.5，視為輕微偏斜分布。36分布形狀的度量——偏度系數(shù)偏度（skewness）是指數(shù)37分布形狀的度量——偏度系數(shù)偏度系數(shù)為負(fù)值表示數(shù)據(jù)呈左偏分布，對應(yīng)圖4-2(b)，分布曲線的左側(cè)有一個(gè)長尾，說明數(shù)據(jù)中存在個(gè)別的極小值；偏度系數(shù)為正值表示數(shù)據(jù)呈右偏分布，對應(yīng)圖4-2(c)，分布曲線的右側(cè)有一個(gè)長尾，說明數(shù)據(jù)中存在個(gè)別的極大值。多數(shù)情況下，如果一組數(shù)據(jù)呈單峰對稱分布，那么這三個(gè)平均數(shù)應(yīng)該大體相等；如果數(shù)據(jù)呈左偏分布，作為“重心”的均值則會(huì)受極小值的影響，向左尾傾斜，三者的大小關(guān)系為

；反之，如果數(shù)據(jù)呈右偏分布，均值則會(huì)受極大值的影響，向右尾傾斜，從而

。37分布形狀的度量——偏度系數(shù)偏度系數(shù)為負(fù)值表示數(shù)據(jù)呈左偏分38分布形狀的度量——偏度系數(shù)圖4-3結(jié)合箱線圖直觀展示了三種數(shù)據(jù)分布形狀下均值、中位數(shù)和眾數(shù)的關(guān)系。圖4-3三種數(shù)據(jù)分布形狀下均值、中位數(shù)和眾數(shù)的關(guān)系38分布形狀的度量——偏度系數(shù)圖4-3結(jié)合箱線圖直觀展示了三39分布形狀的度量——峰度系數(shù)峰度（kurtosis）是指數(shù)據(jù)分布的陡峭程度（即峰值的高低），測度峰度的統(tǒng)計(jì)量稱為峰度系數(shù)（coefficientofkurtosis），通常用K表示。設(shè)一組樣本數(shù)據(jù)為

，樣本數(shù)據(jù)的個(gè)數(shù)（即樣本量）為n，峰度系數(shù)的計(jì)算公式為：由于標(biāo)準(zhǔn)正態(tài)分布的峰度系數(shù)為0，因此一組數(shù)據(jù)的峰度通常是與其相比較。如果峰度系數(shù)大于0，說明數(shù)據(jù)的峰值更陡峭，分布更集中；如果峰度系數(shù)小于0，則說明數(shù)據(jù)的峰值更扁平，分布更分散。39分布形狀的度量——峰度系數(shù)峰度（kurtosis）是指數(shù)40第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.4標(biāo)準(zhǔn)得分40第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.4標(biāo)準(zhǔn)得分41標(biāo)準(zhǔn)得分對于均值和標(biāo)準(zhǔn)差不同的兩組（或多組）數(shù)據(jù)，如何對其進(jìn)行比較？例如，某大學(xué)為金融專業(yè)本科生開設(shè)了兩個(gè)平行班的《統(tǒng)計(jì)學(xué)》課程，由兩位老師分別授課、統(tǒng)一考試。一班的期末考試平均成績?yōu)?5分，標(biāo)準(zhǔn)差為10分；二班的期末考試平均成績?yōu)?0分，標(biāo)準(zhǔn)差為6分。一班的小明和二班的小雨考試成績都是90分，誰的表現(xiàn)更好呢？41標(biāo)準(zhǔn)得分對于均值和標(biāo)準(zhǔn)差不同的兩組（或多組）數(shù)據(jù)，如何對42標(biāo)準(zhǔn)得分對于均值和標(biāo)準(zhǔn)差不同的兩組（或多組）數(shù)據(jù)，需要將其進(jìn)行標(biāo)準(zhǔn)化處理之后才能對比，而常用的一種標(biāo)準(zhǔn)化方法就是計(jì)算標(biāo)準(zhǔn)得分。標(biāo)準(zhǔn)得分（standardscore）是一組數(shù)據(jù)中的某個(gè)數(shù)值與該組數(shù)據(jù)均值之差再除以該組數(shù)據(jù)標(biāo)準(zhǔn)差之后的結(jié)果，又稱為z得分（z-score）。設(shè)一組樣本數(shù)據(jù)為

，用zi表示xi對應(yīng)的標(biāo)準(zhǔn)得分，其計(jì)算公式為：42標(biāo)準(zhǔn)得分對于均值和標(biāo)準(zhǔn)差不同的兩組（或多組）數(shù)據(jù)，需要將43標(biāo)準(zhǔn)得分標(biāo)準(zhǔn)得分的含義是某個(gè)數(shù)值離該組數(shù)據(jù)均值幾個(gè)標(biāo)準(zhǔn)差遠(yuǎn)，它測度了每個(gè)數(shù)值在該組數(shù)據(jù)中的相對位置。小明成績的標(biāo)準(zhǔn)得分是（90-75）/10=1.5，而小雨成績的標(biāo)準(zhǔn)得分是（90-80）/6=1.67，小雨的表現(xiàn)更好一些！將不同的原始數(shù)據(jù)轉(zhuǎn)換為標(biāo)準(zhǔn)得分，實(shí)際上是將其統(tǒng)一轉(zhuǎn)換到均值為0、方差為1的“新”尺度下，這樣就可以進(jìn)行“公平”的比較。43標(biāo)準(zhǔn)得分標(biāo)準(zhǔn)得分的含義是某個(gè)數(shù)值離該組數(shù)據(jù)均值幾個(gè)標(biāo)準(zhǔn)差44標(biāo)準(zhǔn)得分標(biāo)準(zhǔn)得分的另一個(gè)重要用途是幫助識別離群點(diǎn)。對于單峰對稱分布的數(shù)據(jù)，有經(jīng)驗(yàn)法則表明：均值加減1個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)應(yīng)包含一組數(shù)據(jù)大約68%的數(shù)值；均值加減2個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)應(yīng)包含一組數(shù)據(jù)大約95%的數(shù)值；均值加減3個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)應(yīng)包含一組數(shù)據(jù)大約99.73%的數(shù)值。也就是說，正常情況下，來自同一總體的一組樣本數(shù)據(jù)的標(biāo)準(zhǔn)得分應(yīng)該大部分在-2到2之間變化，否則就有些“不同尋?！?；而一個(gè)數(shù)值距離一組數(shù)據(jù)均值超過3個(gè)標(biāo)準(zhǔn)差的概率更是不到0.3%，這顯然是一個(gè)小概率事件。因此，如果一個(gè)數(shù)值的標(biāo)準(zhǔn)得分大于3或小于-3，人們常常會(huì)懷疑這可能是一個(gè)離群點(diǎn)。44標(biāo)準(zhǔn)得分標(biāo)準(zhǔn)得分的另一個(gè)重要用途是幫助識別離群點(diǎn)。對于單45第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.5小結(jié)45第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.5小結(jié)46小結(jié)借助統(tǒng)計(jì)量可以直觀快捷地揭示數(shù)據(jù)的基本分布特征，不同的統(tǒng)計(jì)量有各自的優(yōu)缺點(diǎn)和適用情形。均值、中位數(shù)和眾數(shù)是度量一組數(shù)據(jù)“中心位置”的三個(gè)常用平均數(shù)，也可以根據(jù)分析需要計(jì)算其他指定的百分位數(shù)。平均數(shù)對一組數(shù)據(jù)的代表性好壞與其離散程度有直接關(guān)聯(lián)，方差和標(biāo)準(zhǔn)差是最常用的度量一組數(shù)據(jù)離散程度的統(tǒng)計(jì)量，要對比多組數(shù)據(jù)的離散程度，則應(yīng)計(jì)算離散系數(shù)。46小結(jié)借助統(tǒng)計(jì)量可以直觀快捷地揭示數(shù)據(jù)的基本分布特征，不同47小結(jié)偏度系數(shù)和峰度系數(shù)可以分別度量數(shù)據(jù)分布的偏斜程度以及峰值的高低，如果數(shù)據(jù)分布左右對稱，均值、中位數(shù)和眾數(shù)大體相等，均值作為一組數(shù)據(jù)平均水平的代表是最好的選擇；但如果數(shù)據(jù)存在較為嚴(yán)重的偏斜程度，中位數(shù)的代表性會(huì)更好；而對于無序類別數(shù)據(jù)，眾數(shù)則是一種必然選擇。對于均值和標(biāo)準(zhǔn)差不同的數(shù)據(jù)，可以將其轉(zhuǎn)換為標(biāo)準(zhǔn)得分再進(jìn)行比較，并且利用標(biāo)準(zhǔn)得分還可以判斷某個(gè)數(shù)值在一組數(shù)據(jù)中的相對位置是否異常，識別可能存在的離群點(diǎn)。47小結(jié)偏度系數(shù)和峰度系數(shù)可以分別度量數(shù)據(jù)分布的偏斜程度以及48統(tǒng)計(jì)學(xué)

Statistics1統(tǒng)計(jì)學(xué)

Statistics49第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.1“位置”的度量4.2離散程度的度量4.3分布形狀的度量4.4標(biāo)準(zhǔn)得分4.5小結(jié)2第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.1“位置”的度50數(shù)據(jù)的描述統(tǒng)計(jì)量不包含總體的任何未知參數(shù)的樣本的函數(shù)，稱為統(tǒng)計(jì)量（statistic）。不同的統(tǒng)計(jì)量可以從不同的角度描述數(shù)據(jù)的分布特征，主要包括三個(gè)方面：一是數(shù)據(jù)的“位置”；二是數(shù)據(jù)的離散程度；三是數(shù)據(jù)的分布形狀。3數(shù)據(jù)的描述統(tǒng)計(jì)量不包含總體的任何未知參數(shù)的樣本的函數(shù)，稱為51第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.1“位置”的度量4第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.1“位置”的度量52“位置”的度量——均值均值（mean）是將一組數(shù)據(jù)加總后除以數(shù)據(jù)的個(gè)數(shù)得到的結(jié)果。設(shè)一組樣本數(shù)據(jù)為

，樣本數(shù)據(jù)的個(gè)數(shù)（即樣本量）為n，用

表示樣本均值，其計(jì)算公式為：根據(jù)上式計(jì)算得到的平均數(shù)也稱為簡單平均數(shù)（simplemean）或算術(shù)平均數(shù)（arithmeticaverage）。5“位置”的度量——均值均值（mean）是將一組數(shù)據(jù)加總后除53“位置”的度量——均值【例4.1】2018年10月25日，美國財(cái)經(jīng)雜志《福布斯》（Forbes）發(fā)布了2018福布斯中國富豪榜，排名前十位的企業(yè)家財(cái)富值如表4-1，試計(jì)算十位企業(yè)家的平均財(cái)富值。表4-12018年福布斯中國十大富豪財(cái)富值單位：億元解：如果用均值來反映這十位企業(yè)家的平均財(cái)富水平，根據(jù)公式計(jì)算得到6“位置”的度量——均值【例4.1】2018年10月25日，54“位置”的度量——均值由于均值用到了原始數(shù)據(jù)的所有信息，相當(dāng)于是一組數(shù)據(jù)的“重心”位置，因此在現(xiàn)實(shí)中應(yīng)用非常廣泛。但也正是因?yàn)榫档倪@一特點(diǎn)，任何一個(gè)數(shù)據(jù)的取值發(fā)生變化，均值也會(huì)隨之改變。如果一組數(shù)據(jù)中出現(xiàn)了極端值（極大值或極小值），作為“重心”的均值就會(huì)向極端值傾斜，對平均水平的代表性可能就會(huì)受到較大影響。7“位置”的度量——均值由于均值用到了原始數(shù)據(jù)的所有信息，相55“位置”的度量——中位數(shù)中位數(shù)（median）是將一組數(shù)據(jù)排序后位于中間位置的那個(gè)數(shù)值。如果一組數(shù)據(jù)

，用

表示樣本中位數(shù)，其計(jì)算公式為：8“位置”的度量——中位數(shù)中位數(shù)（median）是將一組數(shù)據(jù)56“位置”的度量——中位數(shù)【例4.2】沿用例4.1的數(shù)據(jù)，試計(jì)算十位企業(yè)家財(cái)富值的中位數(shù)。解：表4-1已經(jīng)給出了按照財(cái)富值排序后的十位企業(yè)家，由于n是偶數(shù)，位于中間的是排名第5和第6的兩位企業(yè)家，其財(cái)富值分別是1345.5億元和1179.9億元，因此根據(jù)公式計(jì)算得到9“位置”的度量——中位數(shù)【例4.2】沿用例4.1的數(shù)據(jù)，試57“位置”的度量——中位數(shù)中位數(shù)主要由一組數(shù)據(jù)的大小順序和位于中間位置的數(shù)值決定，并沒有充分利用每一個(gè)數(shù)據(jù)的取值信息。但也正因?yàn)榇?，中位?shù)對數(shù)據(jù)中可能存在的極端值并不敏感，即使其他所有數(shù)據(jù)的取值都發(fā)生變化，只要位于中間位置的數(shù)值不變，中位數(shù)就將保持不變。10“位置”的度量——中位數(shù)中位數(shù)主要由一組數(shù)據(jù)的大小順序和58“位置”的度量——四分位數(shù)四分位數(shù)（quartile）是將一組數(shù)據(jù)由小到大排序后，分別位于25%、50%和75%位置上的三個(gè)數(shù)。四分位數(shù)將數(shù)據(jù)等分為四份，第二四分位數(shù)就是中位數(shù)（50%分位數(shù)），也可表示為Q50%。位于75%位置的第一四分位數(shù)稱為上四分位數(shù)，記為Q75%，表示該組數(shù)據(jù)中有75%的數(shù)值小于或等于它。位于25%位置的第三四分位數(shù)則稱為下四分位數(shù),記為Q25%，表示該組數(shù)據(jù)中有25%的數(shù)值小于或等于它。11“位置”的度量——四分位數(shù)四分位數(shù)（quartile）是59“位置”的度量——四分位數(shù)上下四分位數(shù)的計(jì)算方法與中位數(shù)類似，先將數(shù)據(jù)由小到大排序，然后確定四分位數(shù)所在的位置：Q25%位置=，Q75%位置=如果根據(jù)公式計(jì)算得到的位置是整數(shù)，四分位數(shù)就是該位置對應(yīng)的數(shù)值，否則就要對該位置左右兩個(gè)數(shù)值進(jìn)行相應(yīng)的線性插值。12“位置”的度量——四分位數(shù)上下四分位數(shù)的計(jì)算方法與中位數(shù)60“位置”的度量——四分位數(shù)【例4.3】沿用例4.1的數(shù)據(jù)，試計(jì)算十位企業(yè)家財(cái)富值的上下四分位數(shù)。解：首先，需要將十位企業(yè)家按照財(cái)富值由低到高排序（與表4-1中的排序恰好相反），如表4-2所示。表4-22018年福布斯中國十大富豪財(cái)富值（由低到高排序）單位：億元然后，根據(jù)公式計(jì)算得到上下四分位數(shù)位置分別為：Q25%位置=(10+1)/4=2.75；Q75%位置=3×(10+1)/4=8.25。因此，下四分位數(shù)位于表4-2中排在第2和第3的兩位企業(yè)家財(cái)富值之間0.75的位置，即Q25%=979.8+(1007.4-979.8)×0.75=1000.5億元；上四分位數(shù)位于表4-2中排在第8和第9的兩位企業(yè)家財(cái)富值之間0.25的位置，即Q75%=2125.2+(2263.2-2125.2)×0.25=2160億元。13“位置”的度量——四分位數(shù)【例4.3】沿用例4.1的數(shù)據(jù)61“位置”的度量——百分位數(shù)如果一組數(shù)據(jù)由小到大排序后，用99個(gè)點(diǎn)將數(shù)據(jù)劃分成100等份，那么這些分位點(diǎn)上對應(yīng)的數(shù)值就是百分位數(shù)（percentile）。人們可以根據(jù)需要計(jì)算k%分位數(shù)，表示數(shù)據(jù)中有k%的數(shù)值小于或等于它。將一組數(shù)據(jù)由小到大排序后，百分位數(shù)的位置為：k%分位數(shù)位置=(n+1)×k%如果根據(jù)公式計(jì)算得到的位置是整數(shù)，k%分位數(shù)就是該位置對應(yīng)的數(shù)值，否則就要對該位置左右兩個(gè)數(shù)值進(jìn)行相應(yīng)的線性插值。14“位置”的度量——百分位數(shù)如果一組數(shù)據(jù)由小到大排序后，用62“位置”的度量——百分位數(shù)【例4.4】沿用例4.3的數(shù)據(jù)，試計(jì)算十位企業(yè)家財(cái)富值的10%分位數(shù)和90%分位數(shù)。解：表4-2已經(jīng)給出十位企業(yè)家財(cái)富值由低到高的排序結(jié)果，根據(jù)公式計(jì)算得到該例中的10%和90%分位數(shù)的位置分別為：10%分位數(shù)位置=(10+1)×10%=1.1因此，10%分位數(shù)位于表4-2中排在第1和第2的兩位企業(yè)家財(cái)富值之間0.1的位置，即10%分位數(shù)=931.5+(979.8-931.5)×0.1=936.3億元；90%分位數(shù)位于表4-2中排在第9和第10的兩位企業(yè)家財(cái)富值之間0.9的位置，即90%分位數(shù)=2263.2+(2387.4-2263.2)×0.9=2375億元。90%分位數(shù)位置=(10+1)×90%=9.915“位置”的度量——百分位數(shù)【例4.4】沿用例4.3的數(shù)據(jù)63“位置”的度量——眾數(shù)眾數(shù)（mode）是一組數(shù)據(jù)中出現(xiàn)頻數(shù)最高的數(shù)值，通常用

表示。對于類別數(shù)據(jù)（尤其是無序類別數(shù)據(jù)），眾數(shù)是用于描述其“中心位置”的一個(gè)常用平均數(shù)，因?yàn)轭悇e數(shù)據(jù)無法計(jì)算均值（無序類別數(shù)據(jù)也不能計(jì)算中位數(shù)）。眾數(shù)的確定十分簡單，也不會(huì)受極端值的影響。但可以想象，如果一組數(shù)據(jù)中不同取值出現(xiàn)的頻數(shù)都相同，那么就沒有眾數(shù)；而如果一組數(shù)據(jù)的分布存在兩個(gè)甚至更多個(gè)“高峰”，那么眾數(shù)可能不唯一。此外，眾數(shù)只告訴我們一組數(shù)據(jù)中哪個(gè)數(shù)值出現(xiàn)的次數(shù)最多，卻掩蓋了所有數(shù)據(jù)的具體取值。16“位置”的度量——眾數(shù)眾數(shù)（mode）是一組數(shù)據(jù)中出現(xiàn)頻64“位置”的度量——眾數(shù)【例4.5】某大學(xué)新開設(shè)“數(shù)據(jù)科學(xué)”實(shí)驗(yàn)班，并面向2019級全校本科生進(jìn)行選拔，最終進(jìn)入該實(shí)驗(yàn)班的20名同學(xué)的性別和年齡如表4-3所示。試確定這20名同學(xué)性別和年齡的眾數(shù)。表4-3“數(shù)據(jù)科學(xué)”實(shí)驗(yàn)班20名同學(xué)的性別和年齡17“位置”的度量——眾數(shù)【例4.5】某大學(xué)新開設(shè)“數(shù)據(jù)科學(xué)65“位置”的度量——眾數(shù)解：基于表4-3中的數(shù)據(jù)分別統(tǒng)計(jì)“性別”和“年齡”兩個(gè)變量不同取值出現(xiàn)的頻數(shù)，如表4-4所示。表4-4“數(shù)據(jù)科學(xué)”實(shí)驗(yàn)班20名同學(xué)性別和年齡的頻數(shù)統(tǒng)計(jì)顯然，該實(shí)驗(yàn)班男同學(xué)的人數(shù)遠(yuǎn)多于女同學(xué)，因此“性別”的眾數(shù)是男性；20名同學(xué)中19歲的人數(shù)也多于其他年齡的人數(shù)，因此“年齡”的眾數(shù)是19歲。18“位置”的度量——眾數(shù)解：基于表4-3中的數(shù)據(jù)分別統(tǒng)計(jì)“66“位置”的度量——眾數(shù)【例4.6】沿用例3.2的數(shù)據(jù)，試結(jié)合直方圖確定150名“網(wǎng)約車”司機(jī)日營業(yè)額的眾數(shù)。解：在例3.2中，我們已經(jīng)對150名“網(wǎng)約車”司機(jī)日營業(yè)額數(shù)據(jù)進(jìn)行了分組和頻數(shù)統(tǒng)計(jì)，并最終繪制了直方圖。為便于觀察，將直方圖復(fù)制至此，如圖4-1所示。圖4-1150名“網(wǎng)約車”司機(jī)日營業(yè)額的直方圖19“位置”的度量——眾數(shù)【例4.6】沿用例3.2的數(shù)據(jù)，試67“位置”的度量——眾數(shù)依據(jù)直方圖的含義，圖4-1中橫坐標(biāo)是“網(wǎng)約車”司機(jī)日營業(yè)額，每一個(gè)矩形的寬度對應(yīng)的是數(shù)據(jù)分組后每一組的取值區(qū)間，縱坐標(biāo)是頻數(shù)。因此，從圖形中可以非?？旖莸匕l(fā)現(xiàn)，矩形“最高峰”所在的位置就是眾數(shù)所在的組別，即350元至400元，取該組上下限的中點(diǎn)375元作為這150名“網(wǎng)約車”司機(jī)日營業(yè)額的眾數(shù)。20“位置”的度量——眾數(shù)依據(jù)直方圖的含義，圖4-1中橫坐標(biāo)68“位置”的度量均值、中位數(shù)和眾數(shù)是描述數(shù)據(jù)“中心位置”的三個(gè)主要統(tǒng)計(jì)量。由于均值利用了最多的原始數(shù)據(jù)信息，且容易理解，在日常生活中最為常用。但作為“重心”的均值，容易受到數(shù)據(jù)分布形狀的影響，如果數(shù)據(jù)存在較為嚴(yán)重的偏斜程度（即存在極端值），均值對一組數(shù)據(jù)平均水平的代表性較差，此時(shí)計(jì)算中位數(shù)可能是更好的選擇。而對于無序類別數(shù)據(jù)，使用眾數(shù)則是一種必然。21“位置”的度量均值、中位數(shù)和眾數(shù)是描述數(shù)據(jù)“中心位置”的69第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.2離散程度的度量22第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.2離散程度的度量70離散程度的度量——極差極差（range）是一組數(shù)據(jù)的最大值和最小值的差值，也稱全距，通常用R表示。極差計(jì)算簡單，反映了一組數(shù)據(jù)取值的波動(dòng)范圍。但極差只利用了最大值和最小值兩個(gè)數(shù)值的信息，對極端值十分敏感，對數(shù)據(jù)內(nèi)部的具體變動(dòng)情況揭示不夠完整。23離散程度的度量——極差極差（range）是一組數(shù)據(jù)的最大71離散程度的度量——極差【例4.7】針對新上映的兩部國產(chǎn)賀歲片，隨機(jī)采訪10位觀眾，評分結(jié)果如表4-5所示。試分別計(jì)算觀眾對兩部電影評分的極差。表4-510位觀眾對兩部國產(chǎn)賀歲片的評分單位：分24離散程度的度量——極差【例4.7】針對新上映的兩部國產(chǎn)賀72離散程度的度量——極差解：首先，將10位觀眾對兩部電影的評分分別由低到高排序，如表4-6所示。表4-610位觀眾對兩部國產(chǎn)賀歲片的評分（排序后）單位：分基于表4-6中的數(shù)據(jù)，10位觀眾對賀歲片1的最高評分為10分，最低評分為2分，因此極差=10-2=8分；而對賀歲片2的最高評分為9分，最低評分為6分，極差=9-6=3分。25離散程度的度量——極差解：首先，將10位觀眾對兩部電影的73離散程度的度量——四分位差四分位差（interquartilerange）是一組數(shù)據(jù)上四分位數(shù)與下四分位數(shù)的差值，也稱四分位距或內(nèi)距，通常用IQR表示，即IQR=Q75%-Q25%。四分位差反映了中間50%數(shù)據(jù)的離散程度，由上下四分位數(shù)的取值決定，不受數(shù)據(jù)極端值的影響。在箱線圖中，箱子的長度就等于四分位差。26離散程度的度量——四分位差四分位差（interquart74離散程度的度量——四分位差【例4.8】沿用例4.7的數(shù)據(jù)，試分別計(jì)算10位觀眾對兩部電影評分的四分位差。解：根據(jù)公式計(jì)算得到兩組評分的上下四分位數(shù)位置為：Q25%位置=(10+1)/4=2.75；Q75%位置=3×(10+1)/4=8.25因此，對賀歲片1有Q25%=5；Q75%=7+(8-7)×0.25=7.25；IQR=Q75%-Q25%=7.25-5=2.25（分）對賀歲片2有Q25%=7；Q75%=9；IQR=Q75%-Q25%=9-7=2（分）27離散程度的度量——四分位差【例4.8】沿用例4.7的數(shù)據(jù)75離散程度的度量——方差和標(biāo)準(zhǔn)差方差（variance）是用于度量一組數(shù)據(jù)中每一個(gè)數(shù)值與該組數(shù)據(jù)均值的平均偏離程度的重要統(tǒng)計(jì)量。設(shè)一組樣本數(shù)據(jù)為

，樣本數(shù)據(jù)的個(gè)數(shù)（即樣本量）為n，用

表示樣本方差，其計(jì)算公式為：方差通過計(jì)算每一個(gè)數(shù)值與均值的離差平方和，避免了數(shù)據(jù)變動(dòng)差值的正負(fù)抵消，再除以減去1之后的樣本量，反映了一組數(shù)據(jù)在均值附近取值的平均離散程度。28離散程度的度量——方差和標(biāo)準(zhǔn)差方差（variance）是76離散程度的度量——方差和標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差（standarddeviation）是方差的平方根，即由于方差和標(biāo)準(zhǔn)差利用了每一個(gè)原始數(shù)據(jù)的取值，揭示了比極差和四分位差更為全面的信息，因此是最常用的度量數(shù)據(jù)離散程度的統(tǒng)計(jì)量。相較于方差，標(biāo)準(zhǔn)差具有與原始數(shù)據(jù)相同的計(jì)量單位，更易理解，在分析實(shí)際問題時(shí)也被應(yīng)用得更頻繁。29離散程度的度量——方差和標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差（standard77離散程度的度量——方差和標(biāo)準(zhǔn)差【例4.9】沿用例4.7的數(shù)據(jù)，試分別計(jì)算10位觀眾對兩部電影評分的方差和標(biāo)準(zhǔn)差。解：分別用

和表示10位觀眾對兩部電影評分的均值，

和表示10位觀眾對兩部電影評分的方差。首先，根據(jù)均值公式計(jì)算得到然后，根據(jù)方差公式計(jì)算得到進(jìn)一步地30離散程度的度量——方差和標(biāo)準(zhǔn)差【例4.9】沿用例4.7的78離散程度的度量——離散系數(shù)離散系數(shù)（coefficientofvariation）是一組數(shù)據(jù)的標(biāo)準(zhǔn)差與該組數(shù)據(jù)均值的比值，也稱變異系數(shù)，通常用CV表示，其計(jì)算公式為：由于標(biāo)準(zhǔn)差與均值計(jì)量單位相同，而均值又在一定程度上代表了原始數(shù)據(jù)取值大小的一般水平，因此離散系數(shù)消除了二者對標(biāo)準(zhǔn)差的影響，反映了一組數(shù)據(jù)的相對離散程度，可用于不同數(shù)據(jù)的比較。31離散程度的度量——離散系數(shù)離散系數(shù)（coefficien79離散程度的度量——離散系數(shù)【例4.10】表4-7給出了2017年16家上市公司的每股收益數(shù)據(jù)，其中8家為醫(yī)藥企業(yè)，8家為鋼鐵企業(yè)。試比較這兩個(gè)不同行業(yè)公司每股收益的離散程度。表4-72017年16家上市公司的每股收益單位：元32離散程度的度量——離散系數(shù)【例4.10】表4-7給出了280離散程度的度量——離散系數(shù)解：分別用

和表示8家醫(yī)藥企業(yè)和8家鋼鐵企業(yè)每股收益的均值，

和表示33離散程度的度量——離散系數(shù)解：分別用和81第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.3分布形狀的度量34第4章數(shù)據(jù)的描述統(tǒng)計(jì)量4.3分布形狀的度量82分布形狀的度量借助直方圖（或箱線圖）可以初步地觀察數(shù)據(jù)的分布形狀。如果數(shù)據(jù)的直方圖只有一個(gè)“最高峰”，就是單峰分布。圖4-2給出了三種常見的數(shù)據(jù)單峰分布形狀，從圖中可以直觀地看出，圖4-2(a)、(b)、(c)分別為對稱分布、左偏分布和右偏分布。圖4-2三種常見的數(shù)據(jù)單峰分布形狀35分布形狀的度量借助直方圖（或箱線圖）可以初步地觀察數(shù)據(jù)的83分布形狀的度量——偏度系數(shù)偏度（skewness）是指數(shù)據(jù)分布的偏斜性（即不對稱性），測度數(shù)據(jù)分布偏斜程度的統(tǒng)計(jì)量稱為偏度系數(shù)（coefficientofskewness），通常用SK表示。設(shè)一組樣本數(shù)據(jù)為

，樣本數(shù)據(jù)的個(gè)數(shù)（即樣本量）為n，偏度系數(shù)的計(jì)算公式為：當(dāng)數(shù)據(jù)呈左右對稱分布時(shí)，偏度系數(shù)等于0，否則說明數(shù)據(jù)分布存在一定的偏斜程度。通常情況下，偏度系數(shù)大于1或小于-1，視為嚴(yán)重偏斜分布；偏度系數(shù)為0.5~1或-1~-0.5，視為中等偏斜分布；偏度系數(shù)為-0.5~0.5，視為輕微偏斜分布。36分布形狀的度量——偏度系數(shù)偏度（skewness）是指數(shù)84分布形狀的度量——偏度系數(shù)偏度系數(shù)為負(fù)值表示數(shù)據(jù)呈左偏分布，對應(yīng)圖4-2(b)，分布曲線的左側(cè)有一個(gè)長尾，說明數(shù)據(jù)中存在個(gè)別的極小值；偏度系數(shù)為正值表示數(shù)據(jù)呈右偏分布，對應(yīng)圖4-2(c)，分布曲線的右側(cè)有一個(gè)長尾，說明數(shù)據(jù)中存在個(gè)別的極大值。多數(shù)情況下，如果一組數(shù)據(jù)呈單峰對稱分布，那么這三個(gè)平均數(shù)應(yīng)該大體相等；如果數(shù)據(jù)呈左偏分布，作為“重心”的均值則會(huì)受極小值的影響，向左尾傾斜，三者的大小關(guān)系為

；反之，如果數(shù)據(jù)呈右偏分布，均值則會(huì)受極大值的影響，向右尾傾斜，從而

。37分布形狀的度量——偏度系數(shù)偏度系數(shù)為負(fù)值表示數(shù)據(jù)呈左偏分85

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

統(tǒng)計(jì)學(xué)-數(shù)據(jù)的描述統(tǒng)計(jì)量課件

文檔簡介

溫馨提示

最新文檔

評論

統(tǒng)計(jì)學(xué)-數(shù)據(jù)的描述統(tǒng)計(jì)量課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔