統(tǒng)計(jì)學(xué)：04 數(shù)據(jù)的概括性度量

上傳人：窩*** IP屬地：安徽上傳時(shí)間：2023-02-05 格式：PPT 頁數(shù)：76 大?。?.41MB 積分：40 舉報(bào) 版權(quán)申訴

統(tǒng)計(jì)學(xué)：04 數(shù)據(jù)的概括性度量_第2頁

統(tǒng)計(jì)學(xué)：04 數(shù)據(jù)的概括性度量_第3頁

統(tǒng)計(jì)學(xué)：04 數(shù)據(jù)的概括性度量_第4頁

統(tǒng)計(jì)學(xué)：04 數(shù)據(jù)的概括性度量_第5頁

已閱讀5頁，還剩71頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)類型品質(zhì)數(shù)據(jù)數(shù)值型數(shù)據(jù)匯總表原始數(shù)據(jù)分組數(shù)據(jù)時(shí)序數(shù)據(jù)多變量數(shù)據(jù)條形圖餅圖環(huán)形圖莖葉圖箱線圖直方圖線圖散點(diǎn)圖氣泡圖雷達(dá)圖數(shù)據(jù)的整理1.品質(zhì)數(shù)據(jù)的整理：數(shù)據(jù)的分類2.數(shù)值型數(shù)據(jù)的整理：數(shù)據(jù)的分組上節(jié)內(nèi)容總結(jié)第四章數(shù)據(jù)分布特征的測度統(tǒng)計(jì)學(xué)第四章數(shù)據(jù)分布特征的測度§4.1集中趨勢的測度§4.2離散程度的測度§4.3偏態(tài)與峰態(tài)的測度§4.1集中趨勢的測度4.1.1.分類數(shù)據(jù)：眾數(shù)4.1.2.順序數(shù)據(jù)：中位數(shù)和分位數(shù)4.1.3.數(shù)值型數(shù)據(jù)：平均數(shù)4.1.4.眾數(shù)、中位數(shù)和平均數(shù)的比較一.集中趨勢1.集中趨勢(Centraltendency)是指一組數(shù)據(jù)向其中心值靠攏的傾向和程度，它反映了一組數(shù)據(jù)中心點(diǎn)的位置所在。2.不同類型的數(shù)據(jù)用不同的集中趨勢測度值3.低層次數(shù)據(jù)的集中趨勢測度值適用于高層次的測量數(shù)據(jù)，反過來，高層次數(shù)據(jù)的集中趨勢測度值并不適用于低層次的測量數(shù)據(jù)4.選用哪一個(gè)測度值來反映數(shù)據(jù)的集中趨勢，要根據(jù)所掌握的數(shù)據(jù)的類型來確定4.1.1分類數(shù)據(jù)--眾數(shù)1.眾數(shù)是指一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值，用M0

表示，它是集中趨勢的測度值之一2.眾數(shù)主要用于分類數(shù)據(jù)，也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)3.眾數(shù)是一個(gè)位置代表值，它不受極端值的影響。一組數(shù)據(jù)可能沒有眾數(shù)，也可能有幾個(gè)眾數(shù)。眾數(shù)(眾數(shù)的不唯一性)一個(gè)眾數(shù)

原始數(shù)據(jù):567

9877多于一個(gè)眾數(shù)

原始數(shù)據(jù):252828

36424248無眾數(shù)

原始數(shù)據(jù):10591268一個(gè)眾數(shù)

原始數(shù)據(jù):567

877分類數(shù)據(jù)的眾數(shù)(例題)【例4.1】根據(jù)第三章表3－4中的數(shù)據(jù)，計(jì)算“飲料品牌”眾數(shù)解：這里的變量為“飲料品牌”，是個(gè)分類變量，不同的品牌就是變量值。在所調(diào)查的50人中，購買碳酸飲料的人數(shù)最多，為15人，因此眾數(shù)為“可口可樂”這一品牌，即

Mo＝碳酸飲料表3-4不同品牌飲料的頻數(shù)分布飲料品牌戶數(shù)(戶)百分比(%)

果汁礦泉水綠茶其他碳酸飲料610118151220221630合計(jì)50100順序數(shù)據(jù)的眾數(shù)(例題)【例4.2】根據(jù)第三章甲城市家庭對住房狀況評價(jià)的數(shù)據(jù)，計(jì)算眾數(shù)解：這里的數(shù)據(jù)為順序數(shù)據(jù)。變量為“回答類別”。甲城市中對住房表示不滿意的戶數(shù)最多，為108戶，因此眾數(shù)為“不滿意”這一類別，即

Mo＝不滿意表3-6甲城市家庭對住房狀況評價(jià)的頻數(shù)分布回答類別甲城市戶數(shù)(戶)百分比(%)

非常不滿意

不滿意

一般

滿意

非常滿意24108934530836311510合計(jì)300100.0順序數(shù)據(jù)的眾數(shù)表3-7乙城市家庭對住房狀況評價(jià)的頻數(shù)分布回答類別乙城市戶數(shù)(戶)百分比(%)

非常不滿意

不滿意

一般

滿意

非常滿意21997864387.033.026.021.312.7合計(jì)300100.0

根據(jù)第三章乙城市家庭對住房狀況評價(jià)的數(shù)據(jù)，計(jì)算眾數(shù)解：這里的數(shù)據(jù)為順序數(shù)據(jù)。變量為“回答類別”。乙城市中對住房表示不滿意的戶數(shù)最多，為99戶，因此眾數(shù)為“不滿意”這一類別，即

Mo＝不滿意數(shù)值型數(shù)據(jù)的眾數(shù)(例題)【例4.3】在某城市中隨機(jī)抽取9個(gè)家庭，調(diào)查得到每個(gè)家庭的人均月收入數(shù)據(jù)如下(單位：元)。要求計(jì)算人均月收入的眾數(shù)。108075010801080850960200012501630解：人均月收入出現(xiàn)頻數(shù)最多的是1080，因此，眾數(shù)Mo＝1080元。Excel中的統(tǒng)計(jì)函數(shù)：利用MODE函數(shù)可計(jì)算數(shù)值型數(shù)據(jù)的眾數(shù)。4.1.2順序數(shù)據(jù)：中位數(shù)和分位數(shù)在一組數(shù)據(jù)中，可以找出某個(gè)位置上的數(shù)據(jù)，這些位置上的數(shù)據(jù)就是相應(yīng)的分位數(shù)，包括中位數(shù)、四分位數(shù)、十分位數(shù)、百分位數(shù)等。Me50%50%1.中位數(shù)(2)中位數(shù)主要用于測度順序數(shù)據(jù)的集中趨勢，也可用于數(shù)值型數(shù)據(jù)的集中趨勢，但不能用于分類數(shù)據(jù)的集中趨勢。(1)中位數(shù)是一組數(shù)據(jù)排序后處于中間位置上的變量值，用Me來表示。(3)中位數(shù)不受極端值的影響。中位數(shù)的位置確定未分組數(shù)據(jù)計(jì)算中位數(shù)的步驟：(1)對數(shù)據(jù)進(jìn)行排序：(2)確定中位數(shù)的位置：(3)求出中位數(shù)的值：順序數(shù)據(jù)的中位數(shù)(例題)【例4.4】根據(jù)第三章甲城市家庭對住房狀況評價(jià)的數(shù)據(jù)，計(jì)算中位數(shù)解：這是順序數(shù)據(jù)。變量為“回答類別”。其中的五個(gè)選項(xiàng)即為變量值。由于變量值本身就是排序的，根據(jù)中位數(shù)的位置確定公式有：表3-6甲城市家庭對住房狀況評價(jià)的頻數(shù)分布回答類別甲城市戶數(shù)(戶)向上累積頻數(shù)

非常不滿意

不滿意

一般

滿意

非常滿意2410893453024132225270300合計(jì)300－順序數(shù)據(jù)的中位數(shù)(例題)表3-7乙城市家庭對住房狀況評價(jià)的頻數(shù)分布回答類別乙城市戶數(shù)(戶)向上累積頻數(shù)

非常不滿意

不滿意

一般

滿意

非常滿意219978643821120198262300合計(jì)300－

根據(jù)第三章乙城市家庭對住房狀況評價(jià)的數(shù)據(jù)，計(jì)算中位數(shù)解：這是順序數(shù)據(jù)。變量為“回答類別”。其中的五個(gè)選項(xiàng)即為變量值。由于變量值本身就是排序的，根據(jù)中位數(shù)的位置確定公式有：數(shù)值型數(shù)據(jù)的中位數(shù)(例題)【例4.5】在某城市中隨機(jī)抽取9個(gè)家庭，調(diào)查得到每個(gè)家庭的人均月收入數(shù)據(jù)如下(單位：元)。要求計(jì)算人均月收入的中位數(shù)。15007507801080850960200012501630解：先將上面的數(shù)據(jù)排序，結(jié)果如下：75078085096010801250150016302000所以中位數(shù)是1080，即Me＝1080元。數(shù)值型數(shù)據(jù)的中位數(shù)(例題)如果數(shù)據(jù)個(gè)數(shù)為偶數(shù)時(shí)怎樣計(jì)算中位數(shù)。假定在例4.5中抽取了10個(gè)家庭，每個(gè)家庭的人均月收入數(shù)據(jù)排序后為：66075078085096010801250150016302000Excel中的統(tǒng)計(jì)函數(shù)：利用MEDIAN函數(shù)可計(jì)算數(shù)值型數(shù)據(jù)的中位數(shù)。四分位數(shù)中位數(shù)是從中間點(diǎn)將全部數(shù)據(jù)等分為兩部分。與中位數(shù)類似的還有四分位數(shù)、十分位數(shù)、百分位數(shù)等。它們分別是用3個(gè)點(diǎn)、9個(gè)點(diǎn)、99個(gè)點(diǎn)將數(shù)據(jù)4等分、10等分、100等分后各分位點(diǎn)上的值。2.四分位數(shù)四分位數(shù)也稱四分位點(diǎn)，它是一組數(shù)據(jù)排序后處于25％和75％位置上的值。四分位數(shù)是通過3個(gè)點(diǎn)將全部數(shù)據(jù)等分為4部分，其中每部分包含25％的數(shù)據(jù)。顯然，中間的四分位數(shù)就是中位數(shù)，因此通常所說的四分位數(shù)是指在25％位置上的數(shù)據(jù)(稱為下四分位數(shù))和處在75％位置上的數(shù)據(jù)(稱為上四分位數(shù))。QLMeQU25%25%25%25%四分位數(shù)的確定計(jì)算四分位數(shù)的步驟：(1)對數(shù)據(jù)進(jìn)行排序：(2)確定四分位數(shù)的位置：(3)求出四分位數(shù)的值：如果位置是整數(shù)，四分位數(shù)就是該位置對應(yīng)的值；如果是在0.5的位置上，則取該位置兩側(cè)的平均數(shù)；如果是在0.25或0.75的位置上，則四分位數(shù)等于該位置的下側(cè)值加上按比例分?jǐn)們蓚?cè)的差值。數(shù)值型數(shù)據(jù)的四分位數(shù)(例題)【例4.6】在某城市中隨機(jī)抽取9個(gè)家庭，調(diào)查得到每個(gè)家庭的人均月收入數(shù)據(jù)如下(單位：元)。要求計(jì)算人均月收入的四分位數(shù)。75078085096010801250150016302000解：其他計(jì)算四分位數(shù)的方法(1)一種較為準(zhǔn)確的算法：Excel中的統(tǒng)計(jì)函數(shù)：利用QUARTILE函數(shù)可計(jì)算數(shù)值型數(shù)據(jù)的四分位數(shù)。(2)以中位數(shù)為中心，從兩端再計(jì)算出中位數(shù)，確定位置的公式為：(3)Excel給出的四分位數(shù)位置的確定方法為：4.1.3數(shù)值型數(shù)據(jù)：平均數(shù)平均數(shù)也稱為均值，它是一組數(shù)據(jù)相加后除以數(shù)據(jù)的個(gè)數(shù)得到的結(jié)果。1.簡單平均數(shù)與加權(quán)平均數(shù)平均數(shù)是集中趨勢的最主要測度值，主要用于數(shù)值型數(shù)據(jù)，而不適用于分類數(shù)據(jù)和順序數(shù)據(jù)。(1)簡單平均數(shù)是指根據(jù)未經(jīng)分組數(shù)據(jù)計(jì)算的平均數(shù)計(jì)算方法：4.1.3數(shù)值型數(shù)據(jù)：平均數(shù)(2)加權(quán)平均數(shù)是指根據(jù)分組數(shù)據(jù)計(jì)算的平均數(shù)。計(jì)算方法：注：加權(quán)平均數(shù)實(shí)際是假定了各組數(shù)據(jù)在組內(nèi)是均勻分布的。4.1.3數(shù)值型數(shù)據(jù)：平均數(shù)例題【例4.7】根據(jù)下表中的數(shù)據(jù)，計(jì)算電腦銷售量的平均數(shù)。解：按銷量分組(臺)組中值fi頻數(shù)fiMifi140—1501454580150—16015591395160—170165162640170—180175274725180—190185203700190—200195173315200—210205102050210—22021581720220—2302254900230—24023551175合計(jì)—120222004.1.3數(shù)值型數(shù)據(jù)：平均數(shù)平均數(shù)在統(tǒng)計(jì)學(xué)中具有重要地位，它是進(jìn)行統(tǒng)計(jì)分析和統(tǒng)計(jì)推斷的基礎(chǔ)。從統(tǒng)計(jì)思想上看，平均數(shù)是一組數(shù)據(jù)的重心所在，是數(shù)據(jù)誤差相互抵消的必然結(jié)果。Excel中的統(tǒng)計(jì)函數(shù)：利用AVERAGE函數(shù)可計(jì)算數(shù)值型數(shù)據(jù)的算術(shù)平均數(shù)。4.1.3數(shù)值型數(shù)據(jù)：幾何平均數(shù)2.幾何平均數(shù)幾何平均數(shù)(geometricmean)是n個(gè)變量值乘積的n次方根，用G表示。幾何平均數(shù)是適用于特殊的一種平均數(shù)，它主要用于計(jì)算比率的平均。當(dāng)所掌握的變量值本身是比率的形式時(shí)，采用幾何平均數(shù)計(jì)算平均比率更為合理。在實(shí)際應(yīng)用中，幾何平均數(shù)主要用于計(jì)算現(xiàn)象的平均增長率。Excel中的統(tǒng)計(jì)函數(shù)：利用GEOMEAN函數(shù)可計(jì)算數(shù)值型數(shù)據(jù)的幾何平均數(shù)。幾何平均數(shù)(例題分析)【例4.8】一位投資者購持有一種股票，在2001--2004年收益率分別為4.5%、2.1%、25.5%、1.9%。要求計(jì)算該投資者在這4年內(nèi)的平均收益率。設(shè)平均收益為解：即該投資者的投資平均收益率為8.0787％。假定該投資者最初投入10000元，按各年的幾何平均收益率計(jì)算，2004年的本利和應(yīng)為：幾何平均數(shù)(例題分析)如果按算術(shù)平均數(shù)計(jì)算，評價(jià)收益率則為：注：兩種算法相差214.02元，而這部分收益投資者按算術(shù)平均收益率計(jì)算，該投資者2004年的本利和應(yīng)為：這說明，對于比率數(shù)據(jù)的平均采用幾何平均要比算術(shù)平均更為合理。是沒有拿到的。算術(shù)平均數(shù)與幾何平均數(shù)比較當(dāng)所平均的各比率數(shù)值差別不大時(shí)，算術(shù)平均和幾何設(shè)開始的數(shù)值為逐年增加率為則第n年的數(shù)值為：從用n年，每年的增長率都相同，這個(gè)增長率到故上式為就是平均的結(jié)果相差不大，如果各比率的數(shù)值相差較大時(shí)，二者的差別就很明顯。4.1.4眾數(shù)、中位數(shù)和平均數(shù)的比較1.眾數(shù)、中位數(shù)和平均數(shù)的關(guān)系從分布的角度看，眾數(shù)始終是一組數(shù)據(jù)分布的最高峰值，中位數(shù)是處于一組數(shù)據(jù)中間位置上的值，而平均數(shù)則是全部數(shù)據(jù)的算術(shù)平均。左偏分布眾數(shù)、中位數(shù)、平均數(shù)具有以下關(guān)系：對稱分布右偏分布4.1.4眾數(shù)、中位數(shù)和平均數(shù)的比較2.眾數(shù)、中位數(shù)和平均數(shù)的特點(diǎn)和應(yīng)用場合掌握眾數(shù)、中位數(shù)和平均數(shù)的特點(diǎn)，有助于在實(shí)際應(yīng)用中選擇合理的測度值來描述數(shù)據(jù)的集中趨勢。(1)眾數(shù)是一組數(shù)據(jù)分布的峰值，它是一種位置代表值，不受極端值的影響。其缺點(diǎn)是具有不唯一性，一組數(shù)據(jù)可能有一個(gè)眾數(shù)，也可能有兩個(gè)或多個(gè)眾數(shù)，也可能沒有眾數(shù)。眾數(shù)只有在數(shù)據(jù)量較大時(shí)才有意義，當(dāng)數(shù)據(jù)較少時(shí)，不宜使用眾數(shù)。雖然順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)也可以計(jì)算眾數(shù)，但主要適合作為分類數(shù)據(jù)的集中趨勢測度值。4.1.4眾數(shù)、中位數(shù)和平均數(shù)的比較(2)中位數(shù)是一組數(shù)據(jù)中間位置上的代表值，不受數(shù)據(jù)極端值的影響。當(dāng)一組數(shù)據(jù)的分布偏斜程度較大時(shí)，使用中位數(shù)也許是一個(gè)好的選擇。中位數(shù)主要適合作為順序數(shù)據(jù)的集中趨勢測度值。(3)平均數(shù)是對數(shù)值型數(shù)據(jù)計(jì)算的，而且利用了全部數(shù)據(jù)信息，它是實(shí)際中應(yīng)用最廣泛的集中趨勢測度值。當(dāng)數(shù)據(jù)呈對稱分布時(shí)，3個(gè)代表值相等或近似相等，這時(shí)則應(yīng)選擇平均數(shù)作為集中趨勢的代表值。但平均數(shù)的主要缺點(diǎn)是易受數(shù)據(jù)極端值的影響，對于偏態(tài)分布的數(shù)據(jù)，平均數(shù)的代表性較差。因此，當(dāng)數(shù)據(jù)為偏態(tài)分布，特別是當(dāng)偏斜程度較大時(shí)，可以考慮選擇中位數(shù)或眾數(shù)，這時(shí)它們的代表性要比平均數(shù)好。數(shù)據(jù)類型與集中趨勢測度值(總結(jié))表4-4數(shù)據(jù)類型和所適用的集中趨勢測度值數(shù)據(jù)類型分類數(shù)據(jù)順序數(shù)據(jù)數(shù)值型數(shù)據(jù)適用的測度值眾數(shù)中位數(shù)均值—四分位數(shù)幾何平均數(shù)—眾數(shù)

中位數(shù)——四分位數(shù)——眾數(shù)4.2離散程度的測度4.2.1.分類數(shù)據(jù)：異眾比率4.2.2.順序數(shù)據(jù)：四分位差4.2.3.數(shù)值型數(shù)據(jù)：方差及標(biāo)準(zhǔn)差4.2.4.相對離散程度：離散系數(shù)數(shù)據(jù)的分散程度(離中趨勢)是數(shù)據(jù)分布的另一個(gè)重要特征，它反映的是各變量值遠(yuǎn)離其中心值的程度，數(shù)據(jù)的離散程度越大，集中趨勢的測度值對該組數(shù)據(jù)的代表性就越差；離散程度越小，其代表性就越好。描述數(shù)據(jù)離散程度采用的測度值，根據(jù)所依據(jù)數(shù)據(jù)類型的不同主要有異眾比率、四分位差、方差和標(biāo)準(zhǔn)差。此外，還有極差、平均差以及測度相對離散程度的離散系數(shù)等。4.2離散程度的測度4.2.1分類數(shù)據(jù)：異眾比率1.

異眾比率(variationratio)是指非眾數(shù)組的頻數(shù)占總頻數(shù)的比例，用Vr表示。2. 計(jì)算公式為3.異眾比率主要用于衡量眾數(shù)對一組數(shù)據(jù)的代表程度.異眾比率越大，說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越大，眾數(shù)的代表性就越差；異眾比率越小，說明非眾數(shù)組的頻數(shù)占總頻數(shù)的比重越小，眾數(shù)的代表性就越好.4.異眾比率主要用于適合測度分類數(shù)據(jù)的離散程度,當(dāng)然，對于順序數(shù)據(jù)以及數(shù)值型數(shù)據(jù)也可計(jì)算異眾比率.分類數(shù)據(jù)的異眾比率(例題)【例4.9】根據(jù)第三章表3－4中的數(shù)據(jù)，計(jì)算異眾比率解：這說明在所調(diào)查的50人當(dāng)中，購買其他品牌飲料的人數(shù)占70%，異眾比率比較大。因此，用“碳酸飲料”代表消費(fèi)者購買飲料品牌的狀況，其代表性不是很好表3-4不同品牌飲料的頻數(shù)分布飲料品牌戶數(shù)(戶)百分比(%)

果汁礦泉水綠茶其他碳酸飲料610118151220221630合計(jì)501004.2.2順序數(shù)據(jù)：四分位差1.四分位差(quartiledeviation)也稱內(nèi)距或四分間距，它是指上四分位與下四分位之差，用Qd表示。3.四分位差反映了中間50％數(shù)據(jù)的離散程度，其數(shù)值越小，說明中間的數(shù)據(jù)越集中；其數(shù)值越大，說明中間的數(shù)據(jù)越分散。2.計(jì)算公式為4.四分位差不受極值的影響。順序數(shù)據(jù)的四分位差例題解：四分位差為：【例4.10】根據(jù)例4.6的計(jì)算結(jié)果，計(jì)算家庭人均月收入的四分位差。6.四分位差主要用于測度順序數(shù)據(jù)的離散程度，對于數(shù)值型數(shù)據(jù)也可計(jì)算四分位差，但不適合分類數(shù)據(jù).5.由于中位數(shù)處于數(shù)據(jù)的中間位置，故四分位差的大小在一定程度上也說明了中位數(shù)對一組數(shù)據(jù)的代表程度。4.2.3數(shù)值型數(shù)據(jù)：方差和標(biāo)準(zhǔn)差測度數(shù)值型數(shù)據(jù)離散程度的方法主要有極差、平均差、方差和標(biāo)準(zhǔn)差，其中最常用的是方差和標(biāo)準(zhǔn)差。(2)計(jì)算公式為1.極差(1)極差(range)是指一組數(shù)據(jù)的最大值與最小值之差，也稱全距，用R表示。(3)極差是描述數(shù)據(jù)離散程度的最簡單測度值，計(jì)算簡單，易于理解，但它容易受極端值的影響。由于極差只是利用了一組數(shù)據(jù)兩端的信息，不能反映出中間數(shù)據(jù)的分散情況，因而不能準(zhǔn)確描述出數(shù)據(jù)的分散程度。數(shù)值型數(shù)據(jù)：平均差(2)計(jì)算公式：2.平均差(1)平均差(meandeviation)也稱平均絕對離差，它是各變量值與其平均數(shù)離差絕對值的平均數(shù)，用Md表示.未分組數(shù)據(jù)分組數(shù)據(jù)數(shù)值型數(shù)據(jù)的平均差例題根據(jù)計(jì)算公式，得：【例4.11】根據(jù)第三章表3－9中的數(shù)據(jù)，計(jì)算電腦銷售量的平均差。解：頻數(shù)fi組中值Mi按銷量分組(臺)2040—120—合計(jì)250505235230—240160404225220—230240308215210—2202002010205200—2101701017195190—2000020185180—1902701027175170—1803202016165160—170270309155150—160160404145140—150數(shù)值型數(shù)據(jù)：平均差平均差以平均數(shù)為中心，反映了每個(gè)數(shù)據(jù)與平均數(shù)的平均差異程度，它能全面準(zhǔn)確地反映一組數(shù)據(jù)的離散程度。平均差越大，說明數(shù)據(jù)的離散程度越大；反之，則說明數(shù)據(jù)的離散程度越小。為了避免離差之和等于零而無法計(jì)算平均差這一問題，平均差在計(jì)算時(shí)對離差取了絕對值，以離差的絕對值來表示總離差，這就給計(jì)算帶來了不便，因而實(shí)際中應(yīng)用較少。但平均差的實(shí)際意義比較清楚，容易理解。Excel中的統(tǒng)計(jì)函數(shù)：利用AVEDEV函數(shù)可計(jì)算數(shù)值型數(shù)據(jù)的平均差。數(shù)值型數(shù)據(jù)：方差和標(biāo)準(zhǔn)差3.方差與標(biāo)準(zhǔn)差(1)方差(variance)是各變量值與平均數(shù)離差平方的平均數(shù)。它在數(shù)學(xué)處理上是通過平方的辦法消去離差正負(fù)號，然后再進(jìn)行平均。(3)方差(或標(biāo)準(zhǔn)差)能較好地反映出數(shù)據(jù)的離散稱度，是實(shí)際中應(yīng)用最廣泛的離散程度測度值。(2)標(biāo)準(zhǔn)差(standarddeviation)是方差的平方根。與方差不同的是，標(biāo)準(zhǔn)差是具有量綱的，它與變量值的計(jì)算單位相同，其實(shí)際意義要比方差清楚。因此，在對實(shí)際問題進(jìn)行分析時(shí)更多地使用標(biāo)準(zhǔn)差。數(shù)值型數(shù)據(jù)：方差和標(biāo)準(zhǔn)差(4)樣本方差與樣本標(biāo)準(zhǔn)差的計(jì)算公式：未分組數(shù)據(jù)分組數(shù)據(jù)方差標(biāo)準(zhǔn)差數(shù)值型數(shù)據(jù)：方差和標(biāo)準(zhǔn)差(5)總體方差與總體標(biāo)準(zhǔn)差的計(jì)算公式：未分組數(shù)據(jù)分組數(shù)據(jù)方差標(biāo)準(zhǔn)差Excel中的統(tǒng)計(jì)函數(shù)：利用STDEV函數(shù)可計(jì)算數(shù)值型數(shù)據(jù)的樣本標(biāo)準(zhǔn)差。數(shù)值型數(shù)據(jù)：方差和標(biāo)準(zhǔn)差(6)自由度自由度(degreeoffreedom)是指附加給獨(dú)立的觀測值的約束或限制的個(gè)數(shù)。從字面含義來看，自由度是指一組數(shù)據(jù)中可以自由取值的個(gè)數(shù)。當(dāng)樣本數(shù)據(jù)的個(gè)數(shù)為n時(shí)，若樣本平均數(shù)確定后，則附加給n個(gè)觀測值的約束個(gè)數(shù)就是1個(gè)，因此只有n-1個(gè)數(shù)據(jù)可以自由取值，其中必有一個(gè)數(shù)據(jù)不能自由取值。按照這一邏輯，如果對n個(gè)觀測值附加的約束個(gè)數(shù)為k個(gè)，自由度則為n-k。數(shù)值型數(shù)據(jù)：方差和標(biāo)準(zhǔn)差(7)樣本方差的自由度樣本方差的自由度是n-1，即樣本個(gè)數(shù)減1。因?yàn)樵谟?jì)算離差平方和時(shí)，必須先求出樣本平均數(shù)，而

則是附加給的一個(gè)約束，因此離差平方和只有n-1個(gè)獨(dú)立的觀測值，因不是n個(gè)。樣本方差用自由度去除，其原因可以從多方面來解釋，從實(shí)際應(yīng)用的角度來看，在抽樣估計(jì)中，當(dāng)我們用樣本方差去估計(jì)總體方差時(shí)，它是的無偏估計(jì)量。數(shù)值型數(shù)據(jù)的方差和標(biāo)準(zhǔn)差例題原始數(shù)據(jù):10 591368解：數(shù)值型數(shù)據(jù)的方差和標(biāo)準(zhǔn)差例題根據(jù)計(jì)算公式，得：【例4.12】根據(jù)第三章表3－9中的數(shù)據(jù)，計(jì)算電腦銷售量的標(biāo)準(zhǔn)差。解：頻數(shù)fi組中值Mi按銷量分組(臺)55400—120—合計(jì)1250025005235230—240640016004225220—23072009008215210—220400040010205200—210170010017195190—2000020185180—190270010027175170—180640040016165160—17081009009155150—160640016004145140—150上節(jié)內(nèi)容總結(jié)

統(tǒng)計(jì)表包括四部分：表頭、行標(biāo)題、列標(biāo)題、數(shù)字資料、附加說明統(tǒng)計(jì)表的結(jié)構(gòu)數(shù)據(jù)的概括性度量1.集中趨勢度量分類數(shù)據(jù)：眾數(shù)順序數(shù)據(jù)：中位數(shù)分位數(shù)數(shù)值型數(shù)據(jù)：平均數(shù)2.離散程度的度量分類數(shù)據(jù)：異眾比率順序數(shù)據(jù)：四分位差數(shù)值型數(shù)據(jù)：極差平均差方差和標(biāo)準(zhǔn)差標(biāo)準(zhǔn)分?jǐn)?shù)3.相對位置的度量有了平均數(shù)和標(biāo)準(zhǔn)差之后，可以計(jì)算一組數(shù)據(jù)中各個(gè)數(shù)值的標(biāo)準(zhǔn)分?jǐn)?shù)，以測度每個(gè)數(shù)據(jù)在該組數(shù)據(jù)中的相對位置，并可以用它來判斷一組數(shù)據(jù)是否有離群數(shù)據(jù)。(1)標(biāo)準(zhǔn)分?jǐn)?shù)標(biāo)準(zhǔn)分?jǐn)?shù)(standardscore)是變量值與其平均值的離差除以標(biāo)準(zhǔn)差后的值，也稱標(biāo)準(zhǔn)化值或z分?jǐn)?shù)。計(jì)算方法：注：標(biāo)準(zhǔn)分?jǐn)?shù)給出了一組數(shù)據(jù)中各數(shù)值的相對位置。標(biāo)準(zhǔn)分?jǐn)?shù)

比如，如果某個(gè)數(shù)值的標(biāo)準(zhǔn)分?jǐn)?shù)為-1.5，就知道該數(shù)值低于平均數(shù)1.5倍的標(biāo)準(zhǔn)差。標(biāo)準(zhǔn)分?jǐn)?shù)具有平均數(shù)為0，標(biāo)準(zhǔn)差為1的特性。實(shí)際上，z分?jǐn)?shù)只是將原始數(shù)據(jù)進(jìn)行了線性變換，它并沒有改變一個(gè)數(shù)據(jù)在該組數(shù)據(jù)中的位置，也沒有改變該組數(shù)據(jù)分布的形狀，而只是將該組數(shù)據(jù)變?yōu)槠骄鶖?shù)為0，標(biāo)準(zhǔn)差為1。也是我們常用的統(tǒng)計(jì)標(biāo)準(zhǔn)化公式，在對多個(gè)具有不同量綱的變量進(jìn)行處理時(shí)，常常需要對各變量進(jìn)行標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)分?jǐn)?shù)

比如，一組數(shù)據(jù)為25，28，31，34，37，40，43其平均數(shù)為34，標(biāo)準(zhǔn)差為6。其變換如下圖所示：標(biāo)準(zhǔn)分?jǐn)?shù)的例題9個(gè)家庭人均月收入標(biāo)準(zhǔn)化值計(jì)算表家庭編號人均月收入（元）標(biāo)準(zhǔn)分?jǐn)?shù)z

123456789150075078010808509602000125016300.695-1.042-0.973-0.278-0.811-0.5561.8530.1160.996【例4.13】根據(jù)例4.5的數(shù)據(jù)，計(jì)算每個(gè)家庭人均月收入的標(biāo)準(zhǔn)分?jǐn)?shù)。解：經(jīng)驗(yàn)法則(2)經(jīng)驗(yàn)法則當(dāng)一組數(shù)據(jù)對稱分布時(shí)，經(jīng)驗(yàn)法則表明：約有68％的數(shù)據(jù)在平均數(shù)加減1個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)。約有95％的數(shù)據(jù)在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)。約有99％的數(shù)據(jù)在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)。一組數(shù)據(jù)中低于或高于均值加減3倍標(biāo)準(zhǔn)差之外的數(shù)值是很少的，也就是說，在均值加減3個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)幾乎包含了全部數(shù)據(jù)。離群點(diǎn)(outlier)或異常值是指在3個(gè)標(biāo)準(zhǔn)差之外的數(shù)據(jù)。切比雪夫不等式經(jīng)驗(yàn)法則適合于對稱分布的數(shù)據(jù)。如果一組數(shù)據(jù)不是對稱分布，經(jīng)驗(yàn)法則就不再使用，這時(shí)可使用切比雪夫不等式，它對任何分布形狀的數(shù)據(jù)都適用。切比雪夫不等式提供的是“下界”對于任意分布形態(tài)的數(shù)據(jù)，根據(jù)切比雪夫不等式，至少有(1－1/k2)的數(shù)據(jù)落在是k個(gè)標(biāo)準(zhǔn)差之內(nèi)。對于k＝2，3，4，該不等式的含義是：①至少有75％的數(shù)據(jù)落在平均數(shù)加減2個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)。②至少有89％的數(shù)據(jù)落在平均數(shù)加減3個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)。③至少有94％的數(shù)據(jù)落在平均數(shù)加減4個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi)。(3)切比雪夫不等式(Chebyshev’sinequality)4.2.4相對離散程度：離散系數(shù)1.方差和標(biāo)準(zhǔn)差是反映數(shù)據(jù)分散程度的絕對值，其數(shù)值的大小一方面受原變量值本身水平高低的影響，也就是與變量的平均數(shù)大小有關(guān)，變量值絕對水平高的，離散程度的測度值自然也就大，絕對水平小的離散程度的測度值自然也就小；另一方面，它們與原變量值的計(jì)量單位相同，采用不同計(jì)量單位計(jì)量的變量值，其離散程度的測度值也就不同。因此，對于平均水平不同或計(jì)量單位不同的不同組別的變量值，是不能用標(biāo)準(zhǔn)差直接比較其離散程度的。2. 為消除數(shù)據(jù)水平高低和計(jì)量單位不同對離散程度測度值的影響，需要定義離散系數(shù)。4.2.4相對離散程度：離散系數(shù)3. 離散系數(shù)(或變異系數(shù))(coefficientofvariation)，它是一組數(shù)據(jù)的標(biāo)準(zhǔn)差與其相應(yīng)的平均數(shù)之比。4. 計(jì)算公式5. 離散系數(shù)是測度數(shù)據(jù)離散程度的相對統(tǒng)計(jì)量，其作用主要是用于比較對不同樣本數(shù)據(jù)的離散程度。離散系數(shù)大，說明數(shù)據(jù)的離散程度也大；離散系數(shù)小，說明數(shù)據(jù)的離散程度也小。注：當(dāng)平均數(shù)接近零時(shí)，離散系數(shù)的值趨于增大，此時(shí)必須慎重解釋。離散系數(shù)的例題【例4.14】在奧運(yùn)會(huì)女子10米氣手槍比賽中，每個(gè)運(yùn)動(dòng)員首先進(jìn)行每組10槍共4組的預(yù)賽，然后根據(jù)預(yù)賽總成績確定進(jìn)入決賽的8名運(yùn)動(dòng)員。決賽時(shí)8名運(yùn)動(dòng)員再進(jìn)行10槍射擊，再將預(yù)賽成績加上決賽成績以確定最后的名次。在2008年8月10日舉行的第29屆北京奧運(yùn)會(huì)女子10米氣手槍決賽中，進(jìn)入決賽的8名運(yùn)動(dòng)員的預(yù)賽成績和最后10槍的決賽成績?nèi)绫硭?。評價(jià)哪名運(yùn)動(dòng)員的發(fā)揮更穩(wěn)定。離散系數(shù)的例題姓名國家預(yù)賽成績納塔利婭.帕杰琳娜俄羅斯391108.51010.210.610.59.89.79.59.3郭文珺中國3901010.510.410.410.110.39.410.710.89.7卓各巴德拉赫.蒙赫珠勒蒙古3879.3108.78.39.29.58.510.79.29.2妮諾.薩盧克瓦澤格魯吉亞3869.810.3109.510.210.710.410.69.110.8維多利亞.柴卡白俄羅斯3849.39.410.410.110.210.59.210.59.88.6萊萬多夫斯卡.薩貢波蘭3848.110.39.29.99.810.49.99.410.79.6亞斯娜.舍卡里奇塞爾維亞38410.29.69.99.99.39.19.7109.39.9米拉.內(nèi)萬蘇芬蘭3848.79.39.210.39.8109.79.99.99.7離散系數(shù)的例題解：如果各運(yùn)動(dòng)員決賽10槍的平均成績差異不大，可以直接比較標(biāo)準(zhǔn)差的大小，否則需要計(jì)算離散系數(shù)。姓名國家平均數(shù)標(biāo)準(zhǔn)差離散系數(shù)納塔利婭.帕杰琳娜俄羅斯9.810.61540.062737郭文珺中國10.230.43720.042746卓各巴德拉赫.蒙赫珠勒蒙古9.260.70740.076395妮諾.薩盧克瓦澤格魯吉亞10.140.54610.053856維多利亞.柴卡白俄羅斯9.80.64980.066305萊萬多夫斯卡.薩貢波蘭9.730.73340.075376亞斯娜.舍卡里奇塞爾維亞9.690.35730.036874米拉.內(nèi)萬蘇芬蘭9.650.46250.047926數(shù)據(jù)類型與離散程度測度值表4-8數(shù)據(jù)類型和所適用的離散程度測度值數(shù)據(jù)類型分類數(shù)據(jù)順序數(shù)據(jù)數(shù)值型數(shù)據(jù)適用的測度值異眾比率四分位差

方差或標(biāo)準(zhǔn)差

—異眾比率離散系數(shù)(比較時(shí)用)——

平均差——

極差——

四分位差——

異眾比率4.3偏態(tài)與峰態(tài)的測度集中趨勢和離散程度是數(shù)據(jù)分布的兩個(gè)重要特征，但要全面了解數(shù)據(jù)分布的特點(diǎn)，還需要知道數(shù)據(jù)分布的形狀是否對稱、偏斜的程度以及分布的扁平程度等。4.3.1.偏態(tài)及其測度4.3.2.峰態(tài)及其測度4.3.1偏態(tài)及其測度1.偏態(tài)(skewness)一詞是由統(tǒng)計(jì)學(xué)家K.Pearson于1895年首次提出的，它是對數(shù)據(jù)分布對稱性的測度。2.偏態(tài)系數(shù)(coefficientofskewness)是測度偏態(tài)的統(tǒng)計(jì)量，記作SK。3.計(jì)算公式(樣本數(shù)據(jù))：未分組數(shù)據(jù)分組數(shù)據(jù)4.3.1偏態(tài)及其測度4.偏態(tài)系數(shù)說明：未分組數(shù)據(jù)分組數(shù)據(jù)4.3.1偏態(tài)及其測度5.計(jì)算公式(總體數(shù)據(jù))：未分組數(shù)據(jù)分組數(shù)據(jù)Excel中的統(tǒng)計(jì)函數(shù)：利用SKEW函數(shù)可計(jì)算數(shù)值型數(shù)據(jù)的偏態(tài)系數(shù)。數(shù)值型數(shù)據(jù)的偏態(tài)系數(shù)例題【例4.15】根據(jù)第3章表3－9中的數(shù)據(jù)，計(jì)算電腦銷售量的偏態(tài)系數(shù)。解：頻數(shù)fi組中值Mi按銷量分組(臺)540000—120—合計(jì)6250001250005235230—240256000640004225220—230216000270008215210—22080000800010205200—21017000100017195190—2000020185180—190-27000-100027175170—180-128000-800016165160—170-243000-270009155150—160-256000-64000

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

統(tǒng)計(jì)學(xué)：04 數(shù)據(jù)的概括性度量

文檔簡介

溫馨提示

最新文檔

評論

統(tǒng)計(jì)學(xué)：04 數(shù)據(jù)的概括性度量

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔