第4章 數(shù)據(jù)分布特征的描述.ppt_第1頁
第4章 數(shù)據(jù)分布特征的描述.ppt_第2頁
第4章 數(shù)據(jù)分布特征的描述.ppt_第3頁
第4章 數(shù)據(jù)分布特征的描述.ppt_第4頁
第4章 數(shù)據(jù)分布特征的描述.ppt_第5頁
已閱讀5頁,還剩81頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第 4章 統(tǒng)計數(shù)據(jù)特征的描述,4.1 分布集中趨勢的測度 4.2 分布離散程度的測度 4.3 分布偏態(tài)與峰度的側(cè)度 4.4 莖葉圖與箱線圖 4.5 統(tǒng)計表與統(tǒng)計圖 本章小結(jié),學(xué)習(xí)目標(biāo),掌握數(shù)據(jù)集中趨勢和離散程度的測度方法 掌握莖葉圖和箱線圖的制作方法 掌握分布偏態(tài)與峰度的測度方法 掌握統(tǒng)計表和統(tǒng)計圖的使用,學(xué)習(xí)重點(diǎn),側(cè)度數(shù)據(jù)集中趨勢指標(biāo)的計算方法及應(yīng)用 側(cè)度數(shù)據(jù)離散程度指標(biāo)的計算方法及應(yīng)用 統(tǒng)計表與統(tǒng)計圖,學(xué)習(xí)難點(diǎn),方差、標(biāo)準(zhǔn)差、變異系數(shù)的實質(zhì),授課學(xué)時,4學(xué)時,4.1分布集中趨勢的測度,分布集中趨勢的測度值是反映數(shù)據(jù)一般水平 的代表值或者數(shù)據(jù)分布的中心值 。 一、眾數(shù) 二、中位數(shù) 三、四分位

2、數(shù) 四、均值 五、幾何均值 六、切尾均值 七、眾數(shù)、中位數(shù)和均值的比較,眾數(shù),眾數(shù)(mode),一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值 適合于數(shù)據(jù)量較多時使用 不受極端值的影響 一組數(shù)據(jù)可能沒有眾數(shù)或有幾個眾數(shù) 主要用于分類數(shù)據(jù),也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù) 眾數(shù)計算公式見書頁。,眾數(shù)(不惟一性),無眾數(shù),一個眾數(shù),多于一個眾數(shù),中位數(shù),中位數(shù)(median),排序后處于中間位置上的值,不受極端值的影響 主要用于順序數(shù)據(jù),也可用數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù) 各變量值與中位數(shù)的離差絕對值之和最小,即,中位數(shù)計算,(1) 為分組資料 中位數(shù)位置=(n+1)/2 (奇數(shù)項與偶數(shù)項) (2)分組資料 中位數(shù)

3、位置=n/2 中位數(shù)在累計頻數(shù)剛剛大于中位數(shù)位置的組 眾數(shù)計算公式見書頁。,四分位數(shù),四分位數(shù)(quartile),排序后處于25%和75%位置上的值,不受極端值的影響 主要用于順序數(shù)據(jù),也可用于數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù),四分位數(shù)(位置的確定),未分組數(shù)據(jù):,分組數(shù)據(jù):,均 值,均值(算數(shù)平均數(shù))(mean),集中趨勢的最常用測度值 一組數(shù)據(jù)的均衡點(diǎn)所在 體現(xiàn)了數(shù)據(jù)的必然性特征 易受極端值的影響 用于數(shù)值型數(shù)據(jù),不能用于分類數(shù)據(jù)和順序數(shù)據(jù) 注意均值的平均性,簡單算數(shù)平均數(shù)(simple mean),設(shè)一組數(shù)據(jù)為: x1 ,x2 , ,xn,總體均值,樣本均值,加權(quán)算數(shù)平均數(shù)(weight

4、ed mean),設(shè)一組數(shù)據(jù)為: x1 ,x2 , ,xn 相應(yīng)的頻數(shù)為: f1 , f2 , ,fk,總體均值,樣本均值,加權(quán)算數(shù)平均數(shù) (例題分析),均值(數(shù)學(xué)性質(zhì)),1.各變量值與均值的離差之和等于零,2. 各變量值與均值的離差平方和最小,幾何平均數(shù),幾何平均數(shù)(geometric mean),n 個變量值乘積的 n 次方根 主要用于計算平均比率或平均速度 計算公式為,5. 可看作是均值的一種變形,幾何平均數(shù) (例題分析),【例】一位投資者購持有一種股票,在2000年、2001年、2002年和2003年收益率分別為4.5%、2.1%、25.5%、1.9%。計算該投資者在這四年內(nèi)的平均收益

5、率,算術(shù)平均:,幾何平均:,幾何平均數(shù) (例題分析),【例】胡錦濤在十七大報告中提出,實現(xiàn)人均國內(nèi)生產(chǎn)總值(GDP)到2020年比2000年翻兩番。,切尾均值,切尾均值(trimmed Mean),去掉大小兩端的若干數(shù)值后計算中間數(shù)據(jù)的均值 在電視大獎賽、體育比賽及需要人們進(jìn)行綜合評價的比賽項目中已得到廣泛應(yīng)用 計算公式為,n 表示觀察值的個數(shù);表示切尾系數(shù),,切尾均值 (例題分析),【例】謀次比賽共有11名評委,對某位歌手的給分分別是:,經(jīng)整理得到順序統(tǒng)計量值為,去掉一個最高分和一個最低分, 取1/11,眾數(shù)、中位數(shù)和均值的比較,眾數(shù)、中位數(shù)和均值的關(guān)系,眾數(shù)、中位數(shù)、均值的特點(diǎn)和應(yīng)用,眾數(shù)

6、 不受極端值影響 具有不惟一性 數(shù)據(jù)分布偏斜程度較大時應(yīng)用 中位數(shù) 不受極端值影響 數(shù)據(jù)分布偏斜程度較大時應(yīng)用 均值 易受極端值影響 數(shù)學(xué)性質(zhì)優(yōu)良 數(shù)據(jù)對稱分布或接近對稱分布時應(yīng)用,4.2 分布離散程度的測度,分布離散程度的測度值反映數(shù)據(jù)分布離散和差異 程度。主要包括: 一、極差 二、內(nèi)距 三、方差和標(biāo)準(zhǔn)差 四、離散系數(shù),極差(range),一組數(shù)據(jù)的最大值與最小值之差 離散程度的最簡單測度值 易受極端值影響 未考慮數(shù)據(jù)的分布,R = max(xi) - min(xi),計算公式為,內(nèi)距(Inter-Quartile Range,IQR),也稱四分位差 上四分位數(shù)與下四分位數(shù)之差 內(nèi) 距= Q

7、3 Q1 反映了中間50%數(shù)據(jù)的離散程度 不受極端值的影響 可用于衡量中位數(shù)的代表性,方差和標(biāo)準(zhǔn)差,方差和標(biāo)準(zhǔn)差(Variance and Standard deviation),1.反映了數(shù)據(jù)的分布離散程度和差異程度的最常用的測度值。 2.反映了各變量值與均值的平均差異。 3.根據(jù)總體數(shù)據(jù)計算的,稱為總體方差或標(biāo)準(zhǔn) 差;根據(jù)樣本數(shù)據(jù)計算的,稱為樣本方差或 標(biāo)準(zhǔn)差,總體方差和標(biāo)準(zhǔn)差 (simple variance and standard deviation),未分組數(shù)據(jù):,組距分組數(shù)據(jù):,未分組數(shù)據(jù):,組距分組數(shù)據(jù):,方差的計算公式,標(biāo)準(zhǔn)差的計算公式,樣本方差和標(biāo)準(zhǔn)差 (simple va

8、riance and standard deviation),未分組數(shù)據(jù):,組距分組數(shù)據(jù):,未分組數(shù)據(jù):,組距分組數(shù)據(jù):,方差的計算公式,標(biāo)準(zhǔn)差的計算公式,樣本方差自由度(degree of freedom),一組數(shù)據(jù)中可以自由取值的數(shù)據(jù)的個數(shù) 當(dāng)樣本數(shù)據(jù)的個數(shù)為 n 時,若樣本均值x 確定后,只有n-1個數(shù)據(jù)可以自由取值,其中必有一個數(shù)據(jù)則不能自由取值 例如,樣本有3個數(shù)值,即x1=2,x2=4,x3=9,則 x = 5。當(dāng) x = 5 確定后,x1,x2和x3有兩個數(shù)據(jù)可以自由取值,另一個則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值,樣本標(biāo)準(zhǔn)差 (例題分析),

9、樣本標(biāo)準(zhǔn)差 (例題分析),含義:每一天的銷售量與平均數(shù)相比, 平均相差21.58臺,離散系數(shù),離散系數(shù)(coefficient of variation),1.標(biāo)準(zhǔn)差與其相應(yīng)的均值之比 對數(shù)據(jù)相對離散程度的測度 消除了數(shù)據(jù)水平高低和計量單位的影響 4.用于對不同組別數(shù)據(jù)離散程度的比較 5. 計算公式為,在什么情況下使用離散系數(shù)呢?,當(dāng)兩個數(shù)列的性質(zhì)相同且均值相等的情況下用標(biāo)準(zhǔn)差說明平均數(shù)代表性的高低。 當(dāng)兩個數(shù)列的性質(zhì)不同或均值不同的情況下需要用離散系數(shù)說明平均數(shù)代表性的高低。,離散系數(shù) (例題分析),【 例 】某管理局抽查了所屬的8家企業(yè),其產(chǎn)品銷售數(shù)據(jù)如表。試比較產(chǎn)品銷售額與銷售利潤的離散

10、程度,離散系數(shù) (例題分析),結(jié)論: 計算結(jié)果表明,v1v2,說明產(chǎn)品銷售額的離散程度小于銷售利潤的離散程度,例題: 有甲、乙兩個品種的糧食作物,經(jīng)播種實驗后得知乙品種的平均畝產(chǎn)量為998公斤,標(biāo)準(zhǔn)差為162.7公斤,甲品種實驗資料如下,試研究兩個品種的平均畝產(chǎn)量,確定哪一品種具有較大穩(wěn)定性,更有推廣價值。,4.3 分布偏態(tài)與峰度的測度,偏態(tài)與峰態(tài)分布的形狀,偏態(tài),峰態(tài),偏態(tài)及其測度(skewness),1. 統(tǒng)計學(xué)家Pearson于1895年首次提出 2. 數(shù)據(jù)分布偏斜程度的測度 3.偏態(tài)系數(shù)=0為對稱分布 4.偏態(tài)系數(shù) 0為右偏分布 偏態(tài)系數(shù) 0為左偏分布 計算公式:,偏態(tài)系數(shù) (例題分析

11、),偏態(tài)系數(shù) (例題分析),結(jié)論:偏態(tài)系數(shù)為正值,但與0的差異不大,說明電腦銷售量為輕微右偏分布,即銷售量較少的天數(shù)占據(jù)多數(shù),而銷售量較多的天數(shù)則占少數(shù),峰態(tài)及其測度(kurtosis),統(tǒng)計學(xué)家Pearson于1905年首次提出 數(shù)據(jù)分布扁平程度的測度 峰態(tài)系數(shù)=扁平峰度適中 峰態(tài)系數(shù)為尖峰分布 計算公式,峰態(tài)系數(shù) (例題分析),結(jié)論:偏態(tài)系數(shù)小于,但與的差異不大,說明電腦銷售量為輕微扁平分布,4.4 莖葉圖與箱線圖,一、莖葉圖 二、箱線圖,莖葉圖(stem-and-leaf display),用于顯示未分組的原始數(shù)據(jù)的分布。 由“莖”和“葉”兩部分構(gòu)成,其圖形是由數(shù)字組成的。 以該組數(shù)據(jù)的

12、高位數(shù)值作樹莖,低位數(shù)字作樹葉 樹葉上只保留一位數(shù)字(個位數(shù))。 莖葉圖類似于橫置的直方圖,但又有區(qū)別 直方圖可觀察一組數(shù)據(jù)的分布狀況,但沒有給出具體的數(shù)值。 莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個原始數(shù)值,保留了原始數(shù)據(jù)的信息。,莖葉圖(例題分析P22表2.7),莖葉圖(擴(kuò)展的莖葉圖04,59),箱線圖(box plot),用于顯示未分組的原始數(shù)據(jù)的分布。 箱線圖由一組數(shù)據(jù)的5個特征值繪制而成,它由一個箱子和兩條線段組成。 箱線圖的繪制方法 首先找出一組數(shù)據(jù)的5個特征值,即最大值、最小值、中位數(shù)Me和兩個四分位數(shù)(下四分位數(shù)QL和上四分位數(shù)QU)。 連接兩個四分(位)數(shù)畫出箱子,再將兩

13、個極值點(diǎn)與箱子相連接 。,箱線圖(箱線圖的構(gòu)成),箱線圖(例題分析),分布的形狀與箱線圖,不同分布的箱線圖,未分組數(shù)據(jù)多批數(shù)據(jù)箱線圖 (例題分析),【例】 從某大學(xué)經(jīng)濟(jì)管理專業(yè)二年級學(xué)生中隨機(jī)抽取11人,對8門主要課程的考試成績進(jìn)行調(diào)查,所得結(jié)果如表。試?yán)L制各科考試成績的批比較箱線圖,并分析各科考試成績的分布特征,未分組數(shù)據(jù)多批數(shù)據(jù)箱線圖(例題分析),8門課程考試成績的箱線圖,11名學(xué)生8門課程考試成績的箱線圖,min-max,25%-75%,median value,45,55,65,75,85,95,105,學(xué)生1,學(xué)生2,學(xué)生3,學(xué)生4,學(xué)生5,學(xué)生6,學(xué)生7,學(xué)生8,學(xué)生9,學(xué)生10,

14、學(xué)生11,未分組數(shù)據(jù)多批數(shù)據(jù)箱線圖 (例題分析),4.5 統(tǒng)計表與統(tǒng)計圖,統(tǒng)計表,是顯示統(tǒng)計數(shù)據(jù)的工具。 統(tǒng)計表由表頭、行標(biāo)題、列標(biāo)題、和數(shù)字資料四部分組成。 表頭放在表的正上方,說明統(tǒng)計表的主要內(nèi)容。 行標(biāo)題放在表的第一列,說明研究問題的類別。 列標(biāo)題放在表的第一行,說明研究問題的指標(biāo)名稱。 表的其余部分為統(tǒng)計數(shù)字。 表外附加放在表的下方,指明資料來源,必要說明,指標(biāo)注釋等。,行標(biāo)題,列標(biāo)題,數(shù)字資料,表頭,附加,統(tǒng)計表的設(shè)計,統(tǒng)計表設(shè)計原則:科學(xué)、實用、簡練、美觀 首先,合理安排統(tǒng)計表的結(jié)構(gòu)。 其次,表頭一般應(yīng)包含標(biāo)號、總標(biāo)題和表中數(shù)據(jù)的單位等內(nèi)容。(表頭包含時間、地點(diǎn)、何種數(shù)據(jù))。 第三,通常情況下,統(tǒng)計表的左右兩邊不封口,上下兩條線要粗,中間其他線要細(xì)。列標(biāo)題用豎線隔開,行標(biāo)題之間一般不用橫線隔開。以小數(shù)點(diǎn)同一位數(shù)右對齊。 第四,“”表示沒有數(shù)據(jù),“ ”表示缺少。 第五,統(tǒng)計表的欄數(shù)較多,可以在表或各欄應(yīng)用(1) 、(2)、(3)等數(shù)字編號; 第六,統(tǒng)計表要注明計量單位和資料來源。數(shù)據(jù)計量單位相同時,可放在表的右

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論