管理統(tǒng)計學:第三章:樣本數(shù)據(jù)特征.ppt_第1頁
管理統(tǒng)計學:第三章:樣本數(shù)據(jù)特征.ppt_第2頁
管理統(tǒng)計學:第三章:樣本數(shù)據(jù)特征.ppt_第3頁
管理統(tǒng)計學:第三章:樣本數(shù)據(jù)特征.ppt_第4頁
管理統(tǒng)計學:第三章:樣本數(shù)據(jù)特征.ppt_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第3章 樣本數(shù)據(jù)特征的初步 分析,第3章 樣本數(shù)據(jù)特征的初步分析,第3.1節(jié) 樣本數(shù)據(jù)結構的基本特征:頻次與頻率 第3.2節(jié) 觀察刻度級樣本數(shù)據(jù)結構的莖葉圖與直方圖方法 第3.3節(jié) 樣本數(shù)據(jù)的位置特征:對數(shù)據(jù)中心的描述 第3.4節(jié) 樣本數(shù)據(jù)的離散特征 第3.5節(jié) 樣本數(shù)據(jù)特征的綜合表達:箱形圖,第3.1節(jié) 樣本數(shù)據(jù)結構的基本特征:頻次與頻率,一個誤區(qū):聚焦于數(shù)據(jù)值(樣本值)及其變化 另一個重要問題:相同值出現(xiàn)的頻次、頻率。這是數(shù)據(jù)集合的最基本的結構特征。 本節(jié)討論這一結構特征:頻次(Frequency)與頻率(Percentage,或Relative Frequency) 兩個緊密相關的不同的概念: 1)樣本數(shù)據(jù)自身(不論什么測度級的數(shù)據(jù)) 2)同一個數(shù)據(jù)值(樣本值)出現(xiàn)的次數(shù)(頻次)。,3.1.1 頻次與頻率的基本概念 頻次:在一個數(shù)據(jù)集合中,同一個數(shù)據(jù)值(樣本值)出現(xiàn)的次數(shù)。 頻率:某樣本值的頻率=該樣本值出現(xiàn)的頻次/n(該數(shù)據(jù)集合的數(shù)據(jù)總個數(shù)) 一個例子(下頁),例3.1.1從某城市抽出來的30個商店中,查出某商品的價格數(shù)據(jù): 9.98 10.02 10.00 10.04 10.01 9.99 10.05 10.04 10.06 10.01 10.03 9.99 9.97 9.93 10.01 10.03 10.03 10.02 10.05 9.99 9.95 9.96 9.98 10.00 9.97 10.01 10.00 9.99 9.98 10.00 (感覺如何?亂!),排序:最基本的整理。 9.93 9.95 9.96 9.97 9.97 9.98 9.98 9.98 9.99 9.99 9.99 9.99 10.00 10.00 10.00 10.00 10.01 10.01 10.01 10.01 10.02 10.02 10.03 10.03 10.03 10.04 10.04 10.05 10.05 10.06 簡單之至? 認為容易的,可以試試手工對300個數(shù)據(jù)排序 簡單:基于軟件。,基于排序,能夠簡單統(tǒng)計頻次: 價格(元)9.93 9.94 9.95 9.96 9.97 9.98 9.99 10.00 次數(shù): 1 0 1 1 2 3 4 4 頻率% 3.33 0 3.33 3.33 6.67 10.00 13.33 13.33 價格(元)10.01 10.02 10.03 10.04 10.05 10.06 次數(shù): 4 2 3 2 2 1 頻率% 13.33 6.67 10.0 6.67 6.67 3.33 故意增加了“9.94元”這個刻度 排成一行,看清楚了頻率結構特征。 今后,統(tǒng)計頻次、頻率,都由機器完成。,上例是刻度級的數(shù)據(jù),下面看一個名義級數(shù)據(jù)的例子。 例3.1.3 抽樣調(diào)查后,得到客戶家具的基色調(diào)的數(shù)據(jù): R、Y、R、G、Y、Y、W、Y、G、G、R、Y、Y、R、W G、Y、R、W、Y、G、G、B、R、Y、Y、W、R、R、W R、Y、R、G、Y、Y、W、Y、G、G、R、Y、Y、R、W G、Y、R、W、Y、G、G、B、R、Y、Y、W、R、R、W 其中,R表示暗紅色,Y表示淡黃褐色,G表示淺綠色,W表示白色,B表示黑色。 統(tǒng)計出各個顏色出現(xiàn)的頻率如下:,當然,也可以統(tǒng)計出順序級數(shù)據(jù)集合的頻次與頻率結構。,3.1.2 觀察樣本數(shù)據(jù)基本特征(頻次與頻率)的圖形方法 1.表示頻次與頻率的餅圖(Pie Chart) 每個不同的樣本值所占據(jù)的圓心角的大小由下式計算: 在圓圈中,給每個不同的樣本值一個與其頻次(或頻率)相當?shù)膱A心角: 某樣本值對應的圓心角=該樣本值的頻率360,家具基色調(diào)(名義級數(shù)據(jù)),某單位職工文化程度的結構(順序級數(shù)據(jù)),2.表示頻次與頻率的條形圖 圖見下頁。 非常簡單: 1)橫坐標:樣本數(shù)據(jù)的不同值。 順序級以上,橫坐標上的樣本數(shù)據(jù)應從小到大排列。若是刻度級的,則在排序中,要注意長度的刻度,保持一致的比例。 2)縱坐標:相應樣本值出現(xiàn)的頻次或頻率。,某商品在30個商店的價格例(注意間距),某科室職工文化程度例(有順序,無間距),家具基色調(diào)例(橫坐標的色彩無順序關系),3.1.3 樣本數(shù)據(jù)集合的基本特征的延伸:累積頻率(Cumulative Percentage) 1.累積頻率的概念(簡單) 設X1X2Xm,是樣本數(shù)據(jù)集合中的不重復的樣本值(mn樣本個數(shù))。 若把樣本值小于等于某個樣本數(shù)據(jù)Xi的頻率值,都累加起來,就得到“小于等于Xi”的累積頻率。 2.表格法表示累積頻率(以價格問題為例):,價格(元)9.93 9.94 9.95 9.96 9.97 9.98 9.99 10.00 次數(shù): 1 0 1 1 2 3 4 4 頻率% 3.33 0 3.33 3.33 6.67 10.00 13.33 13.33 累積頻率% 3.33 3.33 6.67 10.00 16.67 26.67 40.00 53.33 價格(元)10.01 10.02 10.03 10.04 10.05 10.06 次數(shù): 4 2 3 2 2 1 頻率% 13.33 6.67 10.0 6.67 6.67 3.33 累積頻率% 66.67 73.33 83.33 90.00 96.67 100.00 討論:順序級數(shù)據(jù)能夠計算累積頻率嗎? 名義級數(shù)據(jù)能夠計算累積頻率嗎? 為什么?(答案見教材第72頁),3.累積頻率的條形圖表示 把條形圖的縱坐標改成累積頻率即可。 商品價格例:,第3.2節(jié) 觀察刻度級樣本數(shù)據(jù)結構的莖葉圖與直方圖方法,3.2.1莖葉圖(Stem-and-Leaf Plot)的概念與作法 1.概念 “莖-葉”的含義:按照某規(guī)則,把所有的樣本值分成“莖節(jié)”和“葉”兩個部分。表達為:“莖節(jié)葉”的形式。 “莖節(jié)”末位上的1所代表的實際值,就是“莖節(jié)”的寬度。,例如,可用莖葉法,把123表達為1.23(此時,莖節(jié)寬=100) 此時,123(樣本值)=1.23(莖葉表達)100(莖節(jié)寬) 問:若莖節(jié)寬度為10,如何表達123?,2.例題與莖葉圖的作法 例3.2.1 某班級男生的身高(厘米) 171 182 175 177 178 181 185 168 170 175 177 180 176 172 165 160 178 186 190 176 163 183 問:若以100cm為莖節(jié)寬?莖節(jié)是多少?對嗎? 結論:樣本數(shù)據(jù)集合中的“莖節(jié)”必須是有變化的 莖節(jié)寬應為10cm 把所有的數(shù)據(jù)都表達為“莖節(jié)葉”形式后,把相同莖節(jié)的數(shù)據(jù)合并為“莖節(jié)葉1葉2”形式(葉,要從小到大排列),再把不同的莖節(jié)從小到大縱向排列,就得到莖葉圖:,莖 葉 16 0,3,5,8 17 0,1,2,5,5,6,6,7,7,8,8 18 0,1,2,3,5,6 19 0 進一步策略(并注明頻次)為: 頻次 莖 葉 4 16 0,3,5,8 11 17 0,1,2,5,5,6,6,7,7,8,8 6 18 0,1,2,3,5,6 1 19 0 這就是身高數(shù)據(jù)集合的莖葉圖。 問:如果有的莖節(jié)右邊的葉子太多了,怎么辦?,把“莖節(jié)”砍短一點。 例如,把每個莖節(jié)分成兩段(L、H),有 頻次 莖 節(jié) 2 16L 03 2 16H 58 3 17L 012 8 17H 55667788 4 18L 0123 2 18H 56 1 19L 0 “莖節(jié)長度”的概念:莖節(jié)長度=允許覆蓋最大值-允許覆蓋最小值+1 上例中的莖節(jié)長度為5(cm):04,59 上例中的L、H可以省略。 事實上,上例的莖節(jié)是不必砍短的, 葉并不多 注意:莖節(jié)砍短時,要注意莖節(jié)等長的原則,3.2.2 直方圖(Histogram)的概念與作法,1.條形圖的弱點,當刻度級的數(shù)據(jù)的精度相對高,使得不重復的數(shù)據(jù)量非常大時,反而讓人看不清數(shù)據(jù)集合的結構。例如,身高問題 看不清分布的規(guī)律,如果我們對數(shù)據(jù)適當分組,再用矩形的高度來表示各組的數(shù)據(jù)的個數(shù)或頻率,就有(可看到清楚的分布規(guī)律): 這就是直方圖。各區(qū)間長度是5cm,起點是157.5cm,終點時192.5cm。,2.直方圖:適用于大量不重復樣本值的數(shù)據(jù)集合。 在繪制直方圖時,如何對數(shù)據(jù)分組,如何確定區(qū)間長度、區(qū)間個數(shù)?如何確定區(qū)間起點?參見教材。 今后軟件可自動完成分組和繪圖。 需要掌握的是:直方圖與條形圖的區(qū)別,各適用于什么數(shù)據(jù)特點?,作直方圖時,在區(qū)間長度確定后,如何確定區(qū)間個數(shù)? (數(shù)據(jù)集合中最大值-數(shù)據(jù)集合中的最小值)/區(qū)間長度,其值4舍5入后加1為組的個數(shù)。 作直方圖時,如何確定最左端區(qū)間的中心位置? 取出樣本數(shù)據(jù)集合中的最小值;確定備選的起始區(qū)間的中心位置;在備選區(qū)間的中心位置中,哪個與最小值接近,就確定為數(shù)據(jù)分組的起始區(qū)間。,第3節(jié) 樣本數(shù)據(jù)的位置特征 對數(shù)據(jù)中心的描述,樣本數(shù)據(jù)的測度級別的不同,需要不同的表示“數(shù)據(jù)集合中心”的概念。 本節(jié)將介紹“樣本中位數(shù)”、“樣本眾數(shù)”和“樣本均值”三個重要的描述數(shù)據(jù)集合中心位置的基本概念。,3.3.1 樣本眾數(shù)(Sample mode) 樣本眾數(shù)定義1:樣本數(shù)據(jù)集合中出現(xiàn)頻次最高的那個樣本值,稱為樣本眾數(shù)。在一般情況下,“樣本眾數(shù)”被簡稱為“眾數(shù)”。 單一眾數(shù):P.67。復眾數(shù):P.67。無眾數(shù):P.68 從條形圖,或者頻率表、頻次表來判斷。,眾數(shù)定義2:對刻度級的數(shù)據(jù),在等區(qū)間分組的直方圖中,最高的矩形(即峰Peak)所表示的數(shù)據(jù)區(qū)間,稱為該數(shù)據(jù)集合的眾數(shù)區(qū)間,簡稱眾數(shù)。如: 眾數(shù)區(qū)間,也有單一眾數(shù)和復眾數(shù)之分。 問:眾數(shù)適用于什么測度?廣義與俠義,3.3.2 樣本中位數(shù)(Sample median) 樣本中位數(shù): 設,樣本數(shù)據(jù)集合中的所有數(shù)據(jù)的排序結果為X1X2Xn,n為樣本容量。樣本中位數(shù),就是上述序列中,處于“正中間位置”上的數(shù)據(jù)。 兩個要素:位與數(shù)。 正中間位置“號碼”=(n+1)0.5,例1:17.0 17.1 17.2 17.5 17.5 17.6 17.6 Me=17.5 例2:16.8 17.0 17.1 17.2 17.5 17.5 17.6 17.6 Me=17.35 問:中位數(shù)適用于什么測度? 分奇偶個數(shù)。,3.3.3 樣本均值(Sample Mean) 樣本均值(Sample Mean) 樣本均值僅適用于刻度級的數(shù)據(jù)。 樣本數(shù)據(jù)集合的樣本均值定義為: 式中,Xi為樣本觀察值。,第3.4節(jié) 樣本數(shù)據(jù)的離散特征,描述數(shù)據(jù)集合的離散特征的兩種方法: 一、點狀描述,如明確樣本數(shù)據(jù)集合中的最小值和最大值等; 二、區(qū)間描述(基于差值的描述),如樣本數(shù)據(jù)集合中的最大值與最小值之差。,3.4.1 對樣本數(shù)據(jù)離散特征的點狀描述:極值、四分點與百分位點,1.極大值(Maximum)與極小值(Minimum) 極大值與極小值,從一定視角反映了樣本數(shù)據(jù)集合中樣本的離散情況。 問:極大值、極小值適用于什么測度? 另一個位與數(shù)的問題:,2.下四分點(Lower quartile)與上四分點(Upper quartile) 1)上、下四分點的概念 下四分點使由小到大排序后的數(shù)據(jù)集合的左邊部分,包含25%的樣本總個數(shù),右邊部分包含75%的樣本總個數(shù)。 上四分點使由小到大排序后的數(shù)據(jù)集合的左邊部分,包含75%的樣本總個數(shù),右邊部分包含25%的樣本總個數(shù)。 上、下四分點在一定意義上反映了樣本數(shù)據(jù)的離散情況。,2)上、下四分點(及中位數(shù))的位置 Q1:下四分點,Q3:上四分點,Q2=Me:中位數(shù),n:該數(shù)據(jù)集合的數(shù)據(jù)總個數(shù)。 下四分點Q1的位置=(n+1)0.25 正中間Q2的位置=(n+1)0.5 上四分點Q3的位置=(n+1)0.75 3)上、下四分點(及中位數(shù))的值 當Q1、Q2、Q3的位置為整數(shù)時,相應整數(shù)位置上的樣本值,就是當Q1、Q2、Q3的值。,當其不為整數(shù)時: Q1=Q2位置左邊的樣本值+(Q1位置右邊的樣本值-Q1位置左邊的樣本值)Q1位置的小數(shù)部分 Q3=Q3位置左邊的樣本值+(Q3位置右邊的樣本值-Q3位置左邊的樣本值)Q3位置的小數(shù)部分,本頁公式,可以不講 3)上、下四分點(及中位數(shù))的值 公式表達之二: Q1=Q1位置左邊的樣本值+(Q1位置右邊的樣本值-Q1位置左邊的樣本值)(n+1)0.25-(n+1)0.25 Q3=Q3位置左邊的樣本值+(Q3位置右邊的樣本值-Q3位置左邊的樣本值)(n+1)0.75-(n+1)0.75 式中,“是取整函數(shù),例如,5.75=5,4)例題 例3.4.1數(shù)據(jù):99.8,99.9,100.1,100.2,求Q1、Q2、Q3的值。 下四分點Q1的位置=(4+1)0.25=1.25,該位置左邊有1個數(shù)據(jù)(占總數(shù)的25%)。 中位數(shù)Q2的位置=(4+1)0.5=2.5,該位置左邊有2個數(shù)據(jù)(占總數(shù)的50%)。 上四分點Q3的位置=(4+1)0.75=3.75,該位置左邊有3個數(shù)據(jù)(占總數(shù)的75%)。,以下是Q1、Q2、Q3的位置的圖形表示:,計算Q1、Q2、Q3的值: Q1=99.8+(99.9-99.8)0.25=99.825 Q2=Me=99.9+(100.1-99.9)0.5=100.0 Q3=100.1+(100.2-100.1)0.75 =100.175 當Q1、Q3的位置不是整數(shù)時(也就是n+1不能被4整除時),Q1、Q3的值是通過四則運算得到的,所以用Q1、Q3表示離散狀況,僅適用于刻度級的數(shù)據(jù)。 當Q1、Q3的位置是整數(shù)時(即n+1能被4整除時),Q1、Q3的值就是相應位置上的值,所以用Q1、Q3表示離散狀況,適用于順序級以上的數(shù)據(jù)。,有關上四分點、下四分點和中位數(shù)的手工計算,不是很重要的。 很重要的是上四分點、下四分點和中位數(shù)的概念。 計算將由SPSS軟件完成。 百分位點的概念,很容易從四分位點推廣得到。,3.4.2 對樣本數(shù)據(jù)離散特征的區(qū)間描述:極差、四分距與離差 “區(qū)間描述”,必然要做加減運算,因此,區(qū)間描述僅適用于刻度級的數(shù)據(jù)。 1.極差(Range) 極差=極大值-極小值 它反映了樣本數(shù)據(jù)在數(shù)軸上的分布范圍。 2.四分位距(Interquartile range) 四分位距(Iqr)=Q3-Q1 它反映了樣本數(shù)據(jù)集合中樣本值處于中間大小的1/2的數(shù)據(jù)的分布范圍。,3.樣本離差(Sample deviations)與離差平方和(Sun of squared deviations) 樣本離差被定義為每個樣本與樣本均值之差:xi- ,i=1,2,n 樣本離差又稱樣本中心化數(shù)據(jù)。 例3.4.1的樣本數(shù)據(jù)為:99.8,99.9,100.1,100.2,易知均值為100.0,于是,樣本離差(中心化數(shù)據(jù))依次為:-0.2,-0.1,0.1,0.2。,反映數(shù)據(jù)集合對其均值的總偏差:所有的樣本離差之和,存在正負相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論