數(shù)據(jù)的預(yù)處理和篩選要求_第1頁
數(shù)據(jù)的預(yù)處理和篩選要求_第2頁
數(shù)據(jù)的預(yù)處理和篩選要求_第3頁
數(shù)據(jù)的預(yù)處理和篩選要求_第4頁
數(shù)據(jù)的預(yù)處理和篩選要求_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)的預(yù)處理和篩選要求 Session2 THEME:Descriptive Statistics (一)數(shù)據(jù)的整理與顯示 數(shù)據(jù)的審核與篩選 數(shù)據(jù)的排序原始數(shù)據(jù)的 完整性、準確性二手數(shù)據(jù)的 適用性和及時性(一)數(shù)據(jù)的整理與顯示定類數(shù)據(jù)的整理與顯示 頻數(shù)與頻數(shù)分布1)頻數(shù):也稱次數(shù),是落在各類別中的數(shù)據(jù)個數(shù); 頻數(shù)分布:用數(shù)據(jù)概括表的形式來列示若干個互不重疊分組中每組數(shù)據(jù)出現(xiàn)的次數(shù)例:由購買50臺計算機的樣本數(shù)據(jù)得到的頻數(shù)分布表:公司發(fā)生頻數(shù)相對頻數(shù)百分比頻數(shù)蘋果130.3626康柏120.3424蓋特威-200050.1010IBM90.1818帕科特.貝爾110.2222合計501.0010

2、02) 比例(Proportion):總體中各個部分的數(shù)量占總體數(shù)量的比重,通常用于反映總體的構(gòu)成或結(jié)構(gòu)。又可以稱為相對頻數(shù)。N1 N2 N3 N4 .,Nk比例:Ni/N。 比例的性質(zhì)含義。3) 百分比頻數(shù)(Precentage):將比例乘以100,用%表示。4) 比率(Ratio):各不同類別的數(shù)量的比值。 比例與比率的區(qū)別。公司發(fā)生頻數(shù)相對頻數(shù)百分比頻數(shù)蘋果130.3626康柏120.3424蓋特威-200050.1010IBM90.1818帕科特.貝爾110.2222合計501.00100 定類數(shù)據(jù)的圖示1)條形圖(Bar chart)、柱形圖2)圓餅圖(Pie chart)定類數(shù)據(jù)整

3、理與顯示知識點: 條形圖 和圓餅圖是描述頻數(shù)或百分比分布已經(jīng)經(jīng)過匯總的定類數(shù)據(jù)的圖形方法。 組別同數(shù)據(jù)種類關(guān)系一致 頻數(shù)總和與數(shù)據(jù)集中項目總數(shù)相同:相對頻數(shù)總和為1.00;百分比頻數(shù)總和為100。 條形圖、柱形圖的長度或高度代表頻數(shù),其寬度都相同。2. 定序數(shù)據(jù)的整理與顯示 累積頻數(shù)和累積頻率 1)累積頻數(shù)(Cumulative frequencies):就是將各類別的頻數(shù)逐級累加。 向上累加:從類別順序開始的一方向最后一方累加頻數(shù); 向下累加:從類別順序的最后一方向開始一方累加頻數(shù)?;卮痤悇e甲城市戶數(shù)(戶)百分比(%)向上累積向下累積戶數(shù)百分比戶數(shù)百分比非常不滿意不滿意一般滿意非常滿意241

4、08934530836311510241322252703008447590100300276168753010092562510合計300100甲城市家庭對住房狀況的評價2)累積頻率或百分比(Cumulative percentages):就是將各類別的百分比逐級累加起來。分向上和向下累積兩種方法。 定序數(shù)據(jù)的圖示 1)累積頻數(shù)分布圖。 2)環(huán)形圖。1. 數(shù)據(jù)的分組:將數(shù)據(jù)按某種標準化分成不同的組。再進行頻數(shù)統(tǒng)計,形成頻數(shù)分布表。 單變量值分組:把每一個變量值作為一組。例:某企業(yè)10名工人日加工零件數(shù)(個)如下:117122107117130115122114118122排序:1071141

5、15117117118122122122130(一)頻數(shù)分布將上述數(shù)據(jù)采用單變量分組如下表:零件數(shù)(個)頻數(shù)(人)零件數(shù)(個)頻數(shù)(人) 107 1 114 1 115 1 117 2 1181 1223 1301只適用于離散變量且變量值較少的情況。 組距分組:將全部變量值依次劃分若干區(qū)間,并將這一區(qū)間的變量值作為一組。步驟如下: 1)確定互不重疊分組的個數(shù)。 2)確定每組的組距 3)確定組限 建議分組數(shù)目:5-20個。例:年終審計時間用時(天) 14191815151817202722232221332814181613第一步:確定組數(shù) 根據(jù)數(shù)據(jù)集大小確定。Sturgesdes的經(jīng)驗公式 本

6、例中N=20,可以取組數(shù)為5。第二步:組距的確定。組距(Class width)是一個組上限與下限的差。近似組距=(數(shù)據(jù)最大值數(shù)據(jù)最小值)/ 組數(shù) 組限: 下限確定分配給該組可能的最小數(shù)據(jù)值; 上限確定分配給該組可能的最大數(shù)據(jù)值。在本例中,每組的組距近似為:采用5作為組寬因此,分組為:10-14,15-19,20-24,25-29,30-34分組中的其他問題: 分組的不重不漏原則 上組限不在內(nèi) 開口組 等距分組和不等距分組 頻數(shù)密度=頻數(shù)/組距 組中值=(下限值+上限值)/2 (均勻分布 審計時間數(shù)據(jù)頻數(shù)分布 審計時間(天)頻數(shù) 10-14 4 15-19 8 20-24 5 25-29 2

7、29-34 1 合計20(二)相對頻數(shù)分布和百分比頻數(shù)分布每組相對頻數(shù)=每組的頻數(shù)/ n n是數(shù)據(jù)的個數(shù)每組的百分比頻數(shù)=相對頻數(shù)*100 審計時間(天) 相對頻數(shù) 百分比頻數(shù) 10-14 0.20 20 15-19 0.4040 20-24 0.2525 25-29 0.1010 30-34 0.055 合計 1.00100 點圖 直方圖(注意區(qū)分直方圖與條形圖的區(qū)別) 折線圖 累積分布051015202530點圖:橫軸表示數(shù)據(jù)的值域,數(shù)據(jù)值打點表示0 10 20 30 40注意:區(qū)分條形圖與直方圖累積頻數(shù) 分布表格顯示小于或等于每組上限的數(shù)值次數(shù)。 探索性數(shù)據(jù)分析技術(shù)由簡單運算和容易繪制的

8、圖形組成。 常用技術(shù)莖葉圖例:6 7 8 9 10 11 89 233566 01123456 12224556 002466 1 交叉(分組)列表:一種同時概括兩個變量數(shù)據(jù)的表格方法,將兩個或兩個以上具有有限類目數(shù)和確定值的變量按一定順序?qū)?yīng)排列在一張表中。分析手段:常常應(yīng)用行、列的邊際分布。2.5 交叉分組列表和散點圖 300家飯店質(zhì)量等級和餐價交叉列表分組表質(zhì)量等級餐價/美元總計10-1920-2930-3940-49好42402084非常好3460466150極好214282266總計7811876283002.5 交叉分組列表和散點圖交叉分組列表的優(yōu)點: 提供了變量之間的關(guān)系 廣泛用

9、于調(diào)查兩個變量之間的問題 交叉列表是統(tǒng)計調(diào)查報告最常見的形式之一。2.5 交叉分組列表和散點圖散點圖: 1250 2557 3 141 4354 5454 6138 7563 8348商店廣告次數(shù)與銷售額資料 廣告次數(shù) 銷售額2.5 交叉分組列表和散點圖散點圖的類型練習(xí) PMP考試要求在4小時內(nèi)回答200個問題?,F(xiàn)在將其中20人正確的答題數(shù)列在下表,繪制莖葉圖并評估結(jié)果。 P61,36; P62,38;41。123100688010012389901001321161171201158796102Session2 THEME:Descriptive Statistics (一)數(shù)據(jù)的數(shù)值描述方

10、法主要內(nèi)容: 集中趨勢的測度 離中趨勢的測度 探索性數(shù)據(jù)分析 雙變量相關(guān)關(guān)系測度 分布集中趨勢的測度值反映的是數(shù)據(jù)一般水平的代表值,或者是數(shù)據(jù)分布的中心值。從不同的角度考慮,集中趨勢的測度值有多個,主要有:眾數(shù)(mode)中位數(shù)(median)分位數(shù) (Quartile) 均值(mean) 集中趨勢的測度集中趨勢的測度 眾數(shù)(M0):出現(xiàn)頻率最高的一個數(shù)據(jù)值 例:當前手機市場分額:諾基亞摩托羅拉三星TCL波導(dǎo) 單項式變量數(shù)列:找出出現(xiàn)次數(shù)最多的標志值就是眾數(shù) 組距式變量數(shù)列:首先確定眾數(shù)組,一般最大頻數(shù)對應(yīng)組就是眾數(shù)組。其次求具體的眾數(shù)值,通常用下面的近似公式計算: (3、1)式中表示眾數(shù),L

11、表示眾數(shù)所在組的下組限,表示眾數(shù)組與前一組次數(shù)之差,表示眾數(shù)組次數(shù)與后一組次數(shù)之差,i表示眾數(shù)組的組距 。眾數(shù)是一種位置代表值。例如;在農(nóng)貿(mào)市場上某種商品的價格常以眾數(shù)值為代表。鞋子,帽子等物品的尺碼。集中趨勢的測度 中位數(shù):一組數(shù)據(jù)從小到大排序后,處于中間位置上的數(shù)據(jù)值,用Me表示。 如果數(shù)據(jù)是奇數(shù),中位數(shù)處于正中心的一項數(shù)據(jù)值; 如果數(shù)據(jù)是偶數(shù),中位數(shù)是正中心兩項的平均值;計算公式:特點:應(yīng)用場合。數(shù)據(jù)是已分組的資料此時原始數(shù)值已被隱去,不能直接對其排隊求其準確的中位數(shù)數(shù)值,可用以下的近似公式計算: (3、2)式中表示中位數(shù)所在位置,L表示中位數(shù)所在組的下組限,表示中位數(shù)所在組以前各組的累

12、積次數(shù),表示中位數(shù)所在組的次數(shù),i表示中位數(shù)所在組的組距。中位數(shù)有這樣一個性質(zhì),就是數(shù)據(jù)值與中位數(shù)之差的絕對值最小,即表明數(shù)據(jù)值與中位數(shù)的距離最短,在工程設(shè)計中有應(yīng)用價值。分位數(shù)中位數(shù)是將統(tǒng)計分布從中間分成相等的兩部分,與中位數(shù)性質(zhì)相似的還有四分位數(shù)(quartiles)、十分位數(shù)(decile)、和百分位數(shù)(percentile)。顯然,四分位數(shù)就是將數(shù)據(jù)分布四等分的三個數(shù)值,其中中間的四分位數(shù)就是中位數(shù)。十分位數(shù)和百分位數(shù)分別是將數(shù)據(jù)分布是等分和一百等分的數(shù)值。以分位值作集中趨勢分析,在西方統(tǒng)計學(xué)中討論和運用較多,在中國較少用到。均值(mean)主要指算術(shù)平均數(shù),是數(shù)據(jù)集中趨勢的最主要測度

13、值。任何統(tǒng)計推斷和分析都離不開均值。從統(tǒng)計思想看,它反映了一組數(shù)據(jù)的中心點或代表值,是數(shù)據(jù)誤差互相抵消后,客觀事物必然性數(shù)量特征的一種反映。從數(shù)學(xué)公式看,均值有一些非常重要的性質(zhì): 1 數(shù)據(jù)觀察值與均值的離差之和為零,即2 數(shù)據(jù)觀察值與均值的離差平方和最小, 3 均值是統(tǒng)計分布的均衡點,不論統(tǒng)計分布是對稱分布還是偏態(tài)分布,只有在均值點上才能支撐這一分布,使其保持平衡,這一均衡點在物理上稱為重心。算術(shù)平均數(shù)它是最常用的集中趨勢描述指標,其原因有二:一是因為它的計算方法,與許多客觀現(xiàn)象中的個別現(xiàn)象與總體現(xiàn)象之間存在的數(shù)量關(guān)系相符合;二是算術(shù)平均值作為一種變量值的集中值,不僅考慮到變量值的次數(shù),而且

14、考慮到變量值的大小。變量數(shù)列中任何次數(shù)和變量值大小的變化都會引起算術(shù)平均值的改變。因此它是一個最靈敏的指標,也是對資料所提供信息運用最充分的指標。算術(shù)平均數(shù)的計算通式:由于所掌握資料條件不同,算術(shù)平均值有兩種具體計算形式:簡單算術(shù)平均值和加權(quán)算術(shù)平均值。簡單算術(shù)平均數(shù)將被研究標志的各個數(shù)值相加,除以具有這個標志的單位數(shù)所得之商,就可求出簡單算術(shù)平均數(shù)。即簡單算術(shù)平均值的特點是每一變量值出現(xiàn)的次數(shù)都等于1。 加權(quán)算術(shù)平均數(shù) 當變量數(shù)列各組次數(shù)不等時,計算算術(shù)平均值要用加權(quán)平均法。這里“權(quán)”,是指各組的次數(shù)或各組次數(shù)占總次數(shù)的比重。計算公式: x :標志的個別數(shù)值 n:個別數(shù)值的項數(shù)f:各組次數(shù)各

15、組次數(shù)占總次數(shù)比重實例(單項數(shù)列)有三個鄉(xiāng)鎮(zhèn)企業(yè)的工人數(shù)及每一企業(yè)的月平均工資資料,如何計算所有這些企業(yè)共同的月平均工資? 表 :1999年某地區(qū)三個鄉(xiāng)鎮(zhèn)企業(yè)工人工資 企業(yè)名稱 工人數(shù)(人) 月平均工資(元/人)工資總額(元)(甲 ) f x xf 甲1 500 620 310000 甲2 600 625 375000 甲3 900 635 571500 合計 2000 628.7 1256500所有這三個企業(yè)的平均工資為:將計算出來的平均工資乘上工人實際人數(shù),即可得到所有工人的全部實際工資總額。628.7元/人*2000人=1257400元實例(組距數(shù)列)表:某企業(yè)1999年工人按工資額分配

16、情況 月工資(元) 各組平均工資(元/人) 工人數(shù)(人)工資總額 甲 x f xf( 元) 600以下 550 40 22000 600-700 650 100 65000 700-800 750 200 150000 800-900 850 400 340000 900-1000 950 450 427500 1000-1200 1100 250 275000 1200以上 1300 60 78000 合計 - 1500 1357500元/人調(diào)和平均數(shù)當算術(shù)平均數(shù)計算公式中的分母項“總體單位數(shù)”未知時,算術(shù)平均值無法直接算得,這時要用調(diào)和平均法計算,但當各變量值對平均數(shù)所起的作用不同時,計算

17、式為:若設(shè)xf=M 則:調(diào)和平均數(shù)各組變量值各組變量值重復(fù)出現(xiàn)的次數(shù)此計算式從形式上看,是以各變量值的倒數(shù) 來計算的,故也稱倒數(shù)平均數(shù)。 例如有某采購站收購某種藥材的資料:見表 等級 單價(元/斤) 收購額(元) 收購量(斤)符號 x xf 一級 1.2 24 20 二極 1.0 30 30 三級 0.7 7 10 合計 - 61 60 已知資料計算欄(元/斤)簡單調(diào)和平均數(shù)在所有權(quán)數(shù)相同或等于1時,按簡單調(diào)和平均數(shù)計算。如將前式中的M(相同的權(quán)數(shù))移到 的前面,并將分數(shù)式化簡,可得如下公式:n;個別標志值項數(shù)假設(shè)前表中,每種藥材等級的收購額均為24元的話,這時求該藥材平均價格的計算公式,就可

18、采用簡單調(diào)和平均法。即元/斤幾何平均數(shù)(Geometric Mean)這是與算術(shù)平均數(shù) 不同的另一種平均數(shù)。在計算社會經(jīng)濟問題的平均發(fā)展速度等方面有很重要的應(yīng)用。簡單幾何平均數(shù) :如果掌握的資料未分組,應(yīng)采用簡單幾何平均法。其計算公式: 各項變量值,為各期發(fā)展速度或各個比率 n 變量值的次數(shù)=通常利用對數(shù)方法簡化計算,將上式兩邊取對數(shù)即:實際資料:我國19791993年各年的社會總產(chǎn)值為:單位:億元 1979年 1980年 1981年 1982年 1983 年 7642 8531 9071 9963 11052 求出這幾年間社會總產(chǎn)值的平均發(fā)展速度。先分別計算19801983年各年的發(fā)展速度,

19、即 1980年 1981年 1982年 1983年 111.63 106.33 109.83 110.93代入公式:即由19791983年是社會總產(chǎn)值以平均每年109.86%的速度發(fā)展。加權(quán)幾何平均法 如果掌握的資料已經(jīng)分組,每個變量值出現(xiàn)的次數(shù)(或比重)不相同時,應(yīng)采用加權(quán)幾何法,其計算公式如下:次數(shù)總和切尾均值(trimmed mean)是切掉數(shù)據(jù)大小兩端的若干數(shù)值后計算中間數(shù)據(jù)的均值。這種集中趨勢測度方法在電視大獎賽、體育比賽及需要人們進行綜合評價的竟賽項目中已得到廣泛應(yīng)用。我們在電視中熟悉的:“去掉一個最低分,去掉一個最高分,最后得分是-分”。就是利用切尾均值方法得到的結(jié)果。計算公式:

20、式中,n 表示觀察值的個數(shù); 表示切尾系數(shù), ,到大形成的順序統(tǒng)計值。數(shù)據(jù)兩端切去幾個數(shù)據(jù),通過切尾系數(shù)決定。當系數(shù)取0和系數(shù)接近1/2時,切尾均值公式變成算術(shù)平均數(shù)和中位數(shù)的公式,這是公式的兩種特例。 是數(shù)據(jù)經(jīng)過排隊以后有小 離中趨勢測度 對 統(tǒng)計分布或次數(shù)分配數(shù)據(jù)規(guī)律性的研究,集中趨勢表示的是分布的中心位置或一般水平的代表值,離散程度反映的是離中趨勢和差異程度。對統(tǒng)計數(shù)據(jù)的描述和分析正是利用這一對對立統(tǒng)一的代表值展開的。離中趨勢測度全距;極差(range)內(nèi)距(inter-quartile range ,IQR)平均絕對差(mean absolute deviation ,MAD)方差(v

21、ariance)標準差(Standard Deviation)離散系數(shù) 極差系數(shù) 平均絕對差系數(shù) 標準差系數(shù)(coefficient of variation)極差 (Range)極差也稱全距,是數(shù)據(jù)最大值減去最小值之差,它是數(shù)據(jù)離散或差異程度的最 簡單測度值,即 其中R為全距max( )和min( )分別表示數(shù)據(jù) 中的最大值和最小值; 和 則 是用順序統(tǒng)計量表示的最大值和最小值。數(shù)據(jù)的分散程度越大,極差就越大;反之則小。 極差的計算很簡單,但它易受極端值的影響。 內(nèi)距(inter-quartile range,IQR)是兩個分位數(shù)之差,內(nèi)距=上四分位數(shù)-下四分位數(shù);IQR= 它是與集中趨勢代

22、表值四分位數(shù) 相對應(yīng)的離散程度代表值。平均絕對差(mean absolute deviation,MAD)是數(shù)據(jù)值與均值之差絕對值的平均數(shù),即簡單式 (樣本未分組) 加權(quán)式(樣本已分組 ) 平均絕對差實際上是對數(shù)據(jù)與均值的離差進行平均。根據(jù)均值的數(shù)學(xué)性質(zhì),數(shù)據(jù)值與均值離差之和為0。為避免平均離差數(shù)值為0反映不出數(shù)據(jù)差異的大小,就對離差取了絕對值。平均絕對差越大,離差絕對值就越大 。數(shù)據(jù)差異程度越也就越大。方差和標準差方差(variance)是離差平方的平均數(shù)??傮w方差總體標準差樣本方差樣本標準差 S離散系數(shù)、變異系數(shù)極差、 內(nèi)距、平均絕對差、方差和標準差,都是具有其所依據(jù)資料相同的計量單位的絕

23、對數(shù)。用絕對數(shù)表示離中趨勢,意義明顯,易于理解。但當對兩個或兩個以上變量數(shù)列的均衡性和離散性比較時,如果絕對數(shù)變異指標的計量單位不同,或者各個變量數(shù)列的平均水平不同,這時就不能直接比較絕對數(shù)變異指標,而要采用相對數(shù)變異指標,叫離散系數(shù)或變異系數(shù)它主要指絕對數(shù)變異指標與其算術(shù)平均數(shù)之間的比率。是一個反映總體某一 數(shù)量標志變異相對程度的統(tǒng)計指標。極差系數(shù)設(shè) 為極差系數(shù)則:例如有男青年和女青年兩個抽樣總體,各由125名20歲青年所組成,其平均體重和極差如下: 平均體重(公斤) 極差(公斤) 男青年組 55.52 18 女青年組 48.52 16單從極差來看:R(男)R(女),但不能就此得出結(jié)論說男青年組平均體重的代表性小,需進一步計算極差系數(shù): 男青年組 女青年組由于男青年組體重的極差系數(shù)小于女青年組體重的極差系數(shù),因此,男青年組平均體重的代表性大.六 集中趨勢離散趨勢的 應(yīng)用資金風(fēng)險價值的計算計算資金風(fēng)險程度,一般計算期望報酬率、標準離差、標準離差率等指標。期望報酬率:是各種可能的報酬率按其概率進行加權(quán)平均得到的報酬率,表示在所有各種風(fēng)險條件下,期望可能得到的平均報酬率,是反映集中趨勢的一種量度。其計算公式為:式中, 期望報酬率; 第i種可能結(jié)果的報酬率; 第i種可能結(jié)果的概率; n 可能結(jié)果的個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論