統(tǒng)計學數(shù)據(jù)分布特征的描述_第1頁
統(tǒng)計學數(shù)據(jù)分布特征的描述_第2頁
統(tǒng)計學數(shù)據(jù)分布特征的描述_第3頁
統(tǒng)計學數(shù)據(jù)分布特征的描述_第4頁
統(tǒng)計學數(shù)據(jù)分布特征的描述_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第三章數(shù)據(jù)分布特征的描述姓名工資(元)張XX2200李XX5600王XX2800…………趙XX4300總計320000工資(元/人)(人)1500以下51500-2500302500-3500403500-4500204500以上5總計100統(tǒng)計調查統(tǒng)計整理統(tǒng)計分析統(tǒng)計設計足夠大量的個體資料分組匯總的總體資料描述分析的總體特征通過調查獲得、經過整理后展現(xiàn)的數(shù)據(jù)已經可以反映出被研究對象的一些狀態(tài)與特征,但認知程度還比較膚淺,反映的精確度不夠,為此,我們要使用各類代表性的數(shù)量特征值來準確地描述這些數(shù)據(jù)。1統(tǒng)計學數(shù)據(jù)分布特征的描述對單變量截面數(shù)據(jù)的特征描述,主要有四個方面:集中趨勢、離散程度、偏態(tài)與峰度。各類代表性的數(shù)量特征值代表值是多少代表性有多大代表性可靠嗎集中趨勢的度量離散趨勢的度量分布特征的度量平均指標變異指標偏度峰度指標基本公式簡單式加權式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式公式算術平均數(shù)調和平均數(shù)幾何平均數(shù)中位數(shù)眾數(shù)極差平均差標準差離散系數(shù)原點矩中心距N階矩第三章數(shù)據(jù)分布特征的描述2統(tǒng)計學數(shù)據(jù)分布特征的描述第三章數(shù)據(jù)分布特征的描述第一節(jié)統(tǒng)計變量集中趨勢的測定第二節(jié)統(tǒng)計變量離散程度的測定第三節(jié)變量分布的偏度與峰度第四節(jié)利用Excel計算描述統(tǒng)計指標3統(tǒng)計學數(shù)據(jù)分布特征的描述第一節(jié)統(tǒng)計變量集中趨勢的測定一測定集中趨勢的指標及其作用二數(shù)值平均數(shù)三眾數(shù)與中位數(shù)4統(tǒng)計學數(shù)據(jù)分布特征的描述一、測定集中趨勢的指標及其作用集中趨勢(Centraltendency)較大和較小的觀測值出現(xiàn)的頻率比較低,大多數(shù)觀測值密集分布在中心附近,使得全部數(shù)據(jù)呈現(xiàn)出向中心聚集或靠攏的態(tài)勢。測度集中趨勢的指標有兩大類:數(shù)值平均數(shù)——是根據(jù)全部數(shù)據(jù)計算得到的代表值,主要有算術平均數(shù)、調和平均數(shù)及幾何平均數(shù);位置代表值——根據(jù)數(shù)據(jù)所處位置直接觀察或根據(jù)與特定位置有關的部分數(shù)據(jù)來確定的代表值,主要有眾數(shù)和中位數(shù)。5統(tǒng)計學數(shù)據(jù)分布特征的描述測定集中趨勢指標的作用1.反映變量分布的集中趨勢和一般水平。如用平均工資了解職工工資分布的中心,反映職工工資的一般水平。2.可用來比較同一現(xiàn)象在不同空間或不同階段的發(fā)展水平。不受總體規(guī)模大小的影響;在一定程度上使偶然因素的影響相互抵消。3.可用來分析現(xiàn)象之間的依存關系。如研究勞動者的文化程度與收入的關系。4.平均指標也是統(tǒng)計推斷中的一個重要統(tǒng)計量,是進行統(tǒng)計推斷的基礎。年份人均可支配收入人均消費性支出19922.0271.67219932.5772.11119943.4962.85119954.2833.53819964.8393.91919975.164.18619985.4254.33219995.8544.61620006.284.99820016.865.30920027.7036.0320038.4726.511合計62.97650.0736統(tǒng)計學數(shù)據(jù)分布特征的描述二、數(shù)值平均數(shù)(一)算術平均數(shù)(均值)一組數(shù)據(jù)的總和除以這組數(shù)據(jù)的項數(shù)所得的結果;最常用的數(shù)值平均數(shù)。

1.簡單算術平均數(shù)把每項數(shù)據(jù)直接加總后除以它們的項數(shù)。通常用于對未分組的數(shù)據(jù)計算算術平均數(shù)。計算公式:表3-1男性女性22222222252525252525252525253030303050307統(tǒng)計學數(shù)據(jù)分布特征的描述二、數(shù)值平均數(shù)表3-2年齡人數(shù)(人)xf2242510305501合計20表3-1男性女性22222222252525252525252525253030303050302.加權算術平均數(shù)——加權算術平均數(shù)的計算公式:加權—為了體現(xiàn)各變量值輕重不同的影響作用,對各個變量值賦予不盡相同的權數(shù)(fi)。8統(tǒng)計學數(shù)據(jù)分布特征的描述二、數(shù)值平均數(shù)2.加權算術平均數(shù)加權算術平均數(shù)的計算公式:權數(shù)(fi

,也稱權重)權數(shù)——指在計算總體平均數(shù)或綜合水平的過程中對各個數(shù)據(jù)起著權衡輕重作用的變量??梢允墙^對數(shù)形式,也可以是比重形式(如頻率)來表示。事實上比重權數(shù)更能夠直接表明權數(shù)的權衡輕重作用的實質。9統(tǒng)計學數(shù)據(jù)分布特征的描述二、數(shù)值平均數(shù)產量(件/人)人數(shù)(人)xfxf22488251025030515050150合計205382.加權算術平均數(shù)——權數(shù)的性質:加權——為了體現(xiàn)各變量值輕重不同的影響作用,對各個變量值賦予不盡相同的權數(shù)(fi)表1表2表3產量(件/人)人數(shù)(人)xfxf221222551253010300504200合計20647產量(件/人)人數(shù)(人)xfxf225110255125305150505250合計20635大變量值組大權數(shù),小變量值組小權數(shù),則平均數(shù)就大大變量值組小權數(shù),小變量值組大權數(shù),則平均數(shù)就小當權數(shù)完全相等(f1=f2=…=fn)時,加權算術平均數(shù)就成了簡單算術平均數(shù)。10統(tǒng)計學數(shù)據(jù)分布特征的描述表3-3節(jié)能燈泡的使用壽命的分組數(shù)據(jù)使用壽命(小時)組中值x數(shù)量fXf頻率f/ΣfXf/Σf1000以下900218000.020181000-12001100888000.080881200-1400130016208000.1602081400-1600150035525000.3505251600-1800170023391000.2303911800-2000190012228000.1202282000以上2100484000.04084合計——1001542001.00015423.由組距數(shù)列計算算術平均數(shù)各組變量值用組中值來代表。假定條件是各組內數(shù)據(jù)呈均勻分布或對稱分布。計算結果是近似值。二、數(shù)值平均數(shù)11統(tǒng)計學數(shù)據(jù)分布特征的描述表3-4企業(yè)流通費用率(%)商品銷售額(萬元)流通費用(萬元)甲161600256乙104750475丙124000480合計11.700481035012114.對相對數(shù)求算術平均數(shù)由于各個相對數(shù)的對比基礎不同,采用簡單算術平均通常不合理,需要加權。權數(shù)的選擇必須符合該相對數(shù)本身的計算公式。權數(shù)通常為該相對數(shù)的分母指標。二、數(shù)值平均數(shù)12統(tǒng)計學數(shù)據(jù)分布特征的描述5.算術平均數(shù)的主要數(shù)學性質(1)算術平均數(shù)與變量值個數(shù)的乘積等于各個變量值的總和(2)各變量值與算術平均數(shù)的離差之總和等于零(3)各變量值與算術平均數(shù)離差平方之總和為最小二、數(shù)值平均數(shù)13統(tǒng)計學數(shù)據(jù)分布特征的描述二、數(shù)值平均數(shù)產量(件/人)人數(shù)(人)總產量(件)xfxf22488251025030515050150合計20538(二)調和平均數(shù)(Harmonicmean)對于已分組資料,當已知各組單位總量f,未知各組標志總量m時,采用加權算術平均數(shù)。表1表2產量(件/人)總產量(件)人數(shù)(人)xmm/x22884252501030150550501合計53820商務統(tǒng)計中所應用的調和平均數(shù)通常是加權算術平均數(shù)的變形對于已分組資料,當已知各組標志總量m,未知各組單位總量f時,采用加權調和平均數(shù)。對于未分組資料,或雖已分組但各組次數(shù)相同時,采用簡單算術平均數(shù)。14統(tǒng)計學數(shù)據(jù)分布特征的描述二、數(shù)值平均數(shù)(二)調和平均數(shù)(Harmonicmean)調和平均數(shù)也稱為倒數(shù)平均數(shù)。各變量值的倒數(shù)(1/xi)的算術平均數(shù)的倒數(shù)。其計算公式為:對于未分組資料,采用簡單調和平均數(shù)。對于已分組資料,當已知各組標志總量m,未知各組單位總量f時,采用加權調和平均數(shù)。15統(tǒng)計學數(shù)據(jù)分布特征的描述二、數(shù)值平均數(shù)【例】某企業(yè)產品的加工要順次經過前后銜接的五道工序。本月該企業(yè)各加工工序的合格率分別為88%、85%、90%、92%、96%,試求這五道工序的平均合格率。本例中各工序的合格率具有環(huán)比的性質,企業(yè)產品的總合格率等于各工序合格率之連乘積。所以,所求的平均合格率應為:(三)幾何平均數(shù)(Geometricmean)16統(tǒng)計學數(shù)據(jù)分布特征的描述(三)幾何平均數(shù)(Geometricmean)幾何平均數(shù)—n個變量值連乘積的n次方根。簡單幾何平均數(shù)加權幾何平均數(shù)適用于各個變量值之間存在連乘積關系的場合。主要用于計算現(xiàn)象的平均發(fā)展速度;也適用于對某些具有環(huán)比性質的比率求平均。二、數(shù)值平均數(shù)17統(tǒng)計學數(shù)據(jù)分布特征的描述數(shù)值平均數(shù)小結:二、數(shù)值平均數(shù)簡單式加權式算術平均數(shù)調和平均數(shù)幾何平均數(shù)算術和的關系倒數(shù)和的關系連乘積的關系由未分組資料計算由已分組資料計算變量值的關系數(shù)值平均數(shù)的計算18統(tǒng)計學數(shù)據(jù)分布特征的描述三、眾數(shù)與中位數(shù)(一)眾數(shù)(Mode)眾數(shù)是一組數(shù)據(jù)中出現(xiàn)頻數(shù)最多、頻率最高的變量值,常用Mo

表示。如表3-2中年齡的眾數(shù)值Mo=25。眾數(shù)代表的是最常見、最普遍的狀況,是對現(xiàn)象集中趨勢的度量。可用來測度定性變量的集中趨勢;

銷售量最大的產品顏色是“白色”,則有Mo=“白色”??梢远攘慷孔兞康募汹厔荨?/p>

從分布曲線的角度看,眾數(shù)就是變量分布曲線的最高峰所對應的變量值。19統(tǒng)計學數(shù)據(jù)分布特征的描述組距數(shù)列中眾數(shù)的確定先找到眾數(shù)組。在等距數(shù)列中,眾數(shù)組就是次數(shù)最多的組;在異距數(shù)列中,眾數(shù)組應是頻數(shù)密度最大的組。根據(jù)眾數(shù)組與其相鄰兩組的次數(shù)差來推算。其近似公式為:下限公式:上限公式:20統(tǒng)計學數(shù)據(jù)分布特征的描述第二節(jié)統(tǒng)計變量離散程度的測定測度集中趨勢的指標有兩大類:數(shù)值平均數(shù)——主要有算術平均數(shù)、調和平均數(shù)及幾何平均數(shù);位置代表值——主要有眾數(shù)和中位數(shù)。測度離中趨勢的指標也有兩大類:數(shù)值平均數(shù)的代表性——主要有極差、平均差、方差和標準差、離散系數(shù);位置代表值的代表性——主要有四分位差、異眾比例。21統(tǒng)計學數(shù)據(jù)分布特征的描述第二節(jié)統(tǒng)計變量離散程度的測定一測定離散程度的指標及其作用二極差、四分位差和平均差三方差和標準差四離散系數(shù)五異眾比率

22統(tǒng)計學數(shù)據(jù)分布特征的描述一、測定離散程度的指標及其作用1.說明數(shù)據(jù)的分散程度,反映變量的穩(wěn)定性、均衡性。數(shù)據(jù)之間差異越大,變量的穩(wěn)定性或均衡性越差。2.衡量平均數(shù)的代表性。離散程度越大,平均數(shù)的代表性就越小。3.統(tǒng)計推斷的重要依據(jù)判別統(tǒng)計推斷前提條件是否成立,衡量推斷效果好壞的重要尺度。23統(tǒng)計學數(shù)據(jù)分布特征的描述二、極差、四分位差和平均差(一)極差(Range)極差是一組數(shù)據(jù)的最大值(xmax)與最小值(xmin)之差,通常用R

表示。對于總體數(shù)據(jù)而言,極差也就是變量變化的范圍或幅度大小,也稱為全距組距數(shù)列中,極差≈最高組的上限-最低組的下限。優(yōu)缺點:計算簡便、含義直觀、容易理解。它未考慮數(shù)據(jù)的中間分布情況,不能充分說明全部數(shù)據(jù)的差異程度。24統(tǒng)計學數(shù)據(jù)分布特征的描述二、極差、四分位差和平均差(二)四分位差第3四分位數(shù)(Q3)與第1四分位數(shù)(Q1)之差,常用Qd表示。計算公式為:實質上是兩端各去掉四分之一的數(shù)據(jù)以后的極差,表示占全部數(shù)據(jù)一半的中間數(shù)據(jù)的離散程度。四分位差越大,表示數(shù)據(jù)離散程度越大。優(yōu)缺點:是在一定程度上對極差的一種改進,避免了極端值的干擾。但它對數(shù)據(jù)差異的反映仍然是不充分的。四分位差是一種順序統(tǒng)計量,適用于定序數(shù)據(jù)和定量數(shù)據(jù)。尤其是當用中位數(shù)來測度數(shù)據(jù)集中趨勢時。25統(tǒng)計學數(shù)據(jù)分布特征的描述二、極差、四分位差和平均差(三)平均差(AverageDeviation)平均差——各個數(shù)據(jù)與其均值的離差絕對值的算術平均數(shù),反映各個數(shù)據(jù)與其均值的平均差距,通常以A.D表示。計算公式為:優(yōu)缺點:平均差含義清晰,能全面地反映數(shù)據(jù)的離散程度。但取離差絕對值進行平均,數(shù)學處理上不夠方便,在數(shù)學性質上也不是最優(yōu)的。已分組數(shù)據(jù):未分組數(shù)據(jù):26統(tǒng)計學數(shù)據(jù)分布特征的描述三、方差和標準差(一)方差(Variance)的概念和計算方差是各個數(shù)據(jù)與其均值的離差平方的算術平均數(shù).總體方差(

2)的計算公式為:樣本方差(通常用S2表示)分母應為(n-1)。已分組數(shù)據(jù):未分組數(shù)據(jù):27統(tǒng)計學數(shù)據(jù)分布特征的描述三、方差和標準差標準差(standardDeviation):方差的算術平方根??傮w標準差一般用

表示。其計算公式為:樣本標準差(S)分母應為(n-1)。標準差比方差更容易理解。在社會經濟現(xiàn)象的統(tǒng)計分析中,標準差比方差的應用更為普遍,經常被用作測度數(shù)據(jù)與均值差距的標準尺度分組數(shù)據(jù):未分組數(shù)據(jù):28統(tǒng)計學數(shù)據(jù)分布特征的描述計算平均差和方差、標準差使用壽命(小時)組中值(x)試驗數(shù)量(只)f頻率(f/Σf)(x-1542)|x-1542|f(x-1542)2*f1000以下90020.020-64212848243281000-1200110080.080-44235361200160-24238729370241400-16001500350.350-42147061740160023015836345741721800-20001900120.12035842962000以上210040.0405582232合計——1001.000——

2032429統(tǒng)計學數(shù)據(jù)分布特征的描述三、方差和標準差(二)方差的主要數(shù)學性質常數(shù)的方差等于零。a為常數(shù),則變量的線性函數(shù)的方差等于變量系數(shù)的平方乘以變量的方差。設a,b為常數(shù),y=a+bx,則有:分組條件下,總體的方差等于組間方差與各組方差平均數(shù)之和。組間方差各組方差平均數(shù)30統(tǒng)計學數(shù)據(jù)分布特征的描述三、方差和標準差(三)標準化值(Z-score)標準化值或標準得分也稱為Z值。對于來自不同均值和標準差的個體的數(shù)據(jù),往往不能直接對比。這就需要將它們轉化為同一規(guī)格、尺度的數(shù)據(jù)后再比較。標準化值實際上是將不同均值和標準差的總體都轉換為均值為0、標準差為1的總體,將各個體的數(shù)據(jù)轉換為它在其總體中的相對位置。31統(tǒng)計學數(shù)據(jù)分布特征的描述三、方差和標準差假定某班學生先后兩個兩次進行了難度不同的綜合考試,第一次考試成績的均值和標準差分別為80分和10分,而第二次考試成績的均值和標準差分別為70分和7分。張某第一、二次考試的成績分別為92分和80分,那么全班相比較而言,他哪一次考試的成績更好呢?解:由于兩次考試成績的均值和標準差不同,每個學生兩次考試的成績不宜直接比較。利用標準化值進行對比,表明第二次考試的成績更好一些。32統(tǒng)計學數(shù)據(jù)分布特征的描述三、方差和標準差(四)對稱鐘形分布中的3

法則3

法則——關于鐘形分布的一個近似的或經驗的法則:變量值落在[-3

,+3

]范圍以外的情況極為少見。因此通常將落在區(qū)間[-3

,+3

]之外的數(shù)據(jù)稱為異常數(shù)據(jù)或稱為離群點。x99.73%68.27%95.45%33統(tǒng)計學數(shù)據(jù)分布特征的描述四、離散系數(shù)前面的各變異指標都是有計量單位的,它們的數(shù)值大小不僅取決于數(shù)據(jù)的離散程度,還要受數(shù)據(jù)本身水平高低和計量單位的影響。對不同變量(或不同數(shù)據(jù)組)的離散程度進行比較時,只有當它們的平均水平和計量單位都相同時,才能利用上述變異指標來分析;否則,須利用離散系數(shù)來比較它們的離散程度。例如,哪個變量的差異較大:體重,還是身高?例如,體重的差異哪個較大:父親,還是嬰兒?父親:平均體重=70kg,標準差=5kg

嬰兒:5kg,1kg34統(tǒng)計學數(shù)據(jù)分布特征的描述四、離散系數(shù)離散系數(shù)是極差、四分位差、平均差或標準差等變異指標與算術平均數(shù)的比率,以相對數(shù)的形式表示變異程度。將極差與算術平均數(shù)對比得到極差系數(shù),將平均差與算術平均數(shù)對比得到平均差系數(shù)。最常用的離散系數(shù)是就標準差來計算的,稱之為標準差系數(shù):離散系數(shù)大,說明數(shù)據(jù)的離散程度大,其平均數(shù)的代表性就差;反之亦然.35統(tǒng)計學數(shù)據(jù)分布特征的描述五、異眾比率異眾比率是指非眾數(shù)值的次數(shù)之和在總次數(shù)中所占比重,其公式為:主要用于衡量一組數(shù)據(jù)以眾數(shù)為分布中心的集中程度,即衡量眾數(shù)代表一組數(shù)據(jù)一般水平的代表性。其值越小,數(shù)據(jù)集中程度越高,眾數(shù)代表性越大。36統(tǒng)計學數(shù)據(jù)分布特征的描述第三節(jié)變量分布的偏度與峰度一矩(動差)二偏度(Skewness)

三峰度(Kurtosis)37統(tǒng)計學數(shù)據(jù)分布特征的描述一、矩(動差)矩(動差)——一系列刻畫數(shù)據(jù)分布特征的指標的統(tǒng)稱。變量值與數(shù)值a

之離差的K

次方的平均數(shù)稱為變量x

關于a

的K

階矩,即:38統(tǒng)計學數(shù)據(jù)分布特征的描述K階原點矩(當a=0時)是數(shù)據(jù)的K次方的平均數(shù)一階原點矩即算術平均數(shù);二階原點矩即平方平均數(shù)。

K階中心矩矩(當a

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論