第四章 數(shù)據(jù)的描述性分析_第1頁
第四章 數(shù)據(jù)的描述性分析_第2頁
第四章 數(shù)據(jù)的描述性分析_第3頁
第四章 數(shù)據(jù)的描述性分析_第4頁
第四章 數(shù)據(jù)的描述性分析_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

4第四章數(shù)據(jù)的描述性分析通過本章的學(xué)習(xí),我們應(yīng)該知道:描述數(shù)據(jù)的集中趨勢的指標(biāo)及計算描述數(shù)據(jù)的離散程度的指標(biāo)及計算了解數(shù)據(jù)分布的偏態(tài)與峰度利用Excel進行數(shù)據(jù)的描述性統(tǒng)計分析Statistics本章內(nèi)容概述1本章內(nèi)容是關(guān)于:單變量截面數(shù)據(jù)的特征描述2為了對統(tǒng)計分組和簡單整理后的數(shù)據(jù)的進一步認識,借助于下面的四類指標(biāo)進行深入討論:集中趨勢、離散程度、偏態(tài)與峰度3統(tǒng)計指標(biāo)的作用

1集中趨勢的描述集中趨勢(centraltendency)反映的是一組數(shù)據(jù)向某一中心值靠攏的傾向。數(shù)據(jù)的集中趨勢通常用平均指標(biāo)來反映。集中趨勢指標(biāo)(平均指標(biāo))按計算方法不同分為:㈠算術(shù)平均數(shù)㈡調(diào)和平均數(shù)㈢幾何平均數(shù)㈣中位數(shù)㈤眾數(shù)數(shù)值平均數(shù)位置平均數(shù)可以反映現(xiàn)象總體的客觀規(guī)定性;可以對比同類現(xiàn)象在不同的時間、地點和條件下的一般水平;可以分析現(xiàn)象之間的依存關(guān)系。測定集中趨勢的意義:數(shù)值平均數(shù)是同質(zhì)總體內(nèi)各個個體某一數(shù)量標(biāo)志的具體表現(xiàn)在一定時間、地點、條件下所達到的一般水平,是反映現(xiàn)象總體綜合數(shù)量特征的重要指標(biāo),又稱為平均指標(biāo)1-1算術(shù)平均數(shù)(arithmeticmean)1概念:算術(shù)平均數(shù)是分析社會經(jīng)濟現(xiàn)象一般水平和典型特征的最基本指標(biāo),是統(tǒng)計中計算平均數(shù)最常用的方法。2基本公式:注意:

公式中分子和分母在經(jīng)濟內(nèi)容上的從屬關(guān)系:

公式中分子和分母在范圍上是一致的,否則不是平均數(shù)例勞動生產(chǎn)率=糧食產(chǎn)量/種糧農(nóng)民人數(shù);全國平均每人擁有的糧食產(chǎn)量=糧食產(chǎn)量/全國人口數(shù)。簡單算術(shù)平均數(shù)與加權(quán)算術(shù)平均數(shù)簡單算術(shù)平均數(shù)(simplearithmeticmean)特點:適于未分組數(shù)列;每個變量值出現(xiàn)的次數(shù)都是1。加權(quán)算術(shù)平均數(shù)(weightedarithmeticmean)特點:適于分組數(shù)列;平均數(shù)的值受權(quán)數(shù)的影響。計算公式:

其中:原始數(shù)據(jù)分為組,第組變量值為

對應(yīng)的次數(shù)為注意:對變量值的說明單項變量數(shù)列直接對變量值進行加權(quán)平均計算;組距變量數(shù)列先求出該組變量值的組中值,作為進行計算。83名女生的身高分布的集中趨勢、中心數(shù)值算術(shù)平均數(shù)組距數(shù)列加權(quán)算術(shù)平均數(shù)計算舉例某企業(yè)工人日產(chǎn)量的算術(shù)平均數(shù)計算表(單位:千克)按日產(chǎn)量分組工人數(shù)fi組中值xixifi60以下1060~701970~805080~903690~10027100~11014110以上8合計164555506512357537508530609525651051470115920—13550工人平均日產(chǎn)量=13550/164=82.62(千克)權(quán)數(shù)(weight)1概念我們把變量數(shù)列中的次數(shù)看作變量值的權(quán)數(shù)。原因在于:次數(shù)在平均數(shù)中的影響起著某種權(quán)衡輕重的作用影響平均數(shù)大小的兩個因素:變量值大小和權(quán)數(shù)。2形式權(quán)數(shù)有兩種形式:絕對數(shù)形式(頻數(shù))、相對數(shù)形式(頻率)同一總體資料,用權(quán)數(shù)的兩種形式計算的平均數(shù)完全相同。X456合計頻數(shù)頻率(%)10201025.050.025.040100.0X456合計頻數(shù)頻率(%)20402025.050.025.080100.0X456合計頻數(shù)頻率(%)20101050.025.025.040100.0成績(分)人數(shù)(人)甲班乙班丙班603915010013950平均成績(分)619980起到權(quán)衡輕重的作用權(quán)數(shù)對算術(shù)平均數(shù)的影響決定平均數(shù)的變動范圍算術(shù)平均數(shù)的數(shù)學(xué)性質(zhì)1算術(shù)平均數(shù)與總體單位數(shù)的乘積等于總體各單位標(biāo)志值的總和。2各變量值與算術(shù)平均數(shù)的離差之和等于零。3各變量值與算術(shù)平均數(shù)的離差平方之和最小。優(yōu)點:1容易理解,便于計算2靈敏度高缺點:1容易受極端變量值的影響2在開口組中,代表性變差1-2調(diào)和平均數(shù)(harmonicmean)概念:由于在社會經(jīng)濟統(tǒng)計中缺乏資料,計算平均數(shù)時就需要采用間接的方式,于是產(chǎn)生了調(diào)和平均數(shù)。時間單價(元/斤)x所花錢數(shù)(元)m購買量(斤)m/x早市中市晚市0.50.40.2111合計

3

購買3次該蔬菜的平均價格是多少?已知分子資料未知分母資料調(diào)和平均數(shù)與算術(shù)平均數(shù)的關(guān)系調(diào)和平均數(shù)在實際應(yīng)用中一般是作為算術(shù)平均數(shù)的變形使用,區(qū)別在于兩者所掌握的原始資料不同。對于相同的總體,兩者計算得到的結(jié)果完全相同。9.5

3

—合計22.551110.50.40.2早市中市晚市購買量(斤)m/x所花錢數(shù)(元)m單價(元/斤)x時間已知資料→調(diào)和平均數(shù)已知資料→算術(shù)平均數(shù)調(diào)和平均數(shù)的特點優(yōu)點:1靈敏度高2在某些情況下,代替簡單平均數(shù)進行計算缺點:1不容易理解2容易受極值影響3有標(biāo)志值為0時,不能計算已知分子資料未知分母資料未知分子資料已知分母資料1-3幾何平均數(shù)(geometricmean)1概念:若干項變量值連乘積開其項數(shù)次方的算術(shù)根。當(dāng)各項變量值的連乘積等于總比率或總速度時,適宜使用他計算平均比率或平均速度。2計算(見例4.6,4.7)簡單幾何平均數(shù):加權(quán)幾何平均數(shù):3優(yōu)點:

受極端變量值影響?。贿m宜計算平均比率和平均速度。缺點:有變量值為0或負值不能計算;應(yīng)用范圍較窄。1-4中位數(shù)與分位數(shù)1概念總體單位標(biāo)志值按大小順序排列,處于中間位置的那個標(biāo)志值就是中位數(shù)(median)Me。

意義:總體標(biāo)志值中一半比中位數(shù)小,一半比它大。人口普查中應(yīng)用年齡中位數(shù);產(chǎn)品質(zhì)量控制中取中位數(shù)2計算:(見書中例題)先對數(shù)據(jù)進行排序;

①未分組數(shù)據(jù)確定中位數(shù):

②單項數(shù)列確定中位數(shù):先計算各組的累積次數(shù)(向上或向下累計);再根據(jù)中位數(shù)的位置找到中位數(shù)。中位數(shù)與分位數(shù)中位數(shù)的特點:優(yōu)點:容易理解;不受極端值影響;某些不具有數(shù)學(xué)特點或不能用數(shù)字測定的現(xiàn)象可以用中位數(shù)求其一般水平。缺點:靈敏度差,不宜計算分位數(shù)概念:四分位數(shù)(Quartiles):把一個變量數(shù)列分為四等分,形成三個分割點Q1、Q2、Q3,這三個分割點的數(shù)值就是四分位數(shù)。Q2=Me計算:略十分位數(shù)(dectile)百分位數(shù)(percentile)1-5眾數(shù)1概念:眾數(shù)(mode)是總體中出現(xiàn)次數(shù)最多的標(biāo)志值。它能直觀的說明客觀現(xiàn)象分配中的集中趨勢。2應(yīng)用舉例:有時常用眾數(shù)代替算術(shù)平均數(shù)來說明社會經(jīng)濟現(xiàn)象的一般水平例:市場上某種商品一天的價格變動,成交量最多的那個價格大批服裝(鞋)規(guī)格不同,市場需求最多的那個規(guī)格3計算:未分組資料或單項數(shù)列:直接觀察法—出現(xiàn)次數(shù)最多的眾數(shù)的特點特點:只有總體單位數(shù)較多,標(biāo)志值次數(shù)分配具有明顯的集中趨勢時,眾數(shù)才有存在的意義。優(yōu)點:容易理解;不受極值影響缺點:不唯一;不易計算,尤其對于不等距分組的數(shù)列1-6各種平均指標(biāo)之間的關(guān)系1.三類數(shù)值平均數(shù)之間:算術(shù)平均數(shù)、幾何平均數(shù)、調(diào)和平均數(shù)2.數(shù)據(jù)的分布與眾數(shù)、中位數(shù)、算術(shù)平均數(shù)1-7對各平均指標(biāo)需要說明的問題1.數(shù)據(jù)的非對稱狀態(tài)越強,之間的差別就越大2.正確應(yīng)用平均指標(biāo)的原則平均指標(biāo)只能用于同質(zhì)總體概念:離散程度指標(biāo)又稱標(biāo)志變異指標(biāo),離中趨勢指標(biāo)等它反映變量分布離散趨勢;常與平均指標(biāo)匹配使用(1)評價平均數(shù)的代表性;(2)是對事物發(fā)展均衡性的量度:供貨計劃完成的均衡性,協(xié)調(diào)性;產(chǎn)品質(zhì)量的穩(wěn)定性作用:2離散程度的描述種類離散程度的絕對指標(biāo)離散程度的相對指標(biāo)2-1極差、四分位差概念:極差(Range)也叫全距,是一組數(shù)據(jù)的最大值與最小值之離差,即:特點:極差是最簡單的測度值,計算簡單,易于理解。只說明兩個極端變量值的差異范圍,不能反映各單位變量值變異程度,易受極端值的影響。2.四分位差(quartiledeviation)是指第三四分位數(shù)與第一四分位數(shù)之差,也稱為內(nèi)距或四分間距,用Qr表示。Qr=Q3-Q1特點:反映了中間50%數(shù)據(jù)的離散程度,不受極端值影響,在某種程度上彌補了極差的一個缺陷

平均差平均差(meandeviation)也稱平均離差,是各變量值與其平均數(shù)離差絕對值的平均數(shù),通常用表示。平均差在可比的情況下,一般平均差的數(shù)值越大,則其平均數(shù)的代表性越小,說明該組變量值分布越分散;反之,平均差的數(shù)值越小,則其平均數(shù)的代表性越大,說明該組變量值分布越集中。缺點:平均差由于采用絕對值的離差形式加以數(shù)學(xué)假定,在應(yīng)用上有較大的局限性。2-2標(biāo)準(zhǔn)差與方差概念:標(biāo)準(zhǔn)差是各單位標(biāo)志值與其算術(shù)平均數(shù)的離差平方的算術(shù)平均數(shù)的平方根,是實際中應(yīng)用最廣泛的離散程度測度值,量綱與標(biāo)志值的計量單位相同計算:未分組資料:分組資料:標(biāo)準(zhǔn)差與平均差之間的關(guān)系:2-3離散程度的相對指標(biāo):離散系數(shù)

對于平均數(shù)不等或計量單位不同的不同組別的變量值,是不能直接用離散程度的絕對指標(biāo)比較其離散程度的。為了消除變量平均數(shù)不等和計量單位不同對離散程度測試值的影響,需要計算離散程度的相對指標(biāo),即離散系數(shù)2-3離散程度的相對指標(biāo):離散系數(shù)例:從學(xué)校大一學(xué)生中抽取100人,測得他們的身高和體重的平均值分別為168cm,52kg;相應(yīng)的標(biāo)準(zhǔn)差為9cm,5kg。問身高和體重的差異哪一個大?離散系數(shù):把算術(shù)平均數(shù)與離散程度絕對指標(biāo)聯(lián)系起來的一個相對測度。身高的離散系數(shù)=9/168*100%=5.36%體重的離散系數(shù)=5/52*100%=9.62%2-4數(shù)據(jù)的標(biāo)準(zhǔn)化z-分?jǐn)?shù)在計算了算術(shù)平均數(shù)和標(biāo)準(zhǔn)差后,我們可以對一組數(shù)據(jù)中各個數(shù)值進行標(biāo)準(zhǔn)化處理,以測度每個數(shù)據(jù)在該組數(shù)據(jù)中的相對位置,并可以用它來判斷一組數(shù)據(jù)是否有異常值標(biāo)準(zhǔn)化數(shù)值是變量值與其平均數(shù)的離差除以標(biāo)準(zhǔn)差后的值,也稱為z分?jǐn)?shù)或標(biāo)準(zhǔn)分?jǐn)?shù)標(biāo)準(zhǔn)差數(shù)值z:經(jīng)驗法則:3-σ原則通常一組數(shù)據(jù)中高于或低于算術(shù)平均數(shù)三倍標(biāo)準(zhǔn)差的數(shù)值是很少的,即在算術(shù)平均數(shù)加減三個標(biāo)準(zhǔn)差的范圍內(nèi)幾乎包含了全部數(shù)據(jù)總方差等于組內(nèi)方差的平均數(shù)加上組間方差組內(nèi)方差反映組內(nèi)標(biāo)志值對組平均數(shù)的方差組間方差反映組平均數(shù)對總平均數(shù)的方差2-5總方差、組內(nèi)方差和組間方差

為什么要研究偏態(tài)和峰度?要全面了解數(shù)據(jù)分布的特點,還需要掌握數(shù)據(jù)分布的形狀是否對稱、偏斜的程度以及扁平程度等。反映這些分布特征的測度值是偏態(tài)和峰度3分布的偏態(tài)與峰度3分布的偏態(tài)與峰度3-1原點距與中心距k階原點距:以標(biāo)志值0點為原點或支點,以各組標(biāo)志值的k次方為力臂,以為作用力的大小算術(shù)平均數(shù)可用一階原點矩表示k階中心距:把原點移到算術(shù)平均數(shù)處,以的各次方作為力臂的距離,以為作用力的大小方差可用二階中心矩表示3-2分布的偏態(tài)概念:偏態(tài)(Skewness)是對分布偏斜方向和程度的測度。變量分組后,總體中各個體在不同的分組變量值下分布并不均勻?qū)ΨQ,而呈現(xiàn)出偏斜的分布狀況,統(tǒng)計上將其稱為偏態(tài)分布。計算:計算公式為三階中心矩與標(biāo)準(zhǔn)差的三次方之比偏態(tài)系數(shù)的數(shù)值一般在0與±3之間,越接近0,分布的偏斜度越??;越接近±3,分布的偏斜度越大3-3分布的峰度概念:峰度(Kurtosis)是分布集中趨勢高峰的形狀。在變量數(shù)列的分布特征中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論