第1章數(shù)據(jù)的描述性分析_第1頁(yè)
第1章數(shù)據(jù)的描述性分析_第2頁(yè)
第1章數(shù)據(jù)的描述性分析_第3頁(yè)
第1章數(shù)據(jù)的描述性分析_第4頁(yè)
第1章數(shù)據(jù)的描述性分析_第5頁(yè)
已閱讀5頁(yè),還剩31頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章數(shù)據(jù)的描述性分析1.1數(shù)據(jù)的數(shù)字特征

數(shù)據(jù)分析研究的對(duì)象是數(shù)據(jù),一元數(shù)據(jù)是個(gè)觀測(cè)值

要研究數(shù)據(jù)的數(shù)字特征,分析數(shù)據(jù)的集中位置、分散程度、數(shù)據(jù)的分布是正態(tài)還是偏態(tài)。對(duì)于多元數(shù)據(jù),要分析數(shù)據(jù)各個(gè)分量的相關(guān)性等等.

1.1.1均值、方差等數(shù)字特征

1.均值2.方差標(biāo)準(zhǔn)差

變異系數(shù)階原點(diǎn)矩階中心矩偏度偏度是刻畫數(shù)據(jù)對(duì)稱性的指標(biāo),右側(cè)更分散的數(shù)據(jù)偏度為正,左側(cè)更分散的數(shù)據(jù)偏度為負(fù),關(guān)于均值對(duì)稱的數(shù)據(jù)偏度為0.

峰度

當(dāng)總體分布為正態(tài)時(shí),峰度近似為0;當(dāng)分布較正態(tài)分布的尾部更分散,峰度為正,否則峰度為負(fù).

當(dāng)數(shù)據(jù)是某些總體隨機(jī)取出的樣本時(shí),數(shù)據(jù)數(shù)字特征即是樣本的數(shù)字特征.與樣本數(shù)字特征對(duì)應(yīng)的是總體的數(shù)字特征.樣本數(shù)字特征是相應(yīng)的總體數(shù)字特征的矩估計(jì).

例1.2某單位對(duì)100名女學(xué)生測(cè)定血清總蛋白含量(g/L),數(shù)據(jù)如下:

74.378.868.878.070.480.580.569.771.273.579.575.675.078.872.072.072.074.371.272.075.073.578.874.375.865.074.371.269.768.073.575.072.064.375.880.369.774.373.573.575.875.868.876.570.471.281.275.070.468.070.472.076.574.376.577.667.372.075.074.373.579.573.574.765.076.581.675.472.772.767.276.572.770.477.268.867.567.567.372.775.873.575.073.573.573.572.781.670.374.373.579.570.476.572.777.284.375.076.570.4計(jì)算均值、方差、標(biāo)準(zhǔn)差、變異系數(shù)、偏度、峰度

解用SAS系統(tǒng)PROCUNIVARRIATE過程計(jì)算,得

偏度、峰度的絕對(duì)值皆較小,可以認(rèn)為數(shù)據(jù)是來自正態(tài)總體的樣本.1.1.2中位數(shù)、分位數(shù)、三均值與極差這些數(shù)字特征適合總體分布未知或有偏態(tài)的數(shù)據(jù).設(shè)是個(gè)觀測(cè)值,將它們按由小到大排為:稱為次序統(tǒng)計(jì)量.最小次序統(tǒng)計(jì)量與最大次序統(tǒng)計(jì)量分別為中位數(shù)與極差中位數(shù)

中位數(shù)位于數(shù)據(jù)中心位置,中位數(shù)具有穩(wěn)健性,受異常值影響較小.

極差2.分位數(shù)對(duì),分位數(shù)其中是的整數(shù)部分,當(dāng)定義.

分位數(shù)又稱第100百分?jǐn)?shù).大體上有100%的觀測(cè)值不超過分位數(shù).

即中位數(shù).上四分位數(shù)下四分位數(shù)下列分位數(shù)經(jīng)常用到:四分位極差四分位標(biāo)準(zhǔn)差總體標(biāo)準(zhǔn)差的穩(wěn)健估計(jì)三均值描述數(shù)據(jù)集中位置的穩(wěn)健估計(jì)下截?cái)帱c(diǎn)小于下截?cái)帱c(diǎn)的數(shù)據(jù)為特小值上截?cái)帱c(diǎn)大于上截?cái)帱c(diǎn)的數(shù)據(jù)為特大值特小值、特大值合稱異常值.用PROCUNIVARIATE過程計(jì)算分位數(shù)、四分位極差;用PROCIML過程計(jì)算三均值、四分位標(biāo)準(zhǔn)差,下、上截?cái)帱c(diǎn).例1.8(續(xù)例1.2)用PROCUNIVARIATE過程,PROCIML過程計(jì)算得到:下、上截?cái)帱c(diǎn)分別為64.3和82.7,故數(shù)據(jù)84.3是異常值(特大值).將異常值84.3剔除,在進(jìn)行計(jì)算分析,得可見,更為接近,與與原數(shù)值相等,說明有穩(wěn)健性,而原數(shù)據(jù)的值為3.940,現(xiàn)為3.810說明對(duì)異常值無穩(wěn)健性.1.2數(shù)據(jù)的分布對(duì)數(shù)據(jù)的總體情況作全面描述要研究數(shù)據(jù)的分布。1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖1.直方圖數(shù)據(jù)取值范圍分成若干區(qū)間,區(qū)間長(zhǎng)度稱為組距,每個(gè)區(qū)間上畫一矩形,寬度是組距,高度是頻率/組距,每一矩形的面積是數(shù)據(jù)落入?yún)^(qū)間的頻率.SAS系統(tǒng)根據(jù)樣本容量和樣本取值范圍自動(dòng)確定合適的分組方式.PROCCAPABILITY過程可以做出直方圖.直方圖可以對(duì)總體概率密度的估計(jì),這就是擬合分布曲線.SAS系統(tǒng)用PROCCAPABILITY過程做直方圖與擬合參數(shù)分布密度曲線.

SAS系統(tǒng)中分布類型:1)正態(tài)分布;2)對(duì)數(shù)正態(tài)分布;3)指數(shù)分布;4)分布(Gamma分布);5)Weibull分布;6)Bata分布.2.經(jīng)驗(yàn)分布函數(shù)設(shè)來自總體分布的樣本是,其次序統(tǒng)計(jì)量是.經(jīng)驗(yàn)分布函數(shù)是是非降階梯函數(shù),處躍度是(若重復(fù)取值次,則躍度為).是充分大時(shí),.3.QQ圖設(shè)總體分布為正態(tài)分布,標(biāo)準(zhǔn)正態(tài)分布函數(shù),其反函數(shù).QQ圖是由以下的點(diǎn)構(gòu)成的散點(diǎn)圖:若樣本數(shù)據(jù)近似于正態(tài)分布,在QQ圖上這些點(diǎn)近似地在直線附近.

例1.10(續(xù)例1.2)利用例1.2的數(shù)據(jù)(1)作直方圖,并擬合正態(tài)分布曲線;(2)做經(jīng)驗(yàn)分布函數(shù)圖,并擬合正態(tài)分布函數(shù)曲線;(3)作正態(tài)QQ圖,并在直觀上鑒別樣本數(shù)據(jù)來自正態(tài)總體.

解利用PROCCAPABILITY過程可解決上述問題.直方圖經(jīng)驗(yàn)分布函數(shù)圖QQ圖1.2.2莖葉圖、箱線圖及五數(shù)總括莖葉圖

例1.11

某班有31個(gè)學(xué)生,某門課程考試成績(jī)?nèi)缦拢?/p>

254550545561646872757578798183848484858686

86878989

8990919192100作出莖葉圖.

解第一個(gè)數(shù)25十位數(shù)為2,個(gè)位數(shù)為5.以個(gè)位數(shù)為單位,將25用“|”分開:25→2|5.這樣,得莖葉圖.

頻數(shù)

2|513|

4|515|04536|14837|2558958|1344456667999139|01124

10|0

1特點(diǎn):1)直觀看出數(shù)據(jù)分布情況,絕大部分?jǐn)?shù)據(jù)在70~95之間,在80~89之間形成一個(gè)高峰,數(shù)據(jù)沒有30余分,數(shù)據(jù)有間隙.2)自然顯出數(shù)據(jù)排序.可看出原數(shù)據(jù)次序統(tǒng)計(jì)量.

例1.12鉛壓鑄件硬度數(shù)據(jù)如下:53.070.284.355.378.563.571.453.482.567.369.573.055.785.895.451.174.454.177.852.469.153.564.382.755.770.587.550.772.359.5作出莖葉圖.

解利用PROCUNIVARIATE過程,可作莖葉圖.為簡(jiǎn)化,將小數(shù)點(diǎn)后數(shù)據(jù)四舍五入,以十位數(shù)為莖,個(gè)位數(shù)為葉,并把每莖分裂成兩行:一行的葉取0,1,2,3,4,另一行取5,6,7,8,9.計(jì)算結(jié)果數(shù)據(jù)從大到小排列.

頻數(shù)

9|519|8|6828|23437|8827|000123476|7926|04435|56635|112334472.箱線圖畫一個(gè)矩形,兩個(gè)端邊分別是,中間兩道線,處于位置.兩端向外各畫一道直線,分別到上截?cái)帱c(diǎn),下截?cái)帱c(diǎn).異常值用“×”號(hào)表示.

例1.15作例1.11的箱線圖.

下、上截?cái)帱c(diǎn):36.5,120.5.異常值25.3.五數(shù)總括

1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)檢驗(yàn)的值方法設(shè)檢驗(yàn)問題的顯著水平為.檢驗(yàn)統(tǒng)計(jì)量為.當(dāng)假設(shè)成立時(shí),有樣本算得的檢驗(yàn)統(tǒng)計(jì)量的值為.設(shè)(雙側(cè)檢驗(yàn)),則當(dāng),拒絕;當(dāng),接受.

檢驗(yàn)法

——樣本容量——分組數(shù)

——落入第i組頻數(shù),——落入第組理論頻數(shù)

——待估參數(shù)數(shù)充分大

假設(shè)檢驗(yàn)問題不是其中為指定的總體分布值方法:則對(duì)給定的顯著水平,當(dāng),拒絕,當(dāng),接受2.Kolmogorov-Smirnov檢驗(yàn)法假設(shè)檢驗(yàn)問題仍如上,—經(jīng)驗(yàn)分布函數(shù)設(shè)由樣本算得的值為,又則對(duì)給定顯著水平,當(dāng),拒絕,當(dāng),接受.用PROCCAPABILITY過程可進(jìn)行檢驗(yàn)與Kolmogorov-Smirnov檢驗(yàn).3.正態(tài)性W檢驗(yàn)方法設(shè)樣本觀測(cè)值為,其次續(xù)統(tǒng)計(jì)量為當(dāng)n偶,當(dāng)n奇,(系數(shù)):總體為正態(tài)分布總體非正態(tài)分布總有,成立時(shí),W值接近于1.當(dāng);拒絕;當(dāng),接受.用PROCUNIVARIATE過程可得W值與p值,從而完成正態(tài)性W檢驗(yàn).例1.19(續(xù)例1.2)對(duì)例1.2數(shù)據(jù),作(1)正態(tài)性W檢驗(yàn);(2)關(guān)于正態(tài)分布假設(shè)的檢驗(yàn);(3)關(guān)于正態(tài)分布假設(shè)的Kolmogorov-Smirnov檢驗(yàn)解(1)由PROCUNIVARIATE過程,算得

W=0.9827p=p{W≤0.9827}=0.6709取,因p=0.5382>,接受正態(tài)性假設(shè).(2)由PROCUNIVARIATE過程,算得=4.0784p=P{≥0.4784}=0.5382取,因p=0.5328>,接受正態(tài)性假設(shè).(3)由PROCUNIVARIATE過程,算得

D=0.0655,p=

{D≥0.0655}=0.15取,因p=0.15>,接受正態(tài)性假設(shè)1.3多元數(shù)據(jù)的數(shù)字特征與相關(guān)分析1.3.1二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)——二元總體,觀測(cè)數(shù)據(jù)觀測(cè)矩陣

——均值向量的協(xié)方差的協(xié)方差的協(xié)方差

——協(xié)方差矩陣相關(guān)系數(shù)

①,正相關(guān)②,負(fù)相關(guān)③,完全線性相關(guān)④,不相關(guān)二元總體分布函數(shù)協(xié)方差總體相關(guān)系數(shù)當(dāng)大,假設(shè)檢驗(yàn)成立時(shí),~值,設(shè)顯著水平當(dāng),拒絕;接受上述定義的相關(guān)系數(shù)成為Pearson相關(guān)系數(shù)設(shè),則其次序統(tǒng)計(jì)量,若,則稱是在樣本中的秩,記為.秩統(tǒng)計(jì)量.例-0.8-3.11.1-5.24.2次序統(tǒng)計(jì)量-5.2-3.1-秩統(tǒng)計(jì)量32415

-0.8-3.10.8秩統(tǒng)計(jì)量213或312對(duì)相同觀測(cè)值取值為秩平均值:2.512.5樣本,秩統(tǒng)計(jì)量秩統(tǒng)計(jì)量

Spearman相關(guān)系數(shù)定義為兩組秩統(tǒng)計(jì)量的相關(guān)系數(shù),記為,可證

例1.21某種礦石成分A,B,A的含量百分?jǐn)?shù)x(%),B的含量百分?jǐn)?shù)y(%):(1)計(jì)算Pearson相關(guān)系數(shù),作假設(shè)檢驗(yàn)(2)計(jì)算Spearman相關(guān)系數(shù),作上述檢驗(yàn)解由PROCCORR過程,得(1),值為,取拒絕,認(rèn)為有實(shí)際意義(2)取拒絕,認(rèn)為有實(shí)際意義x67547264392258434634y241523191611201617131.3.2多元數(shù)據(jù)數(shù)字特征及相關(guān)矩陣是

元總體,樣本數(shù)據(jù)第i個(gè)觀測(cè)數(shù)據(jù),稱樣品觀測(cè)矩陣第i行構(gòu)成的量有

1)第行的均值2)第行的方差的Spearman相關(guān)系數(shù),Spearman相關(guān)矩陣

Spearman相關(guān)矩陣具有穩(wěn)健性數(shù)據(jù)觀測(cè)矩陣數(shù)據(jù)的標(biāo)準(zhǔn)化處理樣品,變量觀測(cè)數(shù)據(jù)的協(xié)方差陣即的相關(guān)陣.(3)的協(xié)方差均值向量協(xié)方差矩陣

(4)的相關(guān)系數(shù)相關(guān)矩陣非負(fù)定矩陣

刻畫變量之間線性聯(lián)系的密切程度.1.3.3總體的數(shù)字特征及相關(guān)矩陣元總體.總體分布函數(shù)總體概率密度總體均值向量總體的協(xié)方差矩陣設(shè)的相關(guān)系數(shù)為總體的相關(guān)矩陣設(shè)1)特別

2)特別分別是的相合估計(jì),當(dāng)充分大時(shí),簡(jiǎn)單隨機(jī)樣本①與總體有相同分布;②是相互獨(dú)立的元隨機(jī)向量.

的無偏估計(jì)分別是:證

記對(duì)于隨機(jī)向量,總有故,可證(自證)故得從而是的相合估計(jì):元正態(tài)分布其中性質(zhì):元常向量

則2)劃分作相應(yīng)劃分則3)相互獨(dú)立的最大似然估計(jì)設(shè)是來自正態(tài)總體的簡(jiǎn)單隨機(jī)樣本,其聯(lián)合概率密度.稱似然函數(shù),它是的函數(shù),若滿足,則稱的最大似然估計(jì)

定理:各為的最大似然估計(jì)(證略).注:的最大似然估計(jì)為.大時(shí),因是

的無偏估計(jì),仍以作為的估計(jì).

例1.23對(duì)某少數(shù)民族的21位同袍測(cè)量血液中四種成份,的含量,結(jié)果如下:求的無偏估計(jì).解由PROCCORR

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論