離群值概述主要內(nèi)容_第1頁
離群值概述主要內(nèi)容_第2頁
離群值概述主要內(nèi)容_第3頁
離群值概述主要內(nèi)容_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

離群值概述主要內(nèi)容一、離群值有關(guān)概念我們在處理分析數(shù)據(jù)的時(shí)候,經(jīng)常會(huì)碰到某些數(shù)據(jù)遠(yuǎn)遠(yuǎn)大于或小于其他數(shù)據(jù),這些明顯偏離的數(shù)據(jù)就是離群值,也叫奇異值、極端值。離群值指數(shù)據(jù)樣本中的一個(gè)或幾個(gè)觀測值,它們離開其他觀測值較遠(yuǎn),暗示它們可能來自不同的總體。離群值按顯著性的程度分為歧離值和統(tǒng)計(jì)離群值。歧離值在檢出水平下顯著,但在剔除水平下不顯著的離群值。統(tǒng)計(jì)離群值在剔除水平下統(tǒng)計(jì)檢驗(yàn)為顯著的離群值。檢出水平(α)為檢出離群值而指定的統(tǒng)計(jì)檢驗(yàn)的顯著性水平,和大多數(shù)檢驗(yàn)一樣,α一般為0.05。剔除水平(α*)為檢出離群值是否高度離群而指定的統(tǒng)計(jì)檢驗(yàn)的顯著性水平。剔除水平α*的值應(yīng)不超過檢出水平α的值。除非根據(jù)GB/T4883-2008達(dá)成協(xié)議的各方另有約定,α*值應(yīng)為0.01。二、離群值產(chǎn)生的原因大致有兩點(diǎn):1.總體固有變異的極端表現(xiàn),這是真實(shí)而正常的數(shù)據(jù),這第一類離群值是總體固有的變異性的極端表現(xiàn),離群值與樣本中其余觀測值屬于同一總體。離群值與樣本中其余觀測值屬于同一總體。2.由于試驗(yàn)條件和實(shí)驗(yàn)方法的偶然性,或觀測、記錄、計(jì)算時(shí)的失誤所產(chǎn)生的結(jié)果,是一種非正常的、錯(cuò)誤的數(shù)據(jù),這些數(shù)據(jù)與其余觀測值不屬于同一總體。這第二類離群值是由于實(shí)驗(yàn)條件和試驗(yàn)方法的偶然偏離所產(chǎn)生的結(jié)果,或產(chǎn)生于觀測、記錄、計(jì)算中的失誤,所產(chǎn)生的結(jié)果,這類離群值與樣本中其余觀測值不屬于同一總體。對(duì)于離群值的判定通常可根據(jù)技術(shù)上或物理上的理由直接進(jìn)行,對(duì)于離群值的判定通??筛鶕?jù)技術(shù)上或物理上的理由直接進(jìn)行,例如當(dāng)試驗(yàn)者已經(jīng)知道試驗(yàn)偏離了規(guī)定的試驗(yàn)方法,或測試儀器發(fā)生問題等。當(dāng)上述理由不明確時(shí),可用GB/T4883-2008規(guī)定的方法。由于數(shù)據(jù)的分布不同,判斷離群值的方法也有所差別,在此只介紹國標(biāo)GB/T4883-2008對(duì)于正態(tài)分布情況下的離群值判斷方法。三、離群值的三種情形GB/T4883-2008在下述不同情形下判斷樣本中的離群值:a)上側(cè)情形:根據(jù)實(shí)際情況或以往經(jīng)驗(yàn),離群值都為高端值;b)下側(cè)情形:根據(jù)實(shí)際情況或以往經(jīng)驗(yàn),離群值都為低端值;上側(cè)情形和下側(cè)情形簡稱單側(cè)。c)雙側(cè)情形:根據(jù)實(shí)際情況或以往經(jīng)驗(yàn),離群值可為高端值,也可為低端值。四、離群值的判斷1.檢出離群值個(gè)數(shù)的上限應(yīng)規(guī)定在樣本中檢出離群值個(gè)數(shù)的上限(與樣本量相比應(yīng)較小),當(dāng)檢出離群值個(gè)數(shù)超過了這個(gè)上限時(shí),對(duì)此樣本應(yīng)作慎重的研究和處理。2.單個(gè)離群值情形a.依實(shí)際情況或以往經(jīng)驗(yàn)選定,選定適宜的離群值檢驗(yàn)規(guī)則;b.確定適當(dāng)?shù)娘@著性水平;c.根據(jù)顯著性水平及樣本量,確定檢驗(yàn)的臨界值;d.由觀測值計(jì)算相應(yīng)統(tǒng)計(jì)計(jì)量的值,根據(jù)所得到值與臨界值的比較結(jié)果作出判斷。3.判定多個(gè)離群值的檢驗(yàn)規(guī)則在允許檢出離群值的個(gè)數(shù)大于1的情況下,重復(fù)使用單個(gè)離群值情形規(guī)定的檢驗(yàn)規(guī)則進(jìn)行檢驗(yàn)。若沒有檢出離群值,則整個(gè)檢驗(yàn)停止;若檢出離群值,當(dāng)檢出的離群值總數(shù)超過上限時(shí),檢驗(yàn)停止,對(duì)此樣本應(yīng)慎重處理,否則,采用相同的檢出水平和相同的規(guī)則,對(duì)除去已檢出的離群值后余下的觀測值繼續(xù)檢驗(yàn)。五、離群值處理方式、規(guī)則根據(jù)所采用的標(biāo)準(zhǔn)規(guī)定的方式及規(guī)則進(jìn)行。1.離群值處理方式a)保留離群值,并用于后續(xù)數(shù)據(jù)處理;b)在找到實(shí)際原因時(shí)修正離群值,否則予以保留;c)剔除離群值,不追加觀測值;d)剔除離群值,并追加新的觀測值或用適宜的插補(bǔ)值代替。2.處理規(guī)則對(duì)檢出的離群值,應(yīng)盡可能尋找其技術(shù)上和物理上的原因,作為處理離群值的依據(jù)。應(yīng)根據(jù)實(shí)際問題的性質(zhì),作為處理離群值的依據(jù)。權(quán)衡尋找和判定產(chǎn)生離群值的原因所需代價(jià)、正確判定離群值的得益及錯(cuò)誤剔除正常觀測值的風(fēng)險(xiǎn)以確定實(shí)施下述三個(gè)規(guī)則之一:a)若在技術(shù)上和物理上找到了產(chǎn)生離群值的原因,則應(yīng)剔除或修正。若未找到產(chǎn)生它的物理上和技術(shù)上的原因,則不得剔除或進(jìn)行修正。b)若在技術(shù)上或物理上找到產(chǎn)生離群值的原因,則應(yīng)剔除或修正;否則,保留歧離值,剔除或修正統(tǒng)計(jì)離群值;在重復(fù)使用同一檢驗(yàn)規(guī)則檢驗(yàn)多個(gè)離群值的情形,每次檢出離群值后,都要再檢驗(yàn)它是否為統(tǒng)計(jì)離群值。若每次檢出的離群值為統(tǒng)計(jì)離

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論