版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1異常值檢驗和處理2異常值檢驗廣義定義:在所獲統(tǒng)計數(shù)據(jù)中相對誤差較大的觀察數(shù)據(jù)稱之為異常值(outlier),或稱奇異值。狹義定義:一批數(shù)據(jù)中有部分數(shù)據(jù)與其余數(shù)據(jù)相比明顯不一致的稱為異常值,或稱離群值。一個樣本中出現(xiàn)概率很小的值叫做異常值(outlier)。
對可疑值的取舍實質(zhì)是區(qū)分可疑值與其它測定值之間的差異到底是由過失、還是隨機誤差引起的。如果已經(jīng)確證測定中發(fā)生過失,則無論此數(shù)據(jù)是否異常,一概都應(yīng)舍去;而在原因不明的情況下,就必須按照一定的統(tǒng)計方法進行檢驗,然后再作出判斷。根據(jù)隨機誤差分布規(guī)律,在為數(shù)不多的測定值中,出現(xiàn)大偏差的概率是極小的,因此通常就認為這樣的可疑值是由過失所引起的,而應(yīng)將其舍去,否則就予以保留。4異常值檢驗方法概述對于正態(tài)、指數(shù)、Weibull、對數(shù)正態(tài)分布等均已構(gòu)造了一些異常數(shù)據(jù)檢驗方法。其中,正態(tài)分布是統(tǒng)計學中最常見也是最重要的一種分布,許多分布都可經(jīng)適當變換化為正態(tài)分布,例如:泊松分布可通過平方根變換化為正態(tài)分布。正態(tài)分布數(shù)據(jù)的異常值檢驗方法:格魯布斯法、狄克遜檢驗法、羅馬諾夫斯基t檢驗法與偏度——峰度檢驗法。
5數(shù)據(jù)異常值剔除的可能性和必要性采樣誤差分析誤差操作誤差……已經(jīng)有公認的方法
由小至大排序,可疑值Xi可能為x1或xn;計算該組數(shù)據(jù)的平均值和標準差;計算統(tǒng)計量Gi。若xi可疑,格魯布斯法(Grubbs)式中:s—包括可疑樣本在內(nèi)的標準差;—包括可疑值在內(nèi)的全部樣本的平均值。(4)查臨界值表G(α,n),根據(jù)事先確定的置信度和測定次數(shù)查表。7N樣品數(shù)Α顯著性水平Nα0.010.050.010.0531.1551.153122.5502.28541.4921.463132.6072.33151.7491.672142.6592.37161.9441.822152.7052.40972.0971.938162.7472.44382.2212.032172.7852.47592.3232.110182.8212.504格魯布斯檢驗臨界值G(α,n)表(5)比較Gi和G(α,n)。若Gi>G(α,n),可疑值為異常值;若Gi≤G(α,n),則Gi不是異常值而保留
。故該方法的準確度較Q法高,因此得到普遍采用。8
檢驗步驟:
(1)從小到大排列數(shù)據(jù),可疑值為兩個端值
狄克遜(Dixon)檢驗法檢驗法-極差比法,Q法當3≤n≤7時:或
當8≤n≤10時:或
(2)根據(jù)n數(shù)目的不同,計算出相應(yīng)的r值。注意:N不同,計算公式不同分段計算公式……9(3)根據(jù)n和α查表;(4)將計算求得的r大和r小分別與查得的r(0.05,n)或r(0.01,n)進行比較。
如果r大(或r小)>r(0.05,n)或r(0.01,n),則最大(或最小)的可疑值為異常值,不可信。如果r大(或r小)<r(0.05,n)或r(0.01,n),則最大(或最小)的可疑值不是異常值,應(yīng)保留。適于3<n<30n34567891011r(0.05,n)0.9410.7650.6420.5600.5070.5540.5120.4770.576r(0.01,n)0.9880.8890.7800.6980.6370.6830.6350.5970.679狄克遜(Dixon)檢驗法Q值表10例7
測定某溶液濃度(mol·L-1),得結(jié)果:
0.1014,0.1012,0.1016,0.1025,
問:0.1025是否應(yīng)棄去?
(置信度為90%)0.1025應(yīng)該保留.x=0.1015~n=411t分布檢驗法(湯姆遜法)
在測量列xj(j=1,2,3,……,n)中選擇可疑值xj,將其剔除后計算平均值和標準差s(不包括可疑值xj)。根據(jù)測量次數(shù)n選取顯著水平0.05或0.01,查表得到t檢驗系數(shù)K(0.05,n)或K(0.01,n)。t檢驗法臨界值K(α,n)n45678910111213K(0.05,n)4.973.563.042.782.622.512.432.372.332.29K(0.01,n)11.466.535.044.363.963.713.543.413.313.23如果測量值xj為異常值
事先將可疑值xj排除在外,保證了計算出的標準差s的獨立性與正確性,在理論上是比較嚴格的。有可能將一些正常的測定值判定為異常值,為了避免發(fā)生這種“判無為有”與“判少為多”的錯誤,應(yīng)選較小的檢出水平。12[例4]測藥物中的Co(μg/g)結(jié)果為:1.25,1.27,1.31,1.40.問:1.40是否為可疑值? __
[解]去掉1.40求余下數(shù)據(jù)
X=1.28d=0.023_則:|x
可疑-x
好|=|1.40-1.28|=0.12>4×0.023說明:1.40為離群值檢驗步驟(1)去掉可疑值xj,求余下值的平均值
4d法和平均偏差>4dn-1,xj為異常值(2)求差值并與4d比較132-13[例5]某學生測N(%):20.48;20.55;20.60;20.53;20.50問:
(1)用Q檢驗20.60是否保留___
(2)報告分析結(jié)果n,S
,x
,d/x
(3)若xT=20.56計算Er%
(4)P=0.95時平均值的置信區(qū)間并說明含義
|20.60-20.55|[解](1)Q計=—————
=0.42(20.60-20.48)
Q表
=0.86>Q計
20.60保留14 ___
(2)x=20.53%(d/x)×10000/00=1.70/00
S=0.035% _
x–xT20.53-20.56
(3)Er%=——·100=————·100=-0.14
xT
20.56這說明在20.53±0.043區(qū)間中包括總體平均值μ的把握性為95%15平均值加減三倍標準差法163倍四分位間距法17五數(shù)概括法-非參數(shù)檢驗法“五數(shù)”指中位數(shù)M,上四分位數(shù)QU、下四分位數(shù)QL和上、下極值。識別數(shù)據(jù)中的異常值需要有對于異常值不敏感的展布度,而且它要強調(diào)數(shù)據(jù)中心部分的行為而不是強調(diào)極端值,所以選擇四分展布(記為H=QU-QL),而不能選極差與標準差。通常人們認為在區(qū)間(QL-1.5H,QU+1.5H)之外的數(shù)據(jù)可看作異常值。這種方法簡單易操作,對大樣本檢驗功效較高,但對小樣本則略顯粗糙。在實際問題中,我們只能對這些數(shù)據(jù)分隔出來加以特別注意,根據(jù)實際情況仔細檢查它們是否確為異常值。18在統(tǒng)計數(shù)據(jù)中,有時發(fā)現(xiàn)個別測定數(shù)據(jù)離群,統(tǒng)計檢驗判為異常值,但若它與其它測定值的差異仍在儀器的精度范圍之內(nèi),這種數(shù)據(jù)不應(yīng)舍棄,可以保留這些異常的測定值,并在數(shù)據(jù)處理結(jié)果中加以必要的說明,這可能更合理。19異常值的處理直接剔除顯著異常值,條件?用中位值來代替稍有異常的數(shù)據(jù)的平均值,接近臨界值,?因舍棄和保留可疑數(shù)據(jù)對中位值的影響最小。替代顯著異常值:無原因的顯著異常值用正常值最大值代替異常值、用正常值最小值代替異常值或用總體平均值代替異常值。20替代顯著異常值的兩個公式(不能替代極小值):
影響系數(shù)法GL=M*[(nk+1)/(k+1)]式中:k—人為賦值的影響系數(shù),通常取k=0.1或k=0.05;
M—包括可疑值在內(nèi)的均值;
GL—替代值。式中:I—F
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度鋼材水泥市場調(diào)研與風險評估合同2篇
- 二零二五年度變壓器節(jié)能補貼申請與使用合同范本3篇
- 二零二五版加工承攬合同全文詳盡規(guī)定承攬物、報酬及質(zhì)量標準3篇
- 二零二五版合伙人業(yè)務(wù)拓展合同范本3篇
- 二零二五年度貨物包裝合同范本3篇
- 2025年度森林防火物資儲備與供應(yīng)標準植樹承包合同示范文本3篇
- 2024版權(quán)轉(zhuǎn)讓合同轉(zhuǎn)讓價格及支付方式
- 2024版環(huán)保設(shè)備生產(chǎn)與安裝合同
- 二零二五年房產(chǎn)分割公證合同書3篇
- 2024版環(huán)保型彩鋼板房安裝協(xié)議版B版
- 河南省鄭州外國語高中-【高二】【上期中】【把握現(xiàn)在 蓄力高三】家長會【課件】
- 天津市武清區(qū)2024-2025學年八年級(上)期末物理試卷(含解析)
- 2025年中煤電力有限公司招聘筆試參考題庫含答案解析
- 企業(yè)內(nèi)部控制與財務(wù)風險防范
- 高端民用航空復材智能制造交付中心項目環(huán)評資料環(huán)境影響
- 建設(shè)項目施工現(xiàn)場春節(jié)放假期間的安全管理方案
- 胃潴留護理查房
- 植物細胞中氨基酸轉(zhuǎn)運蛋白的一些已知或未知的功能
- 山東省高等學校精品課程
- 三菱張力控制器LE-40MTA-E說明書
- 生活垃圾填埋場污染控制標準
評論
0/150
提交評論