![數(shù)學(xué)建模缺失數(shù)據(jù)補(bǔ)充及異常數(shù)據(jù)修正(共17頁)_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/11/6d564f19-34ee-4be3-953c-2e760a398542/6d564f19-34ee-4be3-953c-2e760a3985421.gif)
![數(shù)學(xué)建模缺失數(shù)據(jù)補(bǔ)充及異常數(shù)據(jù)修正(共17頁)_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/11/6d564f19-34ee-4be3-953c-2e760a398542/6d564f19-34ee-4be3-953c-2e760a3985422.gif)
![數(shù)學(xué)建模缺失數(shù)據(jù)補(bǔ)充及異常數(shù)據(jù)修正(共17頁)_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/11/6d564f19-34ee-4be3-953c-2e760a398542/6d564f19-34ee-4be3-953c-2e760a3985423.gif)
![數(shù)學(xué)建模缺失數(shù)據(jù)補(bǔ)充及異常數(shù)據(jù)修正(共17頁)_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/11/6d564f19-34ee-4be3-953c-2e760a398542/6d564f19-34ee-4be3-953c-2e760a3985424.gif)
![數(shù)學(xué)建模缺失數(shù)據(jù)補(bǔ)充及異常數(shù)據(jù)修正(共17頁)_第5頁](http://file3.renrendoc.com/fileroot_temp3/2022-2/11/6d564f19-34ee-4be3-953c-2e760a398542/6d564f19-34ee-4be3-953c-2e760a3985425.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上題目:數(shù)據(jù)的預(yù)處理問題摘要數(shù)據(jù)處理貫穿于社會(huì)生產(chǎn)和社會(huì)生活的各個(gè)領(lǐng)域。數(shù)據(jù)處理技術(shù)的發(fā)展及其應(yīng)用的廣度和深度,極大地影響著人類社會(huì)發(fā)展的進(jìn)程。數(shù)據(jù)補(bǔ)充,異常數(shù)據(jù)的鑒別及修正,在各個(gè)領(lǐng)域也起到了重要作用。對于第一問,我們采用了多元線性回歸的方法對缺失數(shù)據(jù)進(jìn)行補(bǔ)充,我們將1960-2015.xls(見附表一)中的數(shù)據(jù)導(dǎo)入matlab。首先作出散點(diǎn)圖,設(shè)定y(X59287)與x1(X54511)、x2(X57494)的關(guān)系為二元線性回歸模型,即y=b0+b1x1+b2x2。之后作多元回歸,求出系數(shù)b0=18.014,b1=0.051,b2=0.354,所以多元線性回歸多項(xiàng)式
2、為:Y=18.014+0.051*x1+0.354*x2。再作出殘差分析圖驗(yàn)證擬合效果,殘差較小,說明回歸多項(xiàng)式與源數(shù)據(jù)吻合得較好。若x1=30.4,x2=28.6時(shí),y的數(shù)據(jù)缺失,則將x1,x2帶入回歸多項(xiàng)式,算出缺失值y=29.6888。類似地,若x1=40.6,x2=30.4時(shí),y的數(shù)據(jù)缺失,則將x1,x2帶入回歸多項(xiàng)式,算出缺失值y=30.8462,即可補(bǔ)充缺失數(shù)據(jù)。對于第二問,我們使用了異常值檢驗(yàn)中標(biāo)準(zhǔn)差未知的t檢驗(yàn)法。將除可疑測定值以外的其余測定值當(dāng)做一個(gè)總體,并假設(shè)該總體服從正態(tài)分布。由這些測定值計(jì)算平均值與標(biāo)準(zhǔn)差s,而將可疑值當(dāng)做一個(gè)樣本容量為1的特殊總體。如果與其余測定值同屬
3、于一個(gè)總體,則它與其余測定值之間不應(yīng)有顯著性差異。檢測統(tǒng)計(jì)量為:,假設(shè)可由標(biāo)準(zhǔn)差s替代來進(jìn)行檢驗(yàn),則檢測統(tǒng)計(jì)量可視為:。若統(tǒng)計(jì)量值大于相應(yīng)置信度下的t檢驗(yàn)法的臨界值(該臨界值通過查表法得出),則將判為異常值。由此算法即可鑒別出相應(yīng)的異常數(shù)據(jù)。對于第三問,對于問題三,我們采用了分段線性插值,最近方法插值,三次樣條函數(shù)插值以及三次多項(xiàng)式方法插值法來修正數(shù)據(jù)異常。同時(shí)也需利用外插法修正最后一個(gè)數(shù)據(jù)的異常。通過各種插值方法的比較,發(fā)現(xiàn)三次樣條方法較為準(zhǔn)確,并較好的對異常數(shù)據(jù)進(jìn)行修正。關(guān)鍵詞:多元線性回歸,t檢驗(yàn)法,分段線性插值,最近方法插值,三次樣條插值,三次多項(xiàng)式插值C38姓名學(xué)號專業(yè)隊(duì)長康偉振應(yīng)數(shù)
4、長望隊(duì)員一卜維新網(wǎng)絡(luò)工程隊(duì)員二李蘭馨應(yīng)用氣象一、 問題重述1.1背景在數(shù)學(xué)建模過程中總會(huì)遇到大數(shù)據(jù)問題。一般而言,在提供的數(shù)據(jù)中,不可避免會(huì)出現(xiàn)較多的檢測異常值,怎樣判斷和處理這些異常值,對于提高檢測結(jié)果的準(zhǔn)確性意義重大。1.2需要解決的問題(1)給出缺失數(shù)據(jù)的補(bǔ)充算法;(2)給出異常數(shù)據(jù)的鑒別算法;(3)給出異常數(shù)據(jù)的修正算法。二、 模型分析2.1問題(1)的分析屬性值數(shù)據(jù)缺失經(jīng)常發(fā)生甚至不可避免。(一) 較為簡單的數(shù)據(jù)缺失(1) 平均值填充如果空值為數(shù)值型的,就根據(jù)該屬性在其他所有對象取值的平均值來填充缺失的屬性值;如果空值為非數(shù)值型的,則根據(jù)眾數(shù)原理,用該屬性在其他所有對象的取值次數(shù)最多
5、的值(出現(xiàn)頻率最高的值)來補(bǔ)齊缺失的屬性值。 (2) 熱卡填充(就近補(bǔ)齊)對于包含空值的數(shù)據(jù)集,熱卡填充法在完整數(shù)據(jù)中找到一個(gè)與其最相似的數(shù)據(jù),用此相似對象的值進(jìn)行填充。 (3) 刪除元組將存在遺漏信息屬性值的元組刪除。(二)較為復(fù)雜的數(shù)據(jù)缺失 (1)多元線性回歸 當(dāng)有缺失的一組數(shù)據(jù)存在多個(gè)自變量時(shí),可以考慮使用多元線性回歸模型。將所有變量包括因變量都先轉(zhuǎn)化為標(biāo)準(zhǔn)分,再進(jìn)行線性回歸,此時(shí)得到的回歸系數(shù)就能反映對應(yīng)自變量的重要程度。2.2問題(2)的分析屬性值異常數(shù)據(jù)鑒別很重要。我們可以采用異常值t檢驗(yàn)的方法比較前后兩組數(shù)據(jù)的平均值,與臨界值相比較即可辨別數(shù)據(jù)異常并剔除異常數(shù)據(jù)。將除可疑測定值以
6、外的其余測定值當(dāng)做一個(gè)總體,并假設(shè)該總體服從正態(tài)分布。由這些測定值計(jì)算平均值與標(biāo)準(zhǔn)差s,而將可疑值當(dāng)做一個(gè)樣本容量為1的特殊總體。如果與其余測定值同屬于一個(gè)總體,則它與其余測定值之間不應(yīng)有顯著性差異。檢測統(tǒng)計(jì)量為:,假設(shè)可由標(biāo)準(zhǔn)差s替代來進(jìn)行檢驗(yàn),則檢測統(tǒng)計(jì)量可視為:。若統(tǒng)計(jì)量值大于相應(yīng)置信度下的t檢驗(yàn)法的臨界值(該臨界值通過查表法得出),則將判為異常值。2.3問題(3)的分析 對于數(shù)據(jù)修正,我們采用各種插值算法進(jìn)行修正,這是一種行之有效的方法。(1)分段線性插值將每兩個(gè)相鄰的節(jié)點(diǎn)用直線連起來,如此形成的一條折線就是分段線性插值函數(shù),記作,它滿足,且在每個(gè)小區(qū)間上是線性函數(shù)。可以表示為有良好的
7、收斂性,即對于有,用 計(jì)算x 點(diǎn)的插值時(shí),只用到x 左右的兩個(gè)節(jié)點(diǎn),計(jì)算量與節(jié)點(diǎn)個(gè)數(shù)n 無關(guān)。但n 越大,分段越多,插值誤差越小。實(shí)際上用函數(shù)表作插值計(jì)算時(shí),分段線性插值就足夠了,如數(shù)學(xué)、物理中用的特殊函數(shù)表,數(shù)理統(tǒng)計(jì)中用的概率分布表等。 (2) 三次多項(xiàng)式算法插值 當(dāng)用已知的n+1個(gè)數(shù)據(jù)點(diǎn)求出插值多項(xiàng)式后,又獲得了新的數(shù)據(jù)點(diǎn),要用它連同原有的n+1個(gè)數(shù)據(jù)點(diǎn)一起求出插值多項(xiàng)式,從原已計(jì)算出的n次插值多項(xiàng)式計(jì)算出新的n+1次插值多項(xiàng)式很困難,而此算法可以克服這一缺點(diǎn)。(3)三次樣條函數(shù)插值4數(shù)學(xué)上將具有一定光滑性的分段多項(xiàng)式稱為樣條函數(shù)。三次樣條函數(shù)為:對于上的分劃:=b,則,利用樣條函數(shù)進(jìn)行插
8、值,即取插值函數(shù)為樣條函數(shù),稱為樣條插值。三、 模型假設(shè)1.假設(shè)只有因變量存在數(shù)據(jù)缺失,而自變量不存在缺失。2.利用t檢驗(yàn)法時(shí),將除可疑測定值以外的其余測定值當(dāng)做一個(gè)總體,并假設(shè)該總體服從正態(tài)分布。四、 問題(1)的分析與求解4.1問題分析本題需要對缺失數(shù)據(jù)進(jìn)行補(bǔ)充,情況可分為數(shù)據(jù)集中單一元素缺失及某一元組缺失兩種情況。因此,對數(shù)據(jù)處理采用同上模型分析2.1的處理方法。4.2問題處理我們將1960-2015.xls(見附表一)中的數(shù)據(jù)導(dǎo)入matlab(程序見附錄一)。首先作出散點(diǎn)圖。設(shè)定y(X59287)與x1(X54511)、x2(X57494)的關(guān)系為二元線性回歸模型,即y=b0+b1x1
9、+b2x2。之后作多元回歸,求出系數(shù)b0=18.014,b1=0.051,b2=0.354,所以多元線性回歸多項(xiàng)式為:Y=18.014+0.051*x1+0.354*x2。由matlab編程所得結(jié)果圖如下4-2所示。 圖4-2再作出殘差分析圖驗(yàn)證擬合效果,殘差較小,說明回歸多項(xiàng)式與源數(shù)據(jù)吻合得較好。若x1=30.4,x2=28.6時(shí),y的數(shù)據(jù)缺失,則將x1,x2帶入回歸多項(xiàng)式,算出缺失值y=29.6888。類似地,若x1=40.6,x2=30.4時(shí),y的數(shù)據(jù)缺失,則將x1,x2帶入回歸多項(xiàng)式,算出缺失值y=30.8462,即可補(bǔ)充缺失數(shù)據(jù)。五、 問題(2)的分析與求解5.1 問題分析本題需要對
10、給定缺失數(shù)據(jù)進(jìn)行鑒別,可以采用的方法為t檢驗(yàn)檢測法。T檢驗(yàn)用t分布理論來推論差異發(fā)生的概率,從而比較兩個(gè)平均數(shù)的差異是否顯著。5.2 問題處理(一)隨機(jī)產(chǎn)生數(shù)據(jù)由R系統(tǒng)隨機(jī)產(chǎn)生數(shù)據(jù)對其進(jìn)行缺失數(shù)據(jù)鑒別,代碼如附錄四所示,結(jié)果圖如下5-1,5-2,5-3所示。 圖5-1 圖5-2 圖5-3(二)給定相應(yīng)數(shù)據(jù)對于問題二,在數(shù)據(jù)完整但出現(xiàn)異常的情況下,可以考慮使用異常值檢驗(yàn)中標(biāo)準(zhǔn)差未知的t檢驗(yàn)法。將除可疑測定值以外的其余測定值當(dāng)做一個(gè)總體,并假設(shè)該總體服從正態(tài)分布。由這些測定值計(jì)算平均值與標(biāo)準(zhǔn)差s,而將可疑值當(dāng)做一個(gè)樣本容量為1的特殊總體。如果與其余測定值同屬于一個(gè)總體,則它與其余測定值之間不應(yīng)有顯
11、著性差異。檢測統(tǒng)計(jì)量為:,假設(shè)可由標(biāo)準(zhǔn)差s替代來進(jìn)行檢驗(yàn),則檢測統(tǒng)計(jì)量可視為:。若統(tǒng)計(jì)量值大于相應(yīng)置信度下的t檢驗(yàn)法的臨界值(該臨界值通過查表法得出),則將判為異常值。具體數(shù)據(jù)見附表二,具體程序詳見附錄二,結(jié)果圖如下5-4所示。 圖5-4六、 問題(3)的分析與求解6.1 問題分析對于問題三,我們采用了分段線性插值,最近方法插值,三次樣條函數(shù)插值以及三次多項(xiàng)式方法插值法來修正數(shù)據(jù)異常。同時(shí)也需利用外插法修正最后一個(gè)數(shù)據(jù)的異常。詳見2.3對問題三的處理原理。具體代碼見附錄三。附錄一 多元線性回歸matlab程序clear;data1=xlsread('C:UsersLenovoDeskt
12、op1960-2005.xls');%做出散點(diǎn)圖figure(1)scatter3(data1(:,4),data1(:,5),data1(:,6),'r');x=ones(262,1),data1(:,4),data1(:,5);y=data1(:,6);b,bint,r,rint,stats=regress(y,x);xlabel('X54511(x1)');ylabel('X57494(x2)');zlabel('X59287(y)');text(0.1,0.06,0.2,'回歸方程式為:y=18.014+0
13、.051x1+0.352x2','color','b');title('x1,x2,y的關(guān)系:','color','m');%做殘差分析圖figure(2)reoplot(r,rint);xlabel('數(shù)據(jù)');ylabel('殘差');title('殘差繪制圖');%補(bǔ)缺失數(shù)據(jù)x1=32.6,31.3;y1=x1*b;x2=33.2,26.5;y2=x2*b;附錄二 t檢驗(yàn)spss代碼GET DATA /TYPE=XLS /FILE='C:User
14、sbwxDesktop2.xls' /SHEET=name 'Sheet1' /CELLRANGE=full /READNAMES=on /ASSUMEDSTRWIDTH=32767. EXECUTE. DATASET NAME 數(shù)據(jù)集2 WINDOW=FRONT. T-TEST /TESTVAL=0 /MISSING=ANALYSIS /VARIABLES=y /CRITERIA=CI(.95).附錄三 插值修正數(shù)據(jù)matlab代碼clear>> T=0:5:65T = 0 5 10 15 20 25 30 35 40 45 50 55 60 65>
15、> X=2:5:57X = 2 7 12 17 22 27 32 37 42 47 52 57>> F=3.2015,2.2560,879.5,1835.9,2968.8,4136.2,5237.9,6152.7,6725.3,6848.3,6403.5,6824.7,7328.5,7857.6;>> F1=interp1(T,F,X)F1 = 1.0e+003 * Columns 1 through 10 0.0028 0.3532 1.2621 2.2891 3.4358 4.5769 5.6038 6.3817 6.7745 6.6704 Columns 1
16、1 through 12 6.5720 7.0262>> F1=interp1(T,F,X,'nearest')F1 = 1.0e+003 * Columns 1 through 10 0.0032 0.0023 0.8795 1.8359 2.9688 4.1362 5.2379 6.1527 6.7253 6.8483 Columns 11 through 12 6.4035 6.8247>> F1=interp1(T,F,X,'nearest')%最近方法插值F1 = 1.0e+003 * Columns 1 through 10
17、0.0032 0.0023 0.8795 1.8359 2.9688 4.1362 5.2379 6.1527 6.7253 6.8483 Columns 11 through 12 6.4035 6.8247>> F1=interp1(T,F,X,'spline')%三次樣條方法插值F1 = 1.0e+003 * -0.1702 0.3070 1.2560 2.2698 3.4396 4.5896 5.6370 6.4229 6.8593 6.6535 6.4817 7.0441>> F1=interp1(T,F,X,'cubic')%
18、三次多項(xiàng)式方法插值F1 = 1.0e+003 * 0.0025 0.2232 1.2484 2.2736 3.4365 4.5913 5.6362 6.4362 6.7978 6.6917 6.5077 7.0186附錄四 隨機(jī)數(shù)據(jù)缺失鑒別R語言代碼 set.seed(2016)> x<-rnorm(100)> summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max. -3.3150 -0.4837 0.1867 0.1098 0.7120 2.6860 > summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max. -3.3150 -0.4837 0.1867 0.1098 0.7120 2.6860 > # outliers> boxplot.stats(x)#out$stats1 -1. -0. 0. 0. 1.$n1 1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 班級自我管理提升計(jì)劃
- 急診安全文化建設(shè)實(shí)踐計(jì)劃
- 實(shí)驗(yàn)室安全規(guī)范與培訓(xùn)計(jì)劃
- 學(xué)校教學(xué)活動(dòng)安排計(jì)劃
- 秘書在團(tuán)隊(duì)溝通中的角色計(jì)劃
- 小班三維課程與教育理念實(shí)踐計(jì)劃
- 2025年美司那項(xiàng)目建議書
- 2025年中國異構(gòu)計(jì)算行業(yè)市場運(yùn)行態(tài)勢及發(fā)展趨勢預(yù)測報(bào)告-智研咨詢發(fā)布
- 2025年多通道腦電圖機(jī)項(xiàng)目建議書
- 淮安市2024-2025學(xué)年上學(xué)期高一期末考試地理試題(含答案)
- 2025高考數(shù)學(xué)一輪復(fù)習(xí)-第8章-第3節(jié) 圓的方程【課件】
- DB3301T 1088-2018 杭州龍井茶栽培技術(shù)規(guī)范
- 安徽省部分省示范中學(xué)2025屆高三第一次模擬考試英語試卷含解析
- 環(huán)保行業(yè)深度研究報(bào)告
- 工程機(jī)械租賃服務(wù)方案及保障措施 (二)
- 部編版初中語文7-9年級教材必背古詩詞、古文99篇詳細(xì)解析及欣賞
- 保障性住房補(bǔ)貼委托書范本
- DB36T 1393-2021 生產(chǎn)安全風(fēng)險(xiǎn)分級管控體系建設(shè)通則
- 公益捐助活動(dòng)影響力評估方法
- 國家電網(wǎng)安全培訓(xùn)
- Unit 1 I go to school by bus. Period 4(說課稿)-2023-2024學(xué)年教科版(廣州)英語二年級下冊
評論
0/150
提交評論