版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上題目:數(shù)據(jù)的預(yù)處理問題摘要數(shù)據(jù)處理貫穿于社會生產(chǎn)和社會生活的各個領(lǐng)域。數(shù)據(jù)處理技術(shù)的發(fā)展及其應(yīng)用的廣度和深度,極大地影響著人類社會發(fā)展的進(jìn)程。數(shù)據(jù)補充,異常數(shù)據(jù)的鑒別及修正,在各個領(lǐng)域也起到了重要作用。對于第一問,我們采用了多元線性回歸的方法對缺失數(shù)據(jù)進(jìn)行補充,我們將1960-2015.xls(見附表一)中的數(shù)據(jù)導(dǎo)入matlab。首先作出散點圖,設(shè)定y(X59287)與x1(X54511)、x2(X57494)的關(guān)系為二元線性回歸模型,即y=b0+b1x1+b2x2。之后作多元回歸,求出系數(shù)b0=18.014,b1=0.051,b2=0.354,所以多元線性回歸多項式
2、為:Y=18.014+0.051*x1+0.354*x2。再作出殘差分析圖驗證擬合效果,殘差較小,說明回歸多項式與源數(shù)據(jù)吻合得較好。若x1=30.4,x2=28.6時,y的數(shù)據(jù)缺失,則將x1,x2帶入回歸多項式,算出缺失值y=29.6888。類似地,若x1=40.6,x2=30.4時,y的數(shù)據(jù)缺失,則將x1,x2帶入回歸多項式,算出缺失值y=30.8462,即可補充缺失數(shù)據(jù)。對于第二問,我們使用了異常值檢驗中標(biāo)準(zhǔn)差未知的t檢驗法。將除可疑測定值以外的其余測定值當(dāng)做一個總體,并假設(shè)該總體服從正態(tài)分布。由這些測定值計算平均值與標(biāo)準(zhǔn)差s,而將可疑值當(dāng)做一個樣本容量為1的特殊總體。如果與其余測定值同屬
3、于一個總體,則它與其余測定值之間不應(yīng)有顯著性差異。檢測統(tǒng)計量為:,假設(shè)可由標(biāo)準(zhǔn)差s替代來進(jìn)行檢驗,則檢測統(tǒng)計量可視為:。若統(tǒng)計量值大于相應(yīng)置信度下的t檢驗法的臨界值(該臨界值通過查表法得出),則將判為異常值。由此算法即可鑒別出相應(yīng)的異常數(shù)據(jù)。對于第三問,對于問題三,我們采用了分段線性插值,最近方法插值,三次樣條函數(shù)插值以及三次多項式方法插值法來修正數(shù)據(jù)異常。同時也需利用外插法修正最后一個數(shù)據(jù)的異常。通過各種插值方法的比較,發(fā)現(xiàn)三次樣條方法較為準(zhǔn)確,并較好的對異常數(shù)據(jù)進(jìn)行修正。關(guān)鍵詞:多元線性回歸,t檢驗法,分段線性插值,最近方法插值,三次樣條插值,三次多項式插值C38姓名學(xué)號專業(yè)隊長康偉振應(yīng)數(shù)
4、長望隊員一卜維新網(wǎng)絡(luò)工程隊員二李蘭馨應(yīng)用氣象一、 問題重述1.1背景在數(shù)學(xué)建模過程中總會遇到大數(shù)據(jù)問題。一般而言,在提供的數(shù)據(jù)中,不可避免會出現(xiàn)較多的檢測異常值,怎樣判斷和處理這些異常值,對于提高檢測結(jié)果的準(zhǔn)確性意義重大。1.2需要解決的問題(1)給出缺失數(shù)據(jù)的補充算法;(2)給出異常數(shù)據(jù)的鑒別算法;(3)給出異常數(shù)據(jù)的修正算法。二、 模型分析2.1問題(1)的分析屬性值數(shù)據(jù)缺失經(jīng)常發(fā)生甚至不可避免。(一) 較為簡單的數(shù)據(jù)缺失(1) 平均值填充如果空值為數(shù)值型的,就根據(jù)該屬性在其他所有對象取值的平均值來填充缺失的屬性值;如果空值為非數(shù)值型的,則根據(jù)眾數(shù)原理,用該屬性在其他所有對象的取值次數(shù)最多
5、的值(出現(xiàn)頻率最高的值)來補齊缺失的屬性值。 (2) 熱卡填充(就近補齊)對于包含空值的數(shù)據(jù)集,熱卡填充法在完整數(shù)據(jù)中找到一個與其最相似的數(shù)據(jù),用此相似對象的值進(jìn)行填充。 (3) 刪除元組將存在遺漏信息屬性值的元組刪除。(二)較為復(fù)雜的數(shù)據(jù)缺失 (1)多元線性回歸 當(dāng)有缺失的一組數(shù)據(jù)存在多個自變量時,可以考慮使用多元線性回歸模型。將所有變量包括因變量都先轉(zhuǎn)化為標(biāo)準(zhǔn)分,再進(jìn)行線性回歸,此時得到的回歸系數(shù)就能反映對應(yīng)自變量的重要程度。2.2問題(2)的分析屬性值異常數(shù)據(jù)鑒別很重要。我們可以采用異常值t檢驗的方法比較前后兩組數(shù)據(jù)的平均值,與臨界值相比較即可辨別數(shù)據(jù)異常并剔除異常數(shù)據(jù)。將除可疑測定值以
6、外的其余測定值當(dāng)做一個總體,并假設(shè)該總體服從正態(tài)分布。由這些測定值計算平均值與標(biāo)準(zhǔn)差s,而將可疑值當(dāng)做一個樣本容量為1的特殊總體。如果與其余測定值同屬于一個總體,則它與其余測定值之間不應(yīng)有顯著性差異。檢測統(tǒng)計量為:,假設(shè)可由標(biāo)準(zhǔn)差s替代來進(jìn)行檢驗,則檢測統(tǒng)計量可視為:。若統(tǒng)計量值大于相應(yīng)置信度下的t檢驗法的臨界值(該臨界值通過查表法得出),則將判為異常值。2.3問題(3)的分析 對于數(shù)據(jù)修正,我們采用各種插值算法進(jìn)行修正,這是一種行之有效的方法。(1)分段線性插值將每兩個相鄰的節(jié)點用直線連起來,如此形成的一條折線就是分段線性插值函數(shù),記作,它滿足,且在每個小區(qū)間上是線性函數(shù)。可以表示為有良好的
7、收斂性,即對于有,用 計算x 點的插值時,只用到x 左右的兩個節(jié)點,計算量與節(jié)點個數(shù)n 無關(guān)。但n 越大,分段越多,插值誤差越小。實際上用函數(shù)表作插值計算時,分段線性插值就足夠了,如數(shù)學(xué)、物理中用的特殊函數(shù)表,數(shù)理統(tǒng)計中用的概率分布表等。 (2) 三次多項式算法插值 當(dāng)用已知的n+1個數(shù)據(jù)點求出插值多項式后,又獲得了新的數(shù)據(jù)點,要用它連同原有的n+1個數(shù)據(jù)點一起求出插值多項式,從原已計算出的n次插值多項式計算出新的n+1次插值多項式很困難,而此算法可以克服這一缺點。(3)三次樣條函數(shù)插值4數(shù)學(xué)上將具有一定光滑性的分段多項式稱為樣條函數(shù)。三次樣條函數(shù)為:對于上的分劃:=b,則,利用樣條函數(shù)進(jìn)行插
8、值,即取插值函數(shù)為樣條函數(shù),稱為樣條插值。三、 模型假設(shè)1.假設(shè)只有因變量存在數(shù)據(jù)缺失,而自變量不存在缺失。2.利用t檢驗法時,將除可疑測定值以外的其余測定值當(dāng)做一個總體,并假設(shè)該總體服從正態(tài)分布。四、 問題(1)的分析與求解4.1問題分析本題需要對缺失數(shù)據(jù)進(jìn)行補充,情況可分為數(shù)據(jù)集中單一元素缺失及某一元組缺失兩種情況。因此,對數(shù)據(jù)處理采用同上模型分析2.1的處理方法。4.2問題處理我們將1960-2015.xls(見附表一)中的數(shù)據(jù)導(dǎo)入matlab(程序見附錄一)。首先作出散點圖。設(shè)定y(X59287)與x1(X54511)、x2(X57494)的關(guān)系為二元線性回歸模型,即y=b0+b1x1
9、+b2x2。之后作多元回歸,求出系數(shù)b0=18.014,b1=0.051,b2=0.354,所以多元線性回歸多項式為:Y=18.014+0.051*x1+0.354*x2。由matlab編程所得結(jié)果圖如下4-2所示。 圖4-2再作出殘差分析圖驗證擬合效果,殘差較小,說明回歸多項式與源數(shù)據(jù)吻合得較好。若x1=30.4,x2=28.6時,y的數(shù)據(jù)缺失,則將x1,x2帶入回歸多項式,算出缺失值y=29.6888。類似地,若x1=40.6,x2=30.4時,y的數(shù)據(jù)缺失,則將x1,x2帶入回歸多項式,算出缺失值y=30.8462,即可補充缺失數(shù)據(jù)。五、 問題(2)的分析與求解5.1 問題分析本題需要對
10、給定缺失數(shù)據(jù)進(jìn)行鑒別,可以采用的方法為t檢驗檢測法。T檢驗用t分布理論來推論差異發(fā)生的概率,從而比較兩個平均數(shù)的差異是否顯著。5.2 問題處理(一)隨機(jī)產(chǎn)生數(shù)據(jù)由R系統(tǒng)隨機(jī)產(chǎn)生數(shù)據(jù)對其進(jìn)行缺失數(shù)據(jù)鑒別,代碼如附錄四所示,結(jié)果圖如下5-1,5-2,5-3所示。 圖5-1 圖5-2 圖5-3(二)給定相應(yīng)數(shù)據(jù)對于問題二,在數(shù)據(jù)完整但出現(xiàn)異常的情況下,可以考慮使用異常值檢驗中標(biāo)準(zhǔn)差未知的t檢驗法。將除可疑測定值以外的其余測定值當(dāng)做一個總體,并假設(shè)該總體服從正態(tài)分布。由這些測定值計算平均值與標(biāo)準(zhǔn)差s,而將可疑值當(dāng)做一個樣本容量為1的特殊總體。如果與其余測定值同屬于一個總體,則它與其余測定值之間不應(yīng)有顯
11、著性差異。檢測統(tǒng)計量為:,假設(shè)可由標(biāo)準(zhǔn)差s替代來進(jìn)行檢驗,則檢測統(tǒng)計量可視為:。若統(tǒng)計量值大于相應(yīng)置信度下的t檢驗法的臨界值(該臨界值通過查表法得出),則將判為異常值。具體數(shù)據(jù)見附表二,具體程序詳見附錄二,結(jié)果圖如下5-4所示。 圖5-4六、 問題(3)的分析與求解6.1 問題分析對于問題三,我們采用了分段線性插值,最近方法插值,三次樣條函數(shù)插值以及三次多項式方法插值法來修正數(shù)據(jù)異常。同時也需利用外插法修正最后一個數(shù)據(jù)的異常。詳見2.3對問題三的處理原理。具體代碼見附錄三。附錄一 多元線性回歸matlab程序clear;data1=xlsread('C:UsersLenovoDeskt
12、op1960-2005.xls');%做出散點圖figure(1)scatter3(data1(:,4),data1(:,5),data1(:,6),'r');x=ones(262,1),data1(:,4),data1(:,5);y=data1(:,6);b,bint,r,rint,stats=regress(y,x);xlabel('X54511(x1)');ylabel('X57494(x2)');zlabel('X59287(y)');text(0.1,0.06,0.2,'回歸方程式為:y=18.014+0
13、.051x1+0.352x2','color','b');title('x1,x2,y的關(guān)系:','color','m');%做殘差分析圖figure(2)reoplot(r,rint);xlabel('數(shù)據(jù)');ylabel('殘差');title('殘差繪制圖');%補缺失數(shù)據(jù)x1=32.6,31.3;y1=x1*b;x2=33.2,26.5;y2=x2*b;附錄二 t檢驗spss代碼GET DATA /TYPE=XLS /FILE='C:User
14、sbwxDesktop2.xls' /SHEET=name 'Sheet1' /CELLRANGE=full /READNAMES=on /ASSUMEDSTRWIDTH=32767. EXECUTE. DATASET NAME 數(shù)據(jù)集2 WINDOW=FRONT. T-TEST /TESTVAL=0 /MISSING=ANALYSIS /VARIABLES=y /CRITERIA=CI(.95).附錄三 插值修正數(shù)據(jù)matlab代碼clear>> T=0:5:65T = 0 5 10 15 20 25 30 35 40 45 50 55 60 65>
15、> X=2:5:57X = 2 7 12 17 22 27 32 37 42 47 52 57>> F=3.2015,2.2560,879.5,1835.9,2968.8,4136.2,5237.9,6152.7,6725.3,6848.3,6403.5,6824.7,7328.5,7857.6;>> F1=interp1(T,F,X)F1 = 1.0e+003 * Columns 1 through 10 0.0028 0.3532 1.2621 2.2891 3.4358 4.5769 5.6038 6.3817 6.7745 6.6704 Columns 1
16、1 through 12 6.5720 7.0262>> F1=interp1(T,F,X,'nearest')F1 = 1.0e+003 * Columns 1 through 10 0.0032 0.0023 0.8795 1.8359 2.9688 4.1362 5.2379 6.1527 6.7253 6.8483 Columns 11 through 12 6.4035 6.8247>> F1=interp1(T,F,X,'nearest')%最近方法插值F1 = 1.0e+003 * Columns 1 through 10
17、0.0032 0.0023 0.8795 1.8359 2.9688 4.1362 5.2379 6.1527 6.7253 6.8483 Columns 11 through 12 6.4035 6.8247>> F1=interp1(T,F,X,'spline')%三次樣條方法插值F1 = 1.0e+003 * -0.1702 0.3070 1.2560 2.2698 3.4396 4.5896 5.6370 6.4229 6.8593 6.6535 6.4817 7.0441>> F1=interp1(T,F,X,'cubic')%
18、三次多項式方法插值F1 = 1.0e+003 * 0.0025 0.2232 1.2484 2.2736 3.4365 4.5913 5.6362 6.4362 6.7978 6.6917 6.5077 7.0186附錄四 隨機(jī)數(shù)據(jù)缺失鑒別R語言代碼 set.seed(2016)> x<-rnorm(100)> summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max. -3.3150 -0.4837 0.1867 0.1098 0.7120 2.6860 > summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max. -3.3150 -0.4837 0.1867 0.1098 0.7120 2.6860 > # outliers> boxplot.stats(x)#out$stats1 -1. -0. 0. 0. 1.$n1 1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 金融機(jī)構(gòu)消防系統(tǒng)更新協(xié)議
- 建筑排水人工費施工合同
- 港口碼頭制作施工合同
- 醫(yī)療糾紛實習(xí)律師招聘協(xié)議
- 無人駕駛汽車涂料涂裝合同
- 金融行業(yè)銷售總監(jiān)聘任協(xié)議
- 舞蹈房照明使用規(guī)范
- 公共資源交易結(jié)果申訴書
- 林業(yè)企業(yè)關(guān)聯(lián)交易可持續(xù)發(fā)展
- 醫(yī)藥研發(fā)項目招投標(biāo)合同模板
- 應(yīng)急預(yù)案編制的原則與步驟
- 《春夏秋冬》教學(xué)設(shè)計與指導(dǎo)課件(第一課時)
- 語文:專題6 圖文轉(zhuǎn)換 練習(xí)
- 《小學(xué)教育概統(tǒng)》課件
- 市場工作研討會接待方案
- 工商企業(yè)等社會資本流轉(zhuǎn)農(nóng)村土地經(jīng)營權(quán)申請表、農(nóng)村土地經(jīng)營權(quán)流轉(zhuǎn)意向協(xié)議書示范文本模板
- 2024版職業(yè)發(fā)展規(guī)劃醫(yī)療人員的成長路徑和晉升機(jī)會培訓(xùn)課件
- 加熱爐檢修規(guī)程范本
- GH/T 1420-2023野生食用菌保育促繁技術(shù)規(guī)程松茸
- 職高學(xué)校班級家長會課件
- 第2課+新航路開辟后的食物物種交流+導(dǎo)學(xué)案 高二歷史統(tǒng)編版(2019)選擇性必修2經(jīng)濟(jì)與社會生活
評論
0/150
提交評論