




已閱讀5頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
“民生杯”數(shù)學(xué)建模與計(jì)算技術(shù)應(yīng)用大賽承 諾 書我們仔細(xì)閱讀了“民生杯”數(shù)學(xué)建模與計(jì)算技術(shù)應(yīng)用大賽的競(jìng)賽規(guī)則。我們完全明白,在競(jìng)賽開始后參賽隊(duì)員不能以任何方式(包括電話、電子郵件、網(wǎng)上咨詢等)與本隊(duì)以外的任何人(包括指導(dǎo)教師)研究、討論與賽題有關(guān)的問(wèn)題。我們知道,抄襲別人的成果是違反競(jìng)賽規(guī)則的, 如果引用別人的成果或其他公開的資料(包括網(wǎng)上查到的資料),必須按照規(guī)定的參考文獻(xiàn)的表述方式在正文引用處和參考文獻(xiàn)中明確列出。我們鄭重承諾,嚴(yán)格遵守競(jìng)賽規(guī)則,以保證競(jìng)賽的公正、公平性。如有違反競(jìng)賽規(guī)則的行為,我們?cè)敢獬袚?dān)由此引起的一切后果。我們的參賽報(bào)名號(hào)為: 15參賽組別(本科、??苹蜓芯可?本科參賽隊(duì)員 (簽名) :隊(duì)員1:訾海隊(duì)員2:田凱強(qiáng)隊(duì)員3:周金輝獲獎(jiǎng)證書郵寄地址:北京市海淀區(qū)清華東路17號(hào)中國(guó)農(nóng)業(yè)大學(xué) “民生杯”數(shù)學(xué)建模與計(jì)算技術(shù)應(yīng)用大賽編 號(hào) 專 用 頁(yè)參賽隊(duì)伍的參賽號(hào)碼:(請(qǐng)各個(gè)參賽隊(duì)提前填寫好):競(jìng)賽統(tǒng)一編號(hào)(由競(jìng)賽組委會(huì)送至評(píng)委團(tuán)前編號(hào)):競(jìng)賽評(píng)閱編號(hào)(由競(jìng)賽評(píng)委團(tuán)評(píng)閱前進(jìn)行編號(hào)):“民生杯”數(shù)學(xué)建模與計(jì)算技術(shù)應(yīng)用大賽目錄摘要4一、問(wèn)題分析5二、模型假設(shè)和建立52.1 模型假設(shè)及變量說(shuō)明52.2 缺失數(shù)據(jù)的補(bǔ)充52.3 模型的建立92.3.1 第類模型:逐步回歸法92.3.1.1 單指標(biāo)逐步回歸模型:102.3.1.2 多指標(biāo)逐步回歸模型:132.3.2 第類模型:聚類回歸法172.3.2.1單指標(biāo)聚類回歸模型202.3.2.2多指標(biāo)聚類回歸模型202.3.3.1主成分分析法介紹212.3.3.1.2主成分分析數(shù)學(xué)模型212.3.3.1.3主成分分析的求解原理222.3.3.1.4 主成分分析運(yùn)用的判定條件222.3.3.1.5確定主成分個(gè)數(shù)的方法232.3.3.1.6確定權(quán)重計(jì)算綜合得分232.3.3.3.2主成分的確定242.3.3.3.3計(jì)算得分系數(shù)26三、模型的評(píng)價(jià)準(zhǔn)則29四、模型的優(yōu)缺點(diǎn)29五、參考文獻(xiàn)30六、附錄30洗衣粉去污功效研究摘要本文通過(guò)對(duì)86種產(chǎn)品的21個(gè)溶液屬性數(shù)據(jù)和18中污漬的去污能力數(shù)據(jù)進(jìn)行分析,建立了三大類反映溶液屬性和去污能力之間關(guān)系的模型:一、利用逐步回歸思想,選取單個(gè)及多個(gè)指標(biāo)來(lái)代表所有指標(biāo),建立了單指標(biāo)模型和多指標(biāo)模型;二、利用聚類分析思想對(duì)龐大數(shù)據(jù)分類,再對(duì)各類數(shù)據(jù)利用逐步回歸法,選擇單個(gè)或者多個(gè)指標(biāo),建立單指標(biāo)模型和多指標(biāo)模型;三、利用主成分分析思想分別提取了21個(gè)溶液屬性指標(biāo)的4個(gè)主成分和18個(gè)去污功效指標(biāo)的4個(gè)主成分,再運(yùn)用多元統(tǒng)計(jì)分析的思想建立兩類主成分之間的關(guān)系。其中,第二類模型是對(duì)第一類模型的改進(jìn)和優(yōu)化。對(duì)于前兩類模型,本文使用MATLAB軟件以及C+計(jì)算機(jī)編程進(jìn)行求解。本文還提出了模型評(píng)價(jià)機(jī)制,利用該評(píng)價(jià)準(zhǔn)則,從前兩類模型的四個(gè)模型中選出了最優(yōu)的模型:基于聚類分析思想的多指標(biāo)逐步回歸模型?;貧w的結(jié)果為: Y1=-2.34X2-0.93X3-0.21X9+1.11X17+29.73 Y2=-0.0063X1+2.98X2+0.7466X8+58.76 Y3=-0.11X9-0.5X16+25.809本文還利用剩余的10組數(shù)據(jù)對(duì)模型進(jìn)行了檢驗(yàn),發(fā)現(xiàn)模型效果良好。對(duì)于缺失的數(shù)據(jù),本文以補(bǔ)充后數(shù)據(jù)的標(biāo)準(zhǔn)差盡可能小的辦法進(jìn)行補(bǔ)充,有些選取的是均值,有些選取的是平方項(xiàng),有些選取的是交互項(xiàng)。關(guān)鍵字: 去污功效 洗衣粉 聚類分析 主成分分析 逐步回歸一、問(wèn)題分析通過(guò)對(duì)96組產(chǎn)品進(jìn)行分析,文中提供了21個(gè)衡量水溶液屬性的因子和評(píng)價(jià)洗衣粉的去污效果的18個(gè)指標(biāo)。題目要求我們通過(guò)這些數(shù)據(jù)設(shè)法得到最合理描述溶液屬性和去污效果之間關(guān)系的模型。于是,我們面臨著兩大難題: 如何從這么多的屬性因子中挑選出最重要最相關(guān)的因子? 怎樣選取最有價(jià)值的去污衡量指標(biāo)?通過(guò)聚類思想、主成分提取思想以及計(jì)算機(jī)編程,這兩個(gè)問(wèn)題被很好的解決。在此基礎(chǔ)上,我們的模型也建立了起來(lái)。二、模型假設(shè)和建立2.1 模型假設(shè)及變量說(shuō)明在建立模型之前,我們將做出一些假設(shè)以使問(wèn)題得到簡(jiǎn)化,并將我們文中使用的變量和符號(hào)進(jìn)行說(shuō)明。(1) 以前86組數(shù)據(jù)為研究樣本,后10組數(shù)據(jù)為檢驗(yàn)樣本不影響原始數(shù)據(jù)的分布規(guī)律;(2) 相近的數(shù)據(jù)可以并為一類;(3) 缺失的數(shù)據(jù)可以通過(guò)某種方式補(bǔ)齊(4) 題目所給數(shù)據(jù)完全正確,不考慮實(shí)驗(yàn)誤差和記錄錯(cuò)誤表格 1 變量說(shuō)明表序號(hào)變量名含義1PP1PP21溶液屬性因子2O1O18去污評(píng)價(jià)指標(biāo)3118去污指標(biāo)的權(quán)重4X1X18Matlab程序中對(duì)應(yīng)PP1PP18的自變量5O綜合的去污評(píng)價(jià)指標(biāo)2.2 缺失數(shù)據(jù)的補(bǔ)充 經(jīng)分析,PP02 和PP03 的缺失數(shù)據(jù)總是成對(duì)出現(xiàn)且缺失程度相同,不妨考慮用相同的方法進(jìn)行研究。根據(jù)逐步回歸的思想及matlab實(shí)現(xiàn),O07、O05、O17 是對(duì)PP02 影響顯的變量。建立PP02 關(guān)于O07、O05、O17 的多元線性回歸方程 = + + + (1)利用PP02、O07、O05、O17 均完整的80 組數(shù)據(jù)求解系數(shù),可得 = =11.1,-0.14,p2=-0.026,0.067對(duì)于PP02 缺失的6 組數(shù)據(jù),利用(1) 式,即可完成預(yù)測(cè)(具體數(shù)據(jù)見附表)。經(jīng)計(jì)算可知,對(duì)于預(yù)測(cè)前PP02 完整的80 組數(shù)據(jù),其均值和標(biāo)準(zhǔn)差分別為1 1 m = -0.3456,s =1.4845對(duì)于預(yù)測(cè)后PP02 完整的86 組數(shù)據(jù),其均值和標(biāo)準(zhǔn)差分別為2 2 m = -0.3983,s =1.4461所以,用上述方法對(duì)PP02 缺失的6 組數(shù)據(jù)的預(yù)測(cè)是比較合適的。同理,知17、O01、O18 是對(duì)PP03 影響顯著的變量。建立PP03 關(guān)于O17、O01、O18 的多元線性回歸方程 利用PP03、O17、O01、O18 均完整的80 組數(shù)據(jù)求解系數(shù),可得 對(duì)于預(yù)測(cè)前PP03 完整的80 組數(shù)據(jù),其均值和標(biāo)準(zhǔn)差分別為 = 4.621.99ms = =對(duì)于預(yù)測(cè)后PP03 完整的86 組數(shù)據(jù),其均值和標(biāo)準(zhǔn)差分別為 = 4.59,1.9 =近似相等,已經(jīng)很吻合了。以下對(duì)PP04 和PP05 進(jìn)行分析研究:用matlab畫出PP4PP5數(shù)據(jù):觀察圖01 可知,PP04 和PP05 之間確實(shí)是存在較好的線性關(guān)系。利用此性質(zhì),可在PP04 與PP05 之間建立一個(gè)線性回歸方程: 可得 =0.4,=0.59如何對(duì)PP05 的缺失數(shù)據(jù)做出合理預(yù)測(cè)呢?設(shè)PP05表示PP04 與PP06 的線性組合:PP04+PP06。做出其散點(diǎn)圖:PP05 和PP05也存在較好的線性關(guān)系。利用此性質(zhì),可在PP05 和PP05 之間建立一個(gè)線性回歸方程:Xpp5=d0+d1c0+d1Xpp61-d1c1可推導(dǎo)出 經(jīng)計(jì)算可知, 對(duì)于預(yù)測(cè)后PP04 完整的86 組數(shù)據(jù),其均值和標(biāo)準(zhǔn)差分別為 81.9,13.9對(duì)于預(yù)測(cè)前PP05完整的86組數(shù)據(jù),其均值和標(biāo)準(zhǔn)差分別為 139.5,23.0所以,比較合適。2.3 模型的建立2.3.1 第類模型:逐步回歸法在這里,我們認(rèn)為描述溶液屬性的18個(gè)因子中,僅有有限個(gè)因子對(duì)最終的去污效果有顯著的作用。因此我們需要從18個(gè)因子中挑選出重要變量和非重要變量,而在后續(xù)的最小二乘法回歸中,我們采用的自變量便是之前挑選出來(lái)的重要變量。雖然題中給出了21個(gè)自變量PP1PP21,但是不一定每一項(xiàng)都對(duì)洗衣粉去污功效Y有顯著影響,考慮到各項(xiàng)之間或許有很強(qiáng)的相關(guān)性,我們挑出那些對(duì)整體Y有顯著影響的來(lái)建立回歸模型。變量選擇的標(biāo)準(zhǔn),應(yīng)該是將所有對(duì)因變量影響顯著的自變量都選入模型,而影響不顯著的自變量都不選入模型,從便于應(yīng)用的角度使模型中自變量的個(gè)數(shù)盡可能小。逐步回歸就是一種從眾多自變量中有效的選擇重要變量的方法。其基本思路是,先確定一個(gè)包含若干自變量得出試劑盒,然后每次從集合外的變量中引入一個(gè)對(duì)因變量影響最大的,在對(duì)集合中的變量進(jìn)行檢驗(yàn),從變得不顯著的變量中移出一個(gè)影響最小的,以此進(jìn)行,直到不能引入和移出為止。引入和移出都以給定的顯著性水平為標(biāo)準(zhǔn)。下面是逐步回歸法的原理流程圖:開始添加一個(gè)新自變量到初始集合設(shè)定包含若干自變量的初始集合移出不顯著的自變量重新回歸,檢驗(yàn)自變量的顯著水平,存在不顯著的變量?YN得到重要自變量集合結(jié)束在去污效果的衡量指標(biāo)中,在實(shí)際生活中,有的人希望用一個(gè)值來(lái)衡量去污好壞,太多的指標(biāo)讓他們無(wú)所適從;有的人希望用幾個(gè)指標(biāo)來(lái)描述去污效果,這樣顯得客觀。因此我們建立了兩個(gè)子模型:?jiǎn)沃笜?biāo)模型和多指標(biāo)模型。2.3.1.1 單指標(biāo)逐步回歸模型:首先我們將O1到O18變量進(jìn)行處理,新建變量O,代表綜合的唯一的去污衡量指標(biāo)。而O的數(shù)據(jù),我們通過(guò)加權(quán)平均法得到。其中上式中的各權(quán)值通過(guò)下式得到:其中是第i個(gè)去污衡量指標(biāo)的第j次抽樣值。 用matlab工具箱中的逐步回歸命令stepwise求解,可以得到Stepwise Table和Stepwise Plot,如下: 根據(jù)人機(jī)交互式畫面,我們?cè)诋嬅嫔想S意的引入與移出變量,計(jì)算機(jī)協(xié)助我們找到最終結(jié)果:當(dāng)模型中僅含X1、X2、X8、X9(對(duì)應(yīng)原來(lái)數(shù)據(jù)的PP1、PP2、PP8、PP9)時(shí),其回歸系數(shù)置信區(qū)間遠(yuǎn)離零點(diǎn),說(shuō)明X1、X2、X8、X9對(duì)因變量的綜合性能有顯著影響。有圖為證: 圖五前四幅圖為正面論證,圖五為反面論證,任意選取一個(gè)(除X1、X2、X8、X9以外)因變量X11,其結(jié)果仍調(diào)整為關(guān)于X1、X2、X8、X9,足見X1、X2、X8、X9對(duì)因變量影響是顯著的。此時(shí), Intercept=68.87 R-square=0.632 F=21.04 RMSE =6.145 Adj R-sq =0.602 p=3.81e-010易求得 = 67.75利用逐步回歸,最終結(jié)果為:Y=0.00325X1-1.65X2-0.41X8+0.302X9+67.75 2.3.1.2 多指標(biāo)逐步回歸模型:觀察到去污效果的18組數(shù)據(jù)中有幾組數(shù)據(jù)很接近,我們有理由認(rèn)為這些去污指標(biāo)中存在相關(guān)關(guān)系,并非是相互獨(dú)立的。因此通過(guò)檢驗(yàn)互相關(guān)系數(shù)矩陣,我們選取相關(guān)性最小的幾個(gè)去污指標(biāo)作為模型的輸出變量。我們用matlab軟件求出18個(gè)輸出變量的相關(guān)系數(shù)(即每一 列向量的相關(guān)性),如下:1.0000 0.2073 0.3364 0.7961 0.7555 0.7930 0.1923 0.2478 0.7253 0.6517 0.6250 0.6649 0.3530 0.3057 0.2211 0.1931 0.1593 0.1415 0.2073 1.0000 0.8763 0.3538 0.3548 0.2636 0.8005 0.7498 0.2951 0.4003 0.3517 0.3105 0.4999 0.5025 0.2932 0.2506 0.4252 0.3724 0.3364 0.8763 1.0000 0.5509 0.5539 0.3471 0.9095 0.8793 0.5262 0.5633 0.5368 0.5255 0.7164 0.7218 0.3510 0.3160 0.6604 0.5614 0.7961 0.3538 0.5509 1.0000 0.8314 0.6723 0.4418 0.5492 0.8772 0.7343 0.6977 0.7690 0.6596 0.6163 0.3011 0.3851 0.4717 0.4482 0.7555 0.3548 0.5539 0.8314 1.0000 0.7250 0.4773 0.4873 0.8351 0.8096 0.8202 0.8212 0.6655 0.6457 0.2701 0.2410 0.4716 0.3827 0.7930 0.2636 0.3471 0.6723 0.7250 1.0000 0.2851 0.2080 0.6085 0.5449 0.5136 0.5297 0.2828 0.2441 0.2501 -0.1193 0.1099 -0.0425 0.1923 0.8005 0.9095 0.4418 0.4773 0.2851 1.0000 0.8616 0.4692 0.4864 0.4601 0.4645 0.7904 0.7942 0.4663 0.2955 0.7363 0.6223 0.2478 0.7498 0.8793 0.5492 0.4873 0.2080 0.8616 1.0000 0.5637 0.5270 0.4983 0.5167 0.7887 0.8078 0.4159 0.4736 0.7577 0.7224 0.7253 0.2951 0.5262 0.8772 0.8351 0.6085 0.4692 0.5637 1.0000 0.8089 0.7830 0.8305 0.7300 0.6931 0.2753 0.3789 0.5772 0.5297 0.6517 0.4003 0.5633 0.7343 0.8096 0.5449 0.4864 0.5270 0.8089 1.0000 0.9510 0.9547 0.6530 0.5982 0.1003 0.2924 0.3999 0.4637 0.6250 0.3517 0.5368 0.6977 0.8202 0.5136 0.4601 0.4983 0.7830 0.9510 1.0000 0.9562 0.6500 0.6075 0.0440 0.2712 0.3740 0.4423 0.6649 0.3105 0.5255 0.7690 0.8212 0.5297 0.4645 0.5167 0.8305 0.9547 0.9562 1.0000 0.6995 0.6446 0.1146 0.2975 0.4404 0.4814 0.3530 0.4999 0.7164 0.6596 0.6655 0.2828 0.7904 0.7887 0.7300 0.6530 0.6500 0.6995 1.0000 0.9769 0.4870 0.5297 0.8444 0.8059 0.3057 0.5025 0.7218 0.6163 0.6457 0.2441 0.7942 0.8078 0.6931 0.5982 0.6075 0.6446 0.9769 1.0000 0.4903 0.5105 0.8769 0.8139 0.2211 0.2932 0.3510 0.3011 0.2701 0.2501 0.4663 0.4159 0.2753 0.1003 0.0440 0.1146 0.4870 0.4903 1.0000 0.4034 0.5311 0.4375 0.1931 0.2506 0.3160 0.3851 0.2410 -0.1193 0.2955 0.4736 0.3789 0.2924 0.2712 0.2975 0.5297 0.5105 0.4034 1.0000 0.4107 0.6901 0.1593 0.4252 0.6604 0.4717 0.4716 0.1099 0.7363 0.7577 0.5772 0.3999 0.3740 0.4404 0.8444 0.8769 0.5311 0.4107 1.0000 0.7897 0.1415 0.3724 0.5614 0.4482 0.3827 -0.0425 0.6223 0.7224 0.5297 0.4637 0.4423 0.4814 0.8059 0.8139 0.4375 0.6901 0.7897 1.0000我們用計(jì)算機(jī)自動(dòng)查找出 小的非常特殊的兩個(gè)量:0.0440、0.0425(圖中紅色數(shù)據(jù)),其坐標(biāo)為(15,12)、(18,7),由此,我們可以充分選出能分別代表三組輸出變量的 列向量:r7代表第一組,r12代表第二組,r15代表第三組。(由下文第二類模型的結(jié)果知,我們?cè)?8組因變量中 選出最主要的三組)選Y1=r7,重新帶入上文的單指標(biāo)逐步回歸模型,用matlab求解:同樣根據(jù)人機(jī)交互式畫面,我們?cè)诋嬅嫔想S意的引入與移出變量,計(jì)算機(jī)協(xié)助我們找到最終結(jié)果:當(dāng)模型中僅含X2、X3、X9、X17時(shí),其回歸系數(shù)置信區(qū)間遠(yuǎn)離零點(diǎn),說(shuō)明X2、X3、X9、X17對(duì)因變量的綜合性能有顯著影響。此時(shí), Intercept=29.8165 R-square=0.682 F=26.2533 RMSE =4.04 Adj R-sq =0.6558 p=1.155e-011易求得 = 29.73利用逐步回歸,最終結(jié)果為: Y1=-2.34X2-0.93X3-0.21X9+1.11X17+29.73選Y2=r12,重新帶入,用matlab求解:我們?cè)诋嬅嫔想S意的引入與移出變量,計(jì)算機(jī)協(xié)助我們找到最終結(jié)果:當(dāng)模型中僅含X1、X2、X8時(shí),其回歸系數(shù)置信區(qū)間遠(yuǎn)離零點(diǎn),X1、X2、X8對(duì)因變量的綜合性能有顯著影響。此時(shí),Intercept=57.3137 R-square=0.429975 F=12.5718RMSE =14.7321 Adj R-sq =0.39577 p=3.03815e-006易求得 =58.76利用逐步回歸,最終結(jié)果為: Y2=-0.0063X1+2.98X2+0.7466X8+58.76選Y3=r15,重新帶入,用matlab求解:計(jì)算機(jī)找到最終結(jié)果: 當(dāng)模型中僅含X9、X16時(shí),其回歸系數(shù)置信區(qū)間遠(yuǎn)離零點(diǎn),X9、X16對(duì)因變量的綜合性能有顯著影響。此時(shí), Intercept=25.7258 R-square=0.24317 F=8.19316 RMSE =3.01556 Adj R-sq =0.21349 p=8.21219e-004易求得 =25.809利用逐步回歸,最終結(jié)果為: Y3=-0.11X9-0.5X16+25.809故多指標(biāo)逐步回歸模型的結(jié)果為:Y1=-2.34X2-0.93X3-0.21X9+1.11X17+29.73Y2=-0.0063X1+2.98X2+0.7466X8+58.76Y3=-0.11X9-0.5X16+25.8092.3.2 第類模型:聚類回歸法由于題目中的變量太多,如果直接由這么多的變量進(jìn)行建模的話,非常耗費(fèi)時(shí)間和精力,而且沒(méi)有這么做的必要。所以,為了精簡(jiǎn)模型,我們對(duì)這些變量進(jìn)行聚類操作,將作用相似的變量合并為一個(gè)變量,然后進(jìn)行進(jìn)一步的操作。聚類的算法大致如下,每一個(gè)變量可以看成是一個(gè)類,類與類之間的相似程度的測(cè)量使用類間距離,設(shè)Gp與Gq分別表示兩個(gè)類,它們分別含有np和nq個(gè)樣本。類Gp與Gq之間的距離記為Dpq,類平均距離。確定了樣本間及類間的距離之后,便可以對(duì)樣本進(jìn)行分類。應(yīng)用最廣泛的一種分類方法就是系統(tǒng)聚類法,其計(jì)算流程如下:將n個(gè)樣本分為n類,每類一個(gè)樣本,然后計(jì)算任意兩個(gè)樣本之間的距離,構(gòu)成一個(gè)對(duì)稱距離矩陣(1) 選擇中的非對(duì)角線上的最小元素,設(shè)這個(gè)最小元素是。此時(shí),與距離最近,將合并成一個(gè)新類。在中消去和所對(duì)應(yīng)的行與列,并加入由新類與剩下的其他未聚合的類間的距離所組成的新的矩陣,它是一個(gè)n-1階方陣;(2) 從出發(fā)重復(fù)(2)的做法得,再由出發(fā)重復(fù)上述步驟,直到n個(gè)樣品聚為1個(gè)大類為止。(3) 在合并過(guò)程中記下合并樣品的編號(hào)及兩類合并時(shí)的水平(即距離)并繪制系統(tǒng)聚類譜系圖,按不同的分類標(biāo)準(zhǔn)或不同的分類原則,得出不同的分類結(jié)果。為了對(duì)這些變量進(jìn)行分類,我們?cè)O(shè)計(jì)的程序進(jìn)行求解。程序采用Visual Basic 6進(jìn)行編寫,在Windows 7的環(huán)境下編譯通過(guò)。在程序中,為了處理Excel表格中的數(shù)據(jù),我們把Excel的格式轉(zhuǎn)換為CSV(逗號(hào)分隔文件)格式,然后導(dǎo)入到程序中進(jìn)行求解。程序的設(shè)計(jì)算法如下:1、 加載原數(shù)據(jù)文件,利用二維表存儲(chǔ)各項(xiàng)指標(biāo)以及數(shù)據(jù);2、 對(duì)每一列數(shù)據(jù)進(jìn)行計(jì)算,求得數(shù)據(jù)的平均值;3、 將n個(gè)樣本分為n類,構(gòu)造一個(gè)n*n的矩陣,矩陣中的元素dij代表指標(biāo)j和指標(biāo)i的距離;4、 這個(gè)矩陣為對(duì)稱矩陣,求得矩陣上三角形中的最小距離的值以及對(duì)應(yīng)的i和j的值;5、 將指標(biāo)i和指標(biāo)j合并到i,用指標(biāo)i和指標(biāo)j的中值取代指標(biāo)i的值;6、 輸出合并操作的對(duì)應(yīng)參數(shù);7、 此時(shí)剩下n-1階矩陣,重新構(gòu)造一個(gè)(n-1)*(n-1)階的矩陣,計(jì)算其中的兩兩指標(biāo)之間的距離;8、 重復(fù)上述操作,每執(zhí)行完一次操作之后便將矩陣的階數(shù)減一,直到最后矩陣的階數(shù)為2,結(jié)束算法。程序的流程圖如下所示:加載數(shù)據(jù)計(jì)算每項(xiàng)指標(biāo)重心構(gòu)造max*max階矩陣計(jì)算兩兩樣本間距離獲得最小距離合并最小距離指標(biāo)max=max-1max 2 ?分析結(jié)果是否程序在執(zhí)行完之后,產(chǎn)生了一個(gè)日志文件,根據(jù)這個(gè)日志文件,我們將輸入變量PP1至PP21劃分為6組,劃分情況如下:組別成員1PP12PP2、PP33PP44PP55PP6、PP7、PP8、PP10、PP11、PP12、PP13、PP14、PP15、PP16、PP17、PP18、PP19、PP20、PP216PP9根據(jù)我們選擇去污指標(biāo)的是否唯一,我們建立兩個(gè)子模型:?jiǎn)沃笜?biāo)聚類回歸模型和多指標(biāo)聚類回歸模型。2.3.2.1單指標(biāo)聚類回歸模型我們首先對(duì)題目的給出的18個(gè)去污指標(biāo)進(jìn)行加權(quán)處理,得到唯一的綜合指標(biāo):其中上式中的各權(quán)值通過(guò)下式得到:其中是第i個(gè)去污衡量指標(biāo)的第j次抽樣值。然后通過(guò)對(duì)21個(gè)溶液屬性因子進(jìn)行聚類,我們最終采用PP1、PP2、PP4、PP5 、PP6、PP9,這六組。進(jìn)行多元線性回歸得到回歸方程如下:2.3.2.2多指標(biāo)聚類回歸模型由于觀察到18個(gè)去污指標(biāo)中,有些指標(biāo)相似度比較高,因此我們?nèi)圆捎镁垲愃枷?。同樣的道理,我們又將輸出變量O1至O18劃分為3組,劃分情況如下:組別成員1O1、O2、O3、O4、O5、O6、O7、O82O9、O10、O11、O123O13、O14、O15、O16、O17、O18將最終去污指標(biāo)歸結(jié)為三個(gè):O1、O9、O13。然后我們利用聚類后的溶液屬性因子分別針對(duì)三個(gè)去污指標(biāo)做回歸分析,利用stata11軟件最終得到回歸方程如下:2.3.3 第III類模型:結(jié)合主成分分析法的多元統(tǒng)計(jì)模型2.3.3.1主成分分析法介紹2.3.3.1.1 主成分分析法思想在許多社會(huì)和經(jīng)濟(jì)問(wèn)題的研究中,為了獲取充分的信息對(duì)問(wèn)題進(jìn)行可靠的判斷,往往都會(huì)設(shè)置許多個(gè)統(tǒng)計(jì)指標(biāo),并盡可能詳細(xì)地搜集數(shù)據(jù)資料。但是,在做一項(xiàng)評(píng)價(jià)時(shí),這些指標(biāo)甚至?xí)嗟绞畮讉€(gè)或幾十個(gè),從而增加了問(wèn)題分析的復(fù)雜性。另外,這些指標(biāo)所反映的信息經(jīng)常是有重疊的。因此,人們希望選取的指標(biāo)個(gè)數(shù)較少而得到的信息較多。由于在多數(shù)情況下,指標(biāo)之間存在著一定的相關(guān)關(guān)系。當(dāng)指標(biāo)之間存在相關(guān)關(guān)系時(shí),就可以利用少數(shù)綜合型指標(biāo)來(lái)反映原有的多個(gè)指標(biāo)所反映的信息。但是,這些綜合型指標(biāo)需要滿足兩個(gè)條件:一是要求這幾個(gè)綜合指標(biāo)能夠充分反映原來(lái)的變量所反映的信息;二是要求這幾個(gè)綜合指標(biāo)之間互不相關(guān)。于是,主成分分析方法誕生了。主成分分析法就是把一些相關(guān)性較強(qiáng)的指標(biāo)進(jìn)行壓縮,得到幾個(gè)互不相關(guān)但卻能反映原有指標(biāo)絕大部分信息的主成分,并且按其貢獻(xiàn)率為權(quán)數(shù)構(gòu)造一個(gè)綜合評(píng)價(jià)函數(shù),從而對(duì)各個(gè)體進(jìn)行綜合評(píng)價(jià)。綜合指標(biāo)都叫做原來(lái)變量的主成分。主成分分析的主要目的在于簡(jiǎn)化數(shù)據(jù)(降維)和揭示變量間的關(guān)系。與傳統(tǒng)的綜合評(píng)價(jià)方法相比,其優(yōu)點(diǎn)在于:(1)它所確定的權(quán)數(shù)是基于數(shù)據(jù)分析而得到的指標(biāo)間的內(nèi)在結(jié)構(gòu)關(guān)系,具有良好的客觀性。(2)它能有效地剔除不相關(guān)指標(biāo)的影響,從而使單項(xiàng)指標(biāo)的選擇余地更大。(3)它得到的綜合指標(biāo)(即主成分)之間相互獨(dú)立,不僅使指標(biāo)維數(shù)大大降低,還減少了信息交叉和冗余,對(duì)于分析極為有利。(4)它的實(shí)現(xiàn)方法可以借助于統(tǒng)計(jì)軟件SPSS、SAS等,而不需要過(guò)多專業(yè)知識(shí),可操作性強(qiáng)。2.3.3.1.2主成分分析數(shù)學(xué)模型設(shè)Z1、Z2Zm為實(shí)際問(wèn)題所涉及的q個(gè)隨機(jī)變量,含有p個(gè)獨(dú)立的公共因子X(jué)1、X2XP (mp),每個(gè)變量Z1,含有特殊因子Ui (i=1m),特殊因子間互不相關(guān),且與公共因子不相關(guān),每個(gè)Z1,可以由p個(gè)公共因子和自身對(duì)應(yīng)的特殊因子Ui (i=1m)線性組合,如下:Z1=l11X1+l12X2+l1pXp+c1U1Z2=l21X1+l22X2+l2pXp+c2U2Zm=lm1X1+lm2X2+lmpXp+cmU1即:Z1Z2Zm=(lij)mpX1X2Xm+c1U1c2U2cmU1簡(jiǎn)記為:Z=LX+CU2.3.3.1.3主成分分析的求解原理將式Z=LX+CU乘以轉(zhuǎn)置矩陣方程Z=XL+UC,再取數(shù)學(xué)期望可得:EZZ=E(LXXL+LXUC+CUXL+CUUC)又由于EZZ=R,為Z的相關(guān)矩陣,得到:R=LL+l2,令R*=R-l2,稱R*為約相關(guān)矩陣,有R=LL:R*=1-l12 r12 r1m r21 1-l12 r2m rm1 rm2 1-lm2當(dāng)進(jìn)行主成分分析求解時(shí),用相關(guān)矩陣R取代約相關(guān)矩陣R*,即令有變量的公因子方差為l,此時(shí):R*=R=1 r12 r1m r21 1 r2m rm1 rm2 1因?yàn)槿我庖粋€(gè)實(shí)對(duì)稱矩陣可用它的標(biāo)準(zhǔn)正交特征向量組成的矩陣Q進(jìn)行變換。R是一個(gè)實(shí)對(duì)稱矩陣,因此可以分解為R=QQ,,其中Q是它的標(biāo)準(zhǔn)正交特征向量組成的矩陣,是對(duì)應(yīng)的特征根。進(jìn)一步推導(dǎo)可得:R=QQ=(Q)( Q),同時(shí)結(jié)合R=LL,可得因子載荷矩陣的解:A= Q。這樣求解因子載荷矩陣,可通過(guò)資料矩陣的相關(guān)陣R計(jì)算特征值和特征向量進(jìn)行。2.3.3.1.4 主成分分析運(yùn)用的判定條件不是所有的多變量數(shù)據(jù)都適合采用主成分分析的方法。只有變量之間彼此相關(guān)且絕對(duì)值較大并顯著時(shí),才可進(jìn)行主成分分析。若大部分變量之間的相關(guān)性很小,表明他們之間存在公共因子的可能性很小,不能使用主成分分析法。所以,在運(yùn)用該方法前,可用如下方法進(jìn)行判定:巴特利特球體檢驗(yàn)。該檢驗(yàn)的目的在于確定所要求的數(shù)據(jù)是否取自多元正態(tài)分布的總體。其虛無(wú)假設(shè)是“相關(guān)矩陣是一個(gè)單位矩陣”。若差異檢驗(yàn)的F值顯著,表示該相關(guān)矩陣不是單位矩陣,所取數(shù)據(jù)來(lái)自正態(tài)分布總體,可以做進(jìn)一步分析。2.3.3.1.5確定主成分個(gè)數(shù)的方法主成分分析簡(jiǎn)單可以概括為在盡可能保存原有資料信息的前提下,用較少的維度,或是較少的新變量去表示原來(lái)的數(shù)據(jù)結(jié)構(gòu),從而便于發(fā)現(xiàn)規(guī)律和本質(zhì)。進(jìn)行主成分分析保留主成分的方法如下:(1)一般取累計(jì)方差貢獻(xiàn)率達(dá)85%95%的主成分。(2)選用所有特征根大于等于1的主成分。(3)累積特征值乘積大于l的主成分。一旦確定主成分,就要利用主成分得分系數(shù)矩陣計(jì)算主成分的得分。2.3.3.1.6確定權(quán)重計(jì)算綜合得分在主成分分析中,權(quán)重是根據(jù)方差貢獻(xiàn)率來(lái)定的,即:wi=iipi換句話說(shuō),權(quán)重就是用每個(gè)主成分的方差百分比在最終選取的主成分方差累計(jì)貢獻(xiàn)率的累計(jì)數(shù)中所占的比重。如果研究的樣本包含n個(gè)樣本,則可根據(jù)以上確定的主成分和權(quán)重給各個(gè)樣本進(jìn)行綜合打分。若yj(i)為樣本i在第j個(gè)主成分上的得分,則該樣本的綜合得分值用下式計(jì)算為:F(t)=w1y1(i)+w2y2(i)+wmym(i)2.3.3.2數(shù)據(jù)標(biāo)準(zhǔn)化原始數(shù)據(jù)的量綱不同,所以不能直接進(jìn)行比較。為此,必須對(duì)選取的數(shù)值進(jìn)行標(biāo)準(zhǔn)化處理。比較常見的標(biāo)準(zhǔn)化方法有小數(shù)縮放、最小最大、標(biāo)準(zhǔn)差方法。這些方法會(huì)使本來(lái)分散的數(shù)據(jù)人為的集中在某個(gè)很小的范圍之內(nèi)。本文利用最小-最大規(guī)范化方法對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,設(shè)minL和maxL分別為屬性L的最小和最大值,則利用公式:L=L-minLmaxL-minL對(duì)原樣本進(jìn)行標(biāo)準(zhǔn)化處理,使得所有數(shù)據(jù)無(wú)量綱化,并且大小均在(0,1)之間。2.3.3.3用SPSS進(jìn)行主成分分析本文主要應(yīng)用EXCEL和SPSS兩個(gè)軟件,利用其強(qiáng)大的統(tǒng)計(jì)功能和數(shù)據(jù)分析能力,主要使用主成分分析的方法洗衣產(chǎn)品的21種溶液屬性進(jìn)行分析,提取出主成分。實(shí)驗(yàn)?zāi)P颓闆r如下:實(shí)驗(yàn)數(shù)據(jù)屬性數(shù)據(jù)21種溶液屬性實(shí)驗(yàn)類別溶液的屬性關(guān)系分析指標(biāo)數(shù)21模型參數(shù)群體規(guī)模86最大跌代數(shù)20綜合評(píng)價(jià)權(quán)重wi=iipi利用主成分分析法分析的有關(guān)操作結(jié)果和解釋如下文。2.3.3.3.1 KMO檢驗(yàn)和Bartlett檢驗(yàn)利用SPSS的命令A(yù)nalyzeData ReductionFactor,即可對(duì)數(shù)據(jù)進(jìn)行KMO檢驗(yàn)和Bartlett檢驗(yàn),以判斷該數(shù)據(jù)能否進(jìn)行主成分分析,以及主成分分析的效果。有關(guān)分析結(jié)果如下表:KMO and Bartletts TestKaiser-Meyer-Olkin Measure of Sampling Adequacy.764Bartletts Test of SphericityApprox. Chi-Square864.186df91Sig.000本文中的Bartlett檢驗(yàn)的F值小于0.001,表明所選用的數(shù)據(jù)來(lái)自正態(tài)分布總體,不存在人為特殊考慮的因素。KMO分析觀測(cè)變量之間簡(jiǎn)單相關(guān)系數(shù)和偏相關(guān)系數(shù)的相對(duì)大小,得出KMO=0764,適合進(jìn)行因子分析,效果很好。2.3.3.3.2主成分的確定用SPSS處理有關(guān)數(shù)據(jù),可以得到數(shù)據(jù)的總方差解釋表和初始因子載荷陣,具體值如下表:Total Variance ExplainedComponentInitial EigenvaluesExtraction Sums of Squared LoadingsTotal% of VarianceCumulative %Total% of VarianceCumulative %16.08443.45843.4586.08443.45843.45821.93913.84957.3071.93913.84957.30731.43710.26667.5731.43710.26667.57341.2899.20676.7791.2899.20676.7795.7375.26382.0416.6644.74186.7827.5063.61390.3958.3862.75993.1539.2581.84294.99510.2041.45496.44911.1911.36397.81212.1451.03898.85113.095.68099.53014.066.470100.000Extraction Method: Principal Component Analysis.上表是總方差解釋表,表中的Initial Eigenvalues(初始特征根)欄的的數(shù)值是按順序排列的主成分得分的方差(Total),它們?cè)跀?shù)值上等于相關(guān)系數(shù)矩陣的各個(gè)特征根。因此,可以直接根據(jù)特征根計(jì)算每一個(gè)主成分(特征根)的方差百分比(ofVariance),即特征根和變量數(shù)的比值的百分?jǐn)?shù)。由于全部特征根的總和等于變量的數(shù)目,即m=ipi=14, 因此第一個(gè)特征根(主成分)的方差百分比為im=6.08414=43.458%,第二個(gè)特征根的方差百分比為57.307%以此類推。根據(jù)各主成分的方差百分比,可以計(jì)算出方差累計(jì)值(Cumulative)。根據(jù)主成分提取原則,即取累計(jì)貢獻(xiàn)率7595和特征根il兩條原則,提取主成分1、主成分2、主成分3和主成分4。據(jù)此,可以求出主成分方差貢獻(xiàn)率矩陣。主成分方差貢獻(xiàn)率矩陣主成分方差貢獻(xiàn)率特征根方差貢獻(xiàn)率方差貢獻(xiàn)率累計(jì)主成分16.08443.45843.458主成分21.93913.84957.307主成分31.43710.26667.573主成分41.2899.20676.779Component MatrixaComponent1234PP6.378.296.524-.341PP7.407.464.223-.228PP8.474.551.336-.011PP10.586-.519.232.413PP11.718.221-.436.279PP12.782.089-.309.041PP13.369-.561.473.418PP14.723.322-.146.405PP15.771.258.061.373PP16.712-.506.072-.349PP17.755-.226-.426-.271PP18.795-.226-.310-.357PP19.716-.297.296-.251PP20.778.272.204-.084上表是成分載荷矩陣,載荷值是各個(gè)變量與有關(guān)主成分的相關(guān)系數(shù)。以第一列為例,第一列的0.378是PPT6與第一個(gè)主成分的相關(guān)系數(shù)。從主成分載荷矩陣可以看出,PPT6在第二主成分上的載荷較大,也即與第二主成分的相關(guān)系數(shù)較高;而PPT7在第一主成分和第二主成分上的載荷較大,也即與第一和第二主成分相關(guān)程度高。2.3.3.3.3計(jì)算得分系數(shù)上表(初始因子載荷矩陣)中的每列除以相應(yīng)的特征根的開方后,就得到各主成分得分系數(shù)矩陣,具體結(jié)果見下表。Component Score Coefficient MatrixComponent1234PP6.062.153.365-.265PP7.067.239.155-.177PP8.078.284.233-.009PP10.096-.267.162.321PP11.118.114-.303.216PP12.128.046-.215.032PP13.061-.290.329.325PP14.119.166-.101.314PP15.127.133.043.289PP16.117-.261.050-.270PP17.124-.117-.297-.210PP18.131-.116-.216-.277PP19.118-.153.206-.195PP20.128.140.142-.065設(shè)各指標(biāo)標(biāo)準(zhǔn)化后的值用Xi(i的系數(shù)和上表指標(biāo)的順序相同)表示,每個(gè)主成分的得分用yi(i的系數(shù)和主成分的系數(shù)相同)表示。根據(jù)主成分得分系數(shù)矩陣及變量的觀測(cè)值可以計(jì)算每個(gè)主成分的得分:第一主成分y1=0.062x1+0.067x2+0.078x3+0.096x4+1.422x5+1.273x6+4.093x7+1.233x8+0.127x9+0.117x10+0.124x11+0.131x12+0.118x13+0.128x14第二主成分y2=0.153x1+0.239x2+0.078x3+0.096x4+1.422x5+1.273x6+4.093x7+1.233x8+0.127x9+0.117x10+0.124x11-0.116x12-0.153x13+0.140x14第三主成分y3=0.365x1-0.117x2+0.078x3+0.096x4+1.422x5+1.273x6+4.093x7+1.233x8+0.127x9+0.117x10+0.124x11-0.206x12+0.206x13+0.142x14第四主成分y4=-0.265x1+0.067x2+0.078x3+0.096x4+1.422x5+1.273x6+4.093x7+1.233x8+0.127x9+0.117x10+0.124x11-0.277x12-0.195x13-0.065x14同理,可以提取18種污漬的去污功效指標(biāo).對(duì)這18種去污指標(biāo),通過(guò)主成分分析法提取出了4個(gè)主成分,各主成分的得分結(jié)果如下:第一主成分y1=0.052x1+0.063x2+0.080x3+0.080x4+0.076x5+0.050x6+0.078x7+1.233x8+0.094x9+0.093x10+0.045x11+0.052x12+0.083x13+0.075x14第二主成分y2=0.184x1-0.112x2-0.111x3+0.096x4+1.422x5+1.273x6+4.093x7+1.233x8+0.127x9+0.117x10+0.069x11-0.088x12-0.092x13-0.118x14第三主成分y3=0.088x1-0.330x2-0.286x3+0.096x4+1.422x5+1.273x6+4.093x7+1.233x8+0.127x9+0.057x10+0.451x11+0.471x12+0.098x13+0.212x14第四主成分y4=0.242x1+0.320x2+0.143x3+0.121x4+1.422x5+1.273x6+4.093x7+1.233x8+0.127x9+0.117x10+0.51
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年藝術(shù)生聯(lián)考專項(xiàng)考試試卷及答案重點(diǎn)
- 2025年心理學(xué)入門知識(shí)測(cè)試題及答案
- 2025年甘肅省中考語(yǔ)文試卷真題(含標(biāo)準(zhǔn)答案)
- 2025年舞蹈藝術(shù)與表演技巧期末考試試題及答案
- 2025年無(wú)人機(jī)技術(shù)應(yīng)用與管理考試試卷及答案
- 2025年數(shù)字媒體藝術(shù)專業(yè)考試試卷及答案
- 2025年農(nóng)村經(jīng)濟(jì)與管理考試試卷及答案
- 2025年編程語(yǔ)言與軟件開發(fā)能力評(píng)估試題及答案
- 2025年電氣工程及其自動(dòng)化專業(yè)考試試卷及答案
- 2025年甘肅省武威市民勤縣收成鎮(zhèn)選聘專業(yè)化管理村文書筆試參考題庫(kù)及答案詳解一套
- 山東電動(dòng)伸縮雨棚施工方案
- 新媒體營(yíng)銷技術(shù)與應(yīng)用PPT完整全套教學(xué)課件
- 第5章紅外教學(xué)課件
- 卡氏肺孢子蟲肺炎
- 大足縣某水庫(kù)除險(xiǎn)加固工程施工組織設(shè)計(jì)
- 基于單片機(jī)數(shù)字電壓表電路設(shè)計(jì)外文文獻(xiàn)原稿和譯文
- JJG 1149-2022電動(dòng)汽車非車載充電機(jī)(試行)
- 2023版浙江評(píng)審衛(wèi)生高級(jí)專業(yè)技術(shù)資格醫(yī)學(xué)衛(wèi)生刊物名錄
- GB/T 1689-1998硫化橡膠耐磨性能的測(cè)定(用阿克隆磨耗機(jī))
- GB/T 16823.3-2010緊固件扭矩-夾緊力試驗(yàn)
- 江蘇省金陵中學(xué)2023學(xué)年物理高一下期末調(diào)研試題(含答案解析)
評(píng)論
0/150
提交評(píng)論