偏最小二乘回歸分析在均勻設(shè)計(jì)試驗(yàn)建模分析中的應(yīng)用_第1頁(yè)
偏最小二乘回歸分析在均勻設(shè)計(jì)試驗(yàn)建模分析中的應(yīng)用_第2頁(yè)
偏最小二乘回歸分析在均勻設(shè)計(jì)試驗(yàn)建模分析中的應(yīng)用_第3頁(yè)
偏最小二乘回歸分析在均勻設(shè)計(jì)試驗(yàn)建模分析中的應(yīng)用_第4頁(yè)
偏最小二乘回歸分析在均勻設(shè)計(jì)試驗(yàn)建模分析中的應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、偏最小二乘回歸分析在均勻設(shè)計(jì)試驗(yàn)建模分析中的應(yīng)用唐啟義,唐潔:偏最小二乘回歸分析在均勻設(shè)計(jì)試驗(yàn)建模分析中的應(yīng)用45文章編號(hào):1002-1566(2005)05004506偏最小二乘回歸分析在均勻設(shè)計(jì)試驗(yàn)建模分析中的應(yīng)用鼯意鼯潷(浙江大學(xué)農(nóng)業(yè)與生物技術(shù)學(xué)院植物保護(hù)系,杭州,310029)摘要:本文分析了目前應(yīng)用一般的最小二乘法建立均勻試驗(yàn)數(shù)據(jù)的二次多項(xiàng)式回歸模型時(shí)存在的局限性,提出了應(yīng)用偏最小二乘法(Partialleastsquare,PLS)建立二次多項(xiàng)式回歸模型的技術(shù),并且進(jìn)一步介紹了偏最小二乘回歸(PLS回歸)在均勻設(shè)計(jì)中的應(yīng)用.作者認(rèn)為,PLS回歸分析建模技術(shù)將為均勻設(shè)計(jì)的更廣泛應(yīng)用提

2、供有力的技術(shù)支持.關(guān)鍵詞:偏最小二乘法;均勻設(shè)計(jì);回歸分析;模型優(yōu)化中圖分類(lèi)號(hào):O212C8文獻(xiàn)標(biāo)識(shí)碼:AApplicationofPartialLeast?-SquaresRegressiveonModelingAnalysisofUniformDesignExperimentTANGQiyi,TANGJie(DepartmentofPlantProtection,CollegeofAgricultureandBiotechnology,ZhangUniversity,HangzhouChina,310029)Abstract:Thispaperanalyzedthelimitationof

3、applyingtheleastsquaremethodtoestablishtheSeconddegreePolynomialModelsofUniformdesigndata,andpresentedthetechnologyofapplyingPartialleastsquaresmethodtoestablishtheSeconddegreePolynomialModels.FurthertheapplicationofPartialleastsquaresregressionmethod(PLSregression)intheUniformDesignwasintroduced.Th

4、eauthorthinkthetechnolgywillprovidetechnologicalsupportforthemoreextensiveapplicationofUniformDesign.Keywords:PartialLeastSquares,UniformDesign,RegressiveAnalysis,model0引言回歸分析是均勻設(shè)計(jì)數(shù)據(jù)分析的主要手段.由于均勻設(shè)計(jì)的出發(fā)點(diǎn)是建立多因素尋優(yōu)模型,這樣,如考慮多因素互作,模型最優(yōu)化的實(shí)際需要,最基本的要求是根據(jù)均勻設(shè)計(jì)試驗(yàn)結(jié)果建立二次多項(xiàng)式回歸模型.若試驗(yàn)設(shè)計(jì)有m個(gè)因素”,當(dāng)觀察指標(biāo)為Y時(shí),其二次多項(xiàng)式回歸模型為:Y:盧0

5、+盧+盧+盧xj+占其中,盧,盧和為回歸系數(shù),占為隨機(jī)誤差.從上述回歸模型可以看到,除了常數(shù)項(xiàng)以外,方程有m(m+3)/2項(xiàng),若使回歸系數(shù)的估計(jì)有可能,必要條件為試驗(yàn)次數(shù)n>1+m收稿日期:2003年3月27日46數(shù)理統(tǒng)計(jì)與管理第25卷第5期2005年9月(m+3)/2.當(dāng)m較大時(shí),通常不能滿(mǎn)足這個(gè)必要條件.目前一般的做法是采用逐步回歸分析技術(shù),從二次多項(xiàng)式方程中選擇方差貢獻(xiàn)顯著的因素或因素組合,刪除不顯著(重要)的因素或因素組合,建立含部分變量的回歸方程模型.但是,從實(shí)際操作,應(yīng)用來(lái)看,有幾個(gè)問(wèn)題:一是分析時(shí),多數(shù)自變量是組合變量,它們之間存在有嚴(yán)重的多重共線性,這會(huì)使得分析結(jié)

6、果很不穩(wěn)定,以致有時(shí),某個(gè)因素是否選人對(duì)回歸方程產(chǎn)生很大的影響,使建模者左右為難;二是選中的自變量,有時(shí)與我們所希望的有較大的出入,從專(zhuān)業(yè)知識(shí)方面認(rèn)為是重要的變量往往落選,特別是有時(shí)單相關(guān)非常顯著的變量落選,使我們很難信服地接受這樣的”最優(yōu)”回歸模型;三是所建立的回歸方程模型,有的因素的回歸系數(shù)符號(hào)反常,這與專(zhuān)業(yè)背景不符合;四是在配方均勻設(shè)計(jì)試驗(yàn),并考查外界影響因素時(shí),配方成分是不能隨意去掉的.從上述4個(gè)問(wèn)題可以看出,傳統(tǒng)的基于最小二乘的多元線性回歸,逐步回歸分析方法不能完全適應(yīng)均勻設(shè)計(jì)數(shù)據(jù)建模的需要.偏最小二乘(Partialleastsquares)回歸分析方法,這一從應(yīng)用領(lǐng)域提出的一種新

7、的多元數(shù)據(jù)分析技術(shù)在近1O多年以來(lái)得到了迅速地發(fā)展.偏最小二乘法可以有效地克服目前回歸建模的許多實(shí)際問(wèn)題,如上面提到的樣本容量小于變量個(gè)數(shù)時(shí)進(jìn)行回歸建模,以及多個(gè)因變量對(duì)多個(gè)自變量的同時(shí)回歸分析等一般最小二乘回歸分析方法無(wú)法解決的問(wèn)題.1基本理論與算法簡(jiǎn)介偏最小二乘回歸分析,最初是研究多解釋變量和多個(gè)反應(yīng)變量的定量關(guān)系,即在解釋變量空間和反應(yīng)變量空間分別尋找某些線性組合(潛變量),并使得兩個(gè)變量空間的協(xié)方差最大.如用表示解釋變量,用yn表示反應(yīng)變量,這里n是樣本個(gè)數(shù),m是解釋變量(自變量)的個(gè)數(shù),k是反應(yīng)變量(因變量)的個(gè)數(shù).PLS的目的是將數(shù)據(jù)集投影到一系列的潛變量ti和u(.j=1,2,A

8、),這里是潛變量的個(gè)數(shù).然后在ti和i之間建立回歸方程=bjtj+ej這里的ej是誤差向量,是未知參數(shù).且bj可通過(guò)公式6f=()進(jìn)行估計(jì).其中tj和u滿(mǎn)足:最大可能地包含數(shù)據(jù)表和y的信息;相關(guān)程度最大.潛變量可通過(guò)公式tj=和=Yjqj計(jì)算得到.這里變量Pj和qi是使得潛變量0和的協(xié)方差最大,亦即使?jié)撟兞縯j和u,相關(guān)程度達(dá)最大時(shí)的權(quán)重系數(shù);=f一7P=X,pf=xit/(tj)+=一,=y,qj=Xft/(tj)設(shè)=6是u的預(yù)報(bào)值,這時(shí)矩陣和y可以分解成如下外積形式:AA=+E,y:+F這里E和F是提取對(duì)潛變量后矩陣和y的殘差.在偏最小二乘回歸分析過(guò)程中,每對(duì)潛變量tj和u(=1,2,)在

9、迭代過(guò)程中依次被提取,然后計(jì)算提取后的殘差,并對(duì)每一步的殘差再繼續(xù)進(jìn)行分析,直至根據(jù)某種準(zhǔn)則確定提取潛變量的對(duì)數(shù)().確定要提取的潛變量對(duì)數(shù)一般是應(yīng)用預(yù)測(cè)殘差平方和PRESS(PredictedResidualSumofSquares),即在每一步分別計(jì)算去掉1個(gè)樣本點(diǎn)后反應(yīng)變量預(yù)測(cè)估計(jì)值和實(shí)際觀測(cè)值的殘差平方和:唐啟義,唐潔:偏最小二乘回歸分析在均勻設(shè)計(jì)試驗(yàn)建模分析中的應(yīng)用47PRESS(加(Y一Y)(-)式中PRESS為第步的預(yù)測(cè)殘差平方和,)表示第i步的反應(yīng)變量預(yù)測(cè)估計(jì)值,y.表示第i步的反應(yīng)變量實(shí)際觀測(cè)值.如果PRESSf)一PRESS”J)小于預(yù)定精度,那么迭代過(guò)程結(jié)束,否則繼續(xù)提取

10、潛變量,進(jìn)行迭代計(jì)算.但在實(shí)際工作中,可以根據(jù)PRESS的變化,并結(jié)合擬合殘差平方和的變化趨勢(shì)進(jìn)行判斷,人為指定提取潛變量的個(gè)數(shù).作者認(rèn)為,應(yīng)用偏最小二乘法建立二次多項(xiàng)式回歸模型,提取潛變量個(gè)數(shù)最多不要超過(guò)試驗(yàn)處理的因子個(gè)數(shù).上述偏最小二乘回歸分析技術(shù),作者已用Pascal程序語(yǔ)言實(shí)現(xiàn),并輔助以圖形方式的工作界面,讓使用者決定提取潛變量的個(gè)數(shù).在建立模型后,系統(tǒng)立即對(duì)模型進(jìn)行優(yōu)化(求最大值或最小值).這些功能作為一個(gè)統(tǒng)計(jì)分析模塊收錄在作者開(kāi)發(fā)的通用統(tǒng)計(jì)分析軟件包”DPS數(shù)據(jù)處理系統(tǒng)”之中,其演示版本可從網(wǎng)站下載試用.2應(yīng)用實(shí)例張承恩(在研究VD合成過(guò)程中,對(duì)其中的一步光化學(xué)反應(yīng),采用均勻設(shè)計(jì)技

11、術(shù)設(shè)計(jì)了一套試驗(yàn)4個(gè)處理因素,7個(gè)處理水平的試驗(yàn)方案,做了7批試驗(yàn),考察了2個(gè)指標(biāo)和一個(gè)復(fù)合指標(biāo),其試驗(yàn)處理及結(jié)果如表1.表1均勻設(shè)計(jì)試驗(yàn)數(shù)據(jù)在該試驗(yàn)中,有4個(gè)處理因素,如果建立完整的二次多項(xiàng)式回歸方程,需要15個(gè)處理組合,但這里只有7個(gè)處理組合,因此只能應(yīng)用逐步回歸分析法,選出較”重要”的因素或變量組合建立回歸方程.對(duì)這3個(gè)產(chǎn)出指標(biāo),也只能分別建立3個(gè)回歸方程.如果應(yīng)用逐步回歸分析方法進(jìn)行建模,就有可能因引人/剔除變量的F臨界值不同,不同的建模人員建立的方程會(huì)有很大的差異,并給模型的整體優(yōu)化,尋求最好的工藝條件等實(shí)際應(yīng)用帶來(lái)困難.根據(jù)該試驗(yàn)結(jié)果,作者應(yīng)用偏最d-乘回歸分析方法,借助于作者編制

12、的偏最小二乘回歸分析程序進(jìn)行分析.分析時(shí)參考PRESS統(tǒng)計(jì)量和誤差統(tǒng)計(jì)量的下降趨勢(shì)(圖1).圖右下方k值表示用來(lái)建立二次多項(xiàng)式回歸模型所選取的潛變量的個(gè)數(shù).48數(shù)理統(tǒng)計(jì)與管理第25卷第5期2005年9月圖1偏最小二乘回歸誤差統(tǒng)計(jì)量F降趨勢(shì)圖選擇潛變量個(gè)數(shù),一般認(rèn)為是根據(jù)偏最小二乘分析程序的提示(圖1)進(jìn)行,從圖1可以看出,當(dāng)潛變量個(gè)數(shù)為3時(shí),各因變量的擬合誤差的下降趨勢(shì)趨于平緩.不過(guò),根據(jù)DPS軟件用戶(hù)應(yīng)用PLS回歸建模所反饋的信息,認(rèn)為應(yīng)同時(shí)考慮各個(gè)效應(yīng)的標(biāo)準(zhǔn)回歸系數(shù),即要與實(shí)際的專(zhuān)業(yè)背景相吻合.在選擇潛變量個(gè)數(shù)后,我們?cè)俅_定模型優(yōu)化的一些條件(圖2):如點(diǎn)擊上部各個(gè)自變量下面的檢查框可決定

13、哪些自變量是否受配方條件的限制,即哪些自變量在回歸方程中的取值之和必須為1;點(diǎn)擊下部各因變量下面的檢查框可決定哪些因變量因變量的優(yōu)化方向(是求極大l,0,值還是極小值).對(duì)有z個(gè)因變量的系統(tǒng)優(yōu)化,其目標(biāo)函數(shù)的定義為dfI.,i/100,當(dāng)某目標(biāo)函數(shù)是求極大值時(shí),di:1,否則,d:一1,而為各個(gè)因變量在優(yōu)化過(guò)程中所占的權(quán)重.式中,y和sD分別是第i個(gè)因變量的理論值,均值和標(biāo)準(zhǔn)差.選擇有關(guān)參數(shù)并確認(rèn)后,我們即可得到模型效應(yīng)及因變量權(quán)數(shù),模型效應(yīng)負(fù)荷量,各個(gè)自變量對(duì)各個(gè)因變量作用的標(biāo)準(zhǔn)回歸系數(shù)等結(jié)果.例如表2列出了各個(gè)自變量主效應(yīng)的標(biāo)準(zhǔn)回歸系數(shù)(其它結(jié)果在此略去).從表2可以看出,各個(gè)自變量對(duì)3個(gè)

14、因變量的主效應(yīng)是相同的,但自變量和對(duì)因變量的主效應(yīng)為負(fù),而和對(duì)因變量的主效應(yīng)為正.表2各個(gè)自變量對(duì)各個(gè)因變量主效應(yīng)的標(biāo)準(zhǔn)回歸系數(shù)圖2偏最d”-乘回歸模型優(yōu)化最后.我們根據(jù)偏最小二乘回歸分析,同時(shí)考慮3個(gè)因變量的優(yōu)化,得到如下二次多項(xiàng)式回歸模型:),l:一220.73512.0870l一0.15792+54.42133+15.18914+0.007466l+0.000508x2一3.1747x3一0.1055x4+0.002536xl2+0.01375xl30.003724xlX4一唐啟義,唐潔:偏最小二乘回歸分析在均勻設(shè)計(jì)試驗(yàn)建模分析中的應(yīng)用490.03386x230.009298x240.5

15、714x34Y2=一629.46430.4055x+2.6433x,一33.2815x+6.8048x+0.004211.一0.00305lx2+2.01072x3一0.05955x4+0.000400x120.09135x130.005254x14+0.048726x230.003350x24+0.2267x34Y3=一593.01451.1637xl+1.9208x22.8398x3+11.3205x4+0.006231xl一0.002085x2+0.2154x3一0.08792x4+0.001344xl20.06298xl30.005448xl4+0.02289x230.006306x2

16、40.06272x34這3個(gè)二次多項(xiàng)式回歸模型的擬合效果,可從誤差平方和看出(表3).表3中顯示出提取不同潛變量個(gè)數(shù)時(shí)數(shù)據(jù)標(biāo)準(zhǔn)化后模型誤差平方和和PRESS統(tǒng)計(jì)量下降情況,并可得到相應(yīng)組分時(shí)的模型擬合的決定系數(shù).從決定系數(shù)可以看出,提取3個(gè)組分(潛變量)時(shí),各個(gè)回歸模型的擬合程度都較好.表3數(shù)據(jù)標(biāo)準(zhǔn)化后模型誤差平方和及決定系數(shù)潛變量誤差平方和決定系數(shù)RPress統(tǒng)計(jì)量個(gè)數(shù)YlY2Y3YlY2y3Yl22Y3根據(jù)圖2設(shè)定的優(yōu)化條件對(duì)各個(gè)模型優(yōu)化后,得到各個(gè)自變量的優(yōu)化值分別為:等于30.0000,2等于418.2546,3等于3.5000,等于47.2173,綜合指標(biāo)的最優(yōu)目標(biāo)函數(shù)為144.97

17、.這時(shí),各個(gè)因變量的最優(yōu)目標(biāo)函數(shù)值Y=80.17,Y=61.30,Y=48.69.此優(yōu)化結(jié)果作者已反饋給張承恩先生,經(jīng)張先生確認(rèn),其優(yōu)化方向與原回歸分析基本一致,具有合理性,可用.3討論偏最/J-乘回歸(Partialleastsquaresregression)是一種新型的多元統(tǒng)計(jì)數(shù)據(jù)分析方法,它于1983年由伍德(S.Wold)和阿巴諾(C.Albano)等人首次提出.近十幾年來(lái),它在理論及應(yīng)用方面都得到了迅速發(fā)展.偏最小二乘回歸由于集多元線性回歸分析,典型相關(guān)分析和主成分分析的基本功能為”一體”.由于偏最小二乘回歸在建模的同時(shí)實(shí)現(xiàn)了數(shù)據(jù)結(jié)構(gòu)的簡(jiǎn)化,因此,可以在二維平面上對(duì)多維數(shù)據(jù)的特性進(jìn)

18、行觀察,這使得在偏最小二乘回歸分析中對(duì)各個(gè)因素的影響進(jìn)行分析.在一次偏最jJ-乘回歸分析計(jì)算后,不但可以得到多因變量對(duì)多自變量的回歸模型,而且可以在兩維平面上直接觀察兩組變量之間的相關(guān)關(guān)系,以及觀察樣本點(diǎn)間的相似結(jié)構(gòu).這種高維數(shù)據(jù)多個(gè)層面的可視見(jiàn)性,可以使數(shù)據(jù)系統(tǒng)的分析內(nèi)容更加豐富,同時(shí)又可以對(duì)所建立的回歸模型給予許多更詳細(xì)深入的實(shí)際解釋.此外,偏最小二乘方法適應(yīng)多因變量對(duì)多自變量的回歸建模分析,比對(duì)逐個(gè)因變量做多元回歸更加有效,其結(jié)論更加可靠,整體性更強(qiáng).偏最小二乘回歸分析的這些將非模型方式的數(shù)據(jù)認(rèn)識(shí)性分析方法和優(yōu)化模型方法集中起來(lái)的特點(diǎn)及多因變量建模功能正適合均勻設(shè)計(jì)試驗(yàn)結(jié)果數(shù)據(jù)分析和優(yōu)化模型的建立.因此,PLS回歸分析建模技術(shù)將均勻設(shè)計(jì)的更廣泛應(yīng)用提供有力的技術(shù)支持.(下轉(zhuǎn)第67頁(yè))孫尚拱,何平平:經(jīng)典的用回歸模型進(jìn)行統(tǒng)計(jì)控制中的問(wèn)題67參考文獻(xiàn)1BernardRosner.FundamentalsofB

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論