版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
偏最小二乘回歸
PartialLeast-SquaresRegression2偏最小二乘回歸方法的產(chǎn)生背景PLS最先產(chǎn)生于化學(xué)領(lǐng)域,在利用分光鏡來預(yù)測化學(xué)樣本的組成時(shí),作為解釋變量的紅外區(qū)反射光譜的波長常有幾百個(gè),往往超過化學(xué)樣本的個(gè)數(shù),所造成的多重相關(guān)性使得人們很難利用傳統(tǒng)的最小二乘法。基于這個(gè)應(yīng)用的需要,S.Wold和C.Albano等人于1983年首次提出了PLS回歸方法并首先在化工領(lǐng)域取得了廣泛的應(yīng)用。3
在實(shí)際問題中,經(jīng)常遇到需要研究兩組多重相關(guān)變量間的相互依賴關(guān)系,并研究用一組變量(常稱為自變量或預(yù)測變量)去預(yù)測另一組變量(常稱為因變量或響應(yīng)變量),除了最小二乘準(zhǔn)則下的經(jīng)典多元線性回歸分析(MLR),提取自變量組主成分的主成分回歸分析(PCR)等方法外,還有近年發(fā)展起來的偏最小二乘(PLS)回歸方法。
4偏最小二乘回歸的基本思想
設(shè)有p個(gè)自變量{}和q個(gè)因變量{}。為了研究因變量和自變量的統(tǒng)計(jì)關(guān)系,我們觀測了n個(gè)樣本點(diǎn),由此構(gòu)成了自變量與因變量的數(shù)據(jù)表X={}n×p和Y={}n×q。偏最小二乘回歸分別在X與Y中提取出成分t1和u1(也就是說,t1是的線性組合,u1是的線性組合)。
5
在提取這兩個(gè)成分時(shí),為了回歸分析的需要,有下列兩個(gè)要求:(1)t1和u1應(yīng)盡可能大地?cái)y帶它們各自數(shù)據(jù)表中的變異信息;(2)t1和u1的相關(guān)程度能夠達(dá)到最大。這兩個(gè)要求表明:t1和u1應(yīng)盡可能好地代表數(shù)據(jù)表X和Y,同時(shí),自變量的成分t1對因變量的成分u1又有很強(qiáng)的解釋能力。6
在第一個(gè)成分t1和u1被提取后,偏最小二乘回歸分別實(shí)施X對t1的回歸以及Y對t1的回歸。如果回歸方程已經(jīng)達(dá)到滿意的精度,則算法終止;否則,將利用X被t1解釋后的殘余信息以及Y被t1解釋后的殘余信息進(jìn)行第二輪的成分提取。如此往復(fù),直到能達(dá)到一個(gè)較滿意的精度為止。若最終對X共提取了m個(gè)成分t1、t2、…、tm,偏最小二乘回歸將通過實(shí)施yk(k=1、2、…、q)對t1、t2、…、tm的回歸,然后表達(dá)成yk關(guān)于原變量x1、x2、…、xp的回歸方程。7偏最小二乘回歸的特點(diǎn)1.PLS是一種可以處理多個(gè)因變量對多個(gè)自變量的回歸建模方法。特別當(dāng)各變量集合內(nèi)部存在較高程度的相關(guān)性時(shí),用PLS進(jìn)行回歸建模分析,比對逐個(gè)因變量做多元回歸更加有效,其結(jié)論更加可靠,整體性更強(qiáng)。2.PLS可以較好地解決許多以往用普通多元回歸分析方法無法解決的重要問題。例如自變量之間的多重相關(guān)性問題和樣本點(diǎn)容量不宜太少等問題。8偏最小二乘回歸的特點(diǎn)1.PLS是一種可以處理多個(gè)因變量對多個(gè)自變量的回歸建模方法。特別當(dāng)各變量集合內(nèi)部存在較高程度的相關(guān)性時(shí),用PLS進(jìn)行回歸建模分析,比對逐個(gè)因變量做多元回歸更加有效,其結(jié)論更加可靠,整體性更強(qiáng)。2.PLS可以較好地解決許多以往用普通多元回歸分析方法無法解決的重要問題。例如自變量之間的多重相關(guān)性問題和樣本點(diǎn)容量不宜太少等問題。93.PLS可以實(shí)現(xiàn)多種數(shù)據(jù)分析方法的綜合應(yīng)用。它可以集多元線性回歸方法、主成分分析法和典型相關(guān)分析的基本功能為一體。在一次PLS計(jì)算后,不但可以得到多因變量對多自變量的回歸模型,而且可以分析2組變量之間的相關(guān)關(guān)系,以及觀察樣本點(diǎn)間的相似性結(jié)構(gòu)。這使得數(shù)據(jù)系統(tǒng)的分析內(nèi)容更加豐富,同時(shí)還可以對所建立的回歸模型給予許多更詳細(xì)深入的實(shí)際解釋。104.PLS允許在最終模型中包含原來全部自變量,最大限度地利用數(shù)據(jù)信息,使得PLS在相同的數(shù)據(jù)信息情況下比普通多元二乘回歸模型具有更高的有效性。5.在建模的同時(shí)實(shí)現(xiàn)了數(shù)據(jù)結(jié)構(gòu)的簡化,可以在二維平面上對多維數(shù)據(jù)的特性進(jìn)行觀察,圖形功能強(qiáng)大。因此,許多統(tǒng)計(jì)分析專家稱PLS為第二代回歸分析方法。11二、偏最小二乘回歸的建模步驟Step1.將X與Y進(jìn)行標(biāo)準(zhǔn)化處理,得到標(biāo)準(zhǔn)化后的自變量矩陣E0=(E01,E02,…,E0P)n×p和因變量矩陣F0=
(F01,F02,…,F0q)n×q
。標(biāo)準(zhǔn)化處理的目的是為了公式表達(dá)上的方便和減少運(yùn)算誤差。12Step2.記t1是E0的第1個(gè)成分,t1=E0ω1,ω1是E0的第1個(gè)軸,它是一個(gè)單位向量,既||ω1||=1。記u1是F0的第1個(gè)成分,u1=F0c1。c1是F0的第1個(gè)軸,并且||c1||=1。如果要t1和u1能分別很好地代表X與Y中的數(shù)據(jù)變異信息,根據(jù)主成分分析原理,應(yīng)該有:
Var(t1)maxVar(u1)max13
另一方面,由于回歸建模的需要,又要求t1對u1有很大的解釋能力,由典型相關(guān)分析的思路,t1與u1的相關(guān)度應(yīng)達(dá)到最大值,即:r(t1,u1)max
因此,綜合起來,在偏最小二乘回歸中,我們要求t1與u1的協(xié)方差達(dá)到最大,即:Cov(t1,u1)=r(t1,u1)max14
正規(guī)的數(shù)學(xué)表述應(yīng)該是求解下列優(yōu)化問題:
因此,將在||ω1||2=1和||c1||2=1的約束條件下,去求的最大值。
s.t15
采用拉格朗日算法,可得:
ω1是矩陣的特征向量,對應(yīng)的特征值為,是目標(biāo)函數(shù)值,它要求取最大值,所以,ω1是對應(yīng)于矩陣最大特征值的單位特征向量。而另一方面,c1是對應(yīng)于矩陣最大特征值的單位特征向量。16
求得ω1和c1后,即可得到成分:
然后,分別求E0和F0對t1的回歸方程:17Step3.用殘差矩陣E1和F1取代E0和F0。然后,求第2個(gè)軸ω2和c2以及第2個(gè)成分t2和u2,有:同理,有:
ω2是對應(yīng)于矩陣最大特征值的特征向量,c2是對應(yīng)于矩陣最大特征值的特征向量。18
從而,有回歸方程:19Step4.如此計(jì)算下去,如果X的秩是A,則會(huì)有:
由于t1,t2,…,tA均可以表示成E01,E02,…,E0p的線性組合,因此上式可還原成yk*=F0k關(guān)于yk*=E0j的回歸方程形式,即:20Step5.確定抽取成分的個(gè)數(shù)——交叉有效性下面要討論的問題是在現(xiàn)有的數(shù)據(jù)表下,如何確定更好的回歸方程。在許多情形下,偏最小二乘回歸方程并不需要選用全部的成分t1,t2,…,tA進(jìn)行回歸建模,而是可以像在主成分分析時(shí)一樣,采用截尾的方式選擇前m個(gè)成分(m<A,A=秩(X)),僅用這m個(gè)后續(xù)的成分就可以得到一個(gè)預(yù)測性能較好的模型。21
在多元回歸分析中,經(jīng)常采用抽樣測試法來確定回歸模型是否適于預(yù)測應(yīng)用。該方法是把觀測到的樣本點(diǎn)分成2部分:第1部分?jǐn)?shù)據(jù)用于建立回歸方程,求出回歸系數(shù)估計(jì)量,擬合值以及殘差均方和;再用第2部分?jǐn)?shù)據(jù)作為試驗(yàn)點(diǎn),代入所求得的回歸方程,由此求出。一般地,若有,則回歸方程會(huì)有更好的預(yù)測效果;若,則回歸方程不宜用于預(yù)測。22
在PLS建模中,究竟該選取多少個(gè)成分為宜,這可通過考察增加一個(gè)新的成分后,能否對模型的預(yù)測功能有明顯改進(jìn)來考慮。采用類似于抽樣測試法的工作方式,把所有n個(gè)樣本點(diǎn)分成2部分:第1部分除去某個(gè)樣本點(diǎn)i的所有樣本點(diǎn)集合(共含n-1個(gè)樣本點(diǎn)),用這部分樣本點(diǎn)并使用h個(gè)成分?jǐn)M合一個(gè)回歸方程;第二部分是把剛才被排除的樣本點(diǎn)i代入前面擬合的回歸方程,得到在樣本點(diǎn)i上的擬合值。23
對于每一個(gè)i=1,2,…,n,重復(fù)上述測試,則可以定義的預(yù)測誤差平方和為,有:
定義Y的預(yù)測誤差平方和為,有:
顯然,如果回歸方程的穩(wěn)健性不好,誤差就很大,它對樣本點(diǎn)的變動(dòng)就會(huì)十分敏感,這種擾動(dòng)誤差的作用就會(huì)加大SPRESS,h的值。24
另外,再采用所有的樣本點(diǎn),擬合含h個(gè)成分的回歸方程。這時(shí),記第i個(gè)樣本點(diǎn)的預(yù)測值為,則可以定義的誤差平方和為,有:
定義Y的誤差平方和為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 欄桿制作安裝合同范例
- 餐具供貨合同范例
- 汽車購車訂車合同范例
- 品牌區(qū)域代理合同范例
- 機(jī)器 廠房買賣合同范例
- 頂棚拆除合同范例
- 地?cái)偰c粉轉(zhuǎn)讓合同范例
- 長沙店面出租合同范例
- 一房兩賣小產(chǎn)權(quán)房合同范例
- 銀行入職合同范例
- 紅領(lǐng)巾獎(jiǎng)?wù)挛襾頎幠昙t領(lǐng)巾爭章啟動(dòng)課爭章計(jì)劃主題班會(huì)專題實(shí)用演示PPT課件
- 幼兒園課件:《認(rèn)識國旗》
- 《高等教育學(xué)》知識點(diǎn)梳理(附答案)
- 鄉(xiāng)鎮(zhèn)衛(wèi)生院醫(yī)療質(zhì)量管理參考模板
- 張大千-ppt資料
- 內(nèi)螺紋銅管成型技術(shù)與工藝(綜述)
- 航道整治課程設(shè)計(jì)--
- 熱力試驗(yàn)測點(diǎn)安裝及布置規(guī)范
- 群塔作業(yè)方案(圖文并茂,十分詳細(xì))
- 八灘鎮(zhèn)第二中心小學(xué)信訪維穩(wěn)工作臺賬
- 布洛芬工藝規(guī)程
評論
0/150
提交評論