第十一章偏最小二乘法_第1頁(yè)
第十一章偏最小二乘法_第2頁(yè)
第十一章偏最小二乘法_第3頁(yè)
第十一章偏最小二乘法_第4頁(yè)
第十一章偏最小二乘法_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第十一章第十一章 偏最小二乘法偏最小二乘法 偏最小二乘回歸是一種新型的多元統(tǒng)計(jì)數(shù)據(jù)分析方法,它與1983年由伍德和阿巴諾等人首次提出。近十年來(lái),它在理論、方法和應(yīng)用方面都得到了迅速的發(fā)展。密西根大學(xué)的弗耐爾教授稱(chēng)偏最小二乘回歸為第二代回歸分析方法。 偏最小二乘回歸方法在統(tǒng)計(jì)應(yīng)用中的重要性主要的有以下幾個(gè)方面: (1)偏最小二乘回歸是一種多因變量對(duì)多自變量的回歸建模方法。 (2)偏最小二乘回歸可以較好地解決許多以往用普通多元回歸無(wú)法解決的問(wèn)題。 在普通多元線(xiàn)形回歸的應(yīng)用中,我們常受到許多限制。最典型的問(wèn)題就是自變量之間的多重共線(xiàn)性。如果采用普通的最小二乘方法,這種變量多重相關(guān)性就會(huì)嚴(yán)重危害參數(shù)估

2、計(jì),擴(kuò)大模型誤差,并破壞模型的穩(wěn)定性。變量多重相關(guān)問(wèn)題十分復(fù)雜,長(zhǎng)期以來(lái)在理論和方法上都未給出滿(mǎn)意的答案,這一直困擾著從事實(shí)際系統(tǒng)分析的工作人員。偏最小二乘回歸中開(kāi)辟了一種有效的技術(shù)途徑,它利用對(duì)系統(tǒng)中的數(shù)據(jù)信息進(jìn)行分解和篩選的方式,提取對(duì)因變量的解釋性最強(qiáng)的綜合變量,辨識(shí)系統(tǒng)中的信息與噪聲,從而更好地克服變量多重相關(guān)性在系統(tǒng)建模中的不良作用。 (3)偏最小二乘回歸之所以被稱(chēng)為第二代回歸方法,還由于它可以實(shí)現(xiàn)多種數(shù)據(jù)分析方法的綜合應(yīng)用。偏最小二乘回歸偏最小二乘回歸=多元線(xiàn)性回歸分析多元線(xiàn)性回歸分析+典型相關(guān)分析典型相關(guān)分析+主成分分析主成分分析 由于偏最小二乘回歸在建模的同時(shí)實(shí)現(xiàn)了數(shù)據(jù)結(jié)構(gòu)的簡(jiǎn)

3、化,因此,可以在二維平面圖上對(duì)多維數(shù)據(jù)的特性進(jìn)行觀察,這使得偏最小二乘回歸分析的圖形功能十分強(qiáng)大。在一次偏最小二乘回歸分析計(jì)算后,不但可以得到多因變量對(duì)多自變量的回歸模型,而且可以在平面圖上直接觀察兩組變量之間的相關(guān)關(guān)系,以及觀察樣本點(diǎn)間的相似性結(jié)構(gòu)。這種高維數(shù)據(jù)多個(gè)層面的可視見(jiàn)性,可以使數(shù)據(jù)系統(tǒng)的分析內(nèi)容更加豐富,同時(shí)又可以對(duì)所建立的回歸模型給予許多更詳細(xì)深入的實(shí)際解釋。一、一、 偏最小二乘回歸的建模原理和方法偏最小二乘回歸的建模原理和方法 (一)建模原理建模原理 設(shè)有 q個(gè)因變量 y1, y2, yq和p個(gè)自變量 x1, x2, xp。為了討論兩組變量之間的關(guān)系,觀測(cè)了n個(gè)樣本點(diǎn)。偏最小二

4、乘回歸開(kāi)始與典型相關(guān)分析相同,分別在X與Y中提取出主成分。設(shè) t1, t2, tr為 x1, x2, xp的主成分, u1, u2, ur為 y1, y2, yq,其中r=min(p,q)。 (1) t1和u1應(yīng)盡可能大地?cái)y帶他們各自數(shù)據(jù)表中的變異信息; (2) t1和u1的相關(guān)程度能夠達(dá)到最大。 這兩個(gè)要求表明, t1和 u1應(yīng)盡可能好的代表數(shù)據(jù)表X和Y,同時(shí)自變量的成分t1對(duì)因變量的成分u1又有最強(qiáng)的解釋能力。 在第一個(gè)成分t1和u1被提取后,偏最小二乘回歸分別實(shí)施X對(duì)t1的回歸以及 Y對(duì)t1的回歸。如果回歸方程已經(jīng)達(dá)到滿(mǎn)意的精度,則算法終止;否則,將利用 X被t1解釋后的殘余信息以及Y

5、被t1 解釋后的殘余信息進(jìn)行第二輪的成分提取。如此往復(fù),直到能達(dá)到一個(gè)較滿(mǎn)意的精度為止。若最終對(duì) X共提取了 m個(gè)成分 t1, t2, tr,偏最小二乘將通過(guò)實(shí)施Y1,Y2, ,Yq對(duì) t1, t2, tr的回歸,然后再表達(dá)成YK關(guān)于原變量X1,X2, ,Xp 的回歸方程,其中k=1,2,q 。(二)計(jì)算方法推導(dǎo)(二)計(jì)算方法推導(dǎo) 首先將數(shù)據(jù)做標(biāo)準(zhǔn)化處理。設(shè)X組變量標(biāo)準(zhǔn)化的觀測(cè)值矩陣為 1112121222012ppnnnpxxxxxxxxxX設(shè)Y組變量標(biāo)準(zhǔn)化的觀測(cè)值矩陣為 1112121222012ppnnnpyyyyyyyyyY 求X組變量的第一主成分t1,w1為第一主成分的系數(shù)向量, w

6、1是一個(gè)單位向量。 t1=X0w1 求Y組變量的第一主成分t1,c1為第一主成分的系數(shù)向量, c1是一個(gè)單位向量。 u1=Y0c1 有Var(t1)=max Var(u1)=max (t1, u1)=max 因此綜合起來(lái),在偏最小二乘回歸中,我們要求與的協(xié)方差達(dá)到最大,既 11010 1,111 1max,11w cX w Y cw wc c (1)求)求w1和和c111100 111121 1(,)(1)(1)Qw cw X Y cw wc c 對(duì)Q分別求關(guān)于c1,w2,1,2和的偏導(dǎo)并令之為零,有00 111120QX Y cww0012 1120QY X wcc11110Q w w1 1

7、210Q c c采用拉格朗日乘數(shù)法,討論有約束條件的極值問(wèn)題??梢酝瞥?00 111120 w X Y cw w10012 1 120 c F X wc c則100 11222 w X Y c112100 122w X Y c記00 1110X Y cw0011 10Y X wc20111000X Y Y X ww可得可得21110000Y X X Ycc 可見(jiàn),w1是矩陣的 特征向量,對(duì)應(yīng)的特征值為 。所以w1是對(duì)應(yīng)于矩陣 最大特征值 的單位特征向量。而另一方面, c1是對(duì)應(yīng)于 矩陣最大特征值 的單位特征向量c1。 0000X Y Y X0000Y X X Y212121101tX w10

8、1uY c0000X Y Y X 注意這里t1和u1分別為n維向量,是n個(gè)個(gè)案在兩組變量的主成分的取值。 分別求X0和Y0對(duì)t1 和u1的兩個(gè)回歸方程0111Xt E0111Yt F 根據(jù)最小二乘估計(jì)的原理,則10 111 1101 1X tt tt Xt t10 111 1101 1Y tt tt Yt t 稱(chēng) 1為模型效應(yīng)載荷量。2.建立回歸方程3.用殘差代替X0和Y0的進(jìn)行以上的工作 在第二步工作中,由于第一對(duì)主成分并未將相關(guān)的信息提取完,所以需要再重復(fù)第一步工作,在殘差矩陣E0和F0中再提取第二對(duì)主成分。中再提取第二對(duì)主成分。212t E w21 2u Fc11121 2,2222ma

9、x,11w cE w Fcw wc c 分別求E1和F1對(duì)t2和u2的兩個(gè)回歸方程,即1222Et E1222Ft F 根據(jù)最小二乘估計(jì)的原理,則11 222 2212 2E tt tt Et t1222 2212 2F tt tt Ft t 進(jìn)而有011222011222Xt t EYt t F 4.設(shè)np數(shù)據(jù)觀測(cè)矩陣的秩為r=min( n ,p),則存在r個(gè)成分t1,t2, tr。使得 0112201122.(1).(2)rrXt t EYt t F1122.,1,2,.,(3)kkkkpptw Xw Xw Xkr 將(3)式代入(2)式,并合并同類(lèi)項(xiàng)1122.jjjppa Xa Xa X

10、Y 非標(biāo)準(zhǔn)化的偏最小二乘回歸方程為01122.jjjjppaa Xa Xa XY5.抽取主成分個(gè)數(shù)l的確定 至于抽取幾個(gè)主成份進(jìn)行偏最小二乘模型,需要進(jìn)行進(jìn)一步的檢驗(yàn)。當(dāng)然一定小于r。我們首先定義殘差平方和 其中i為第i個(gè)樣本點(diǎn),j為第j個(gè)指標(biāo),k為主成分的個(gè)數(shù)。通常情況下,選擇使殘差平方和最小的個(gè)數(shù)l。有四種方法。21( )( )njijijiPRESS kyyk(1)舍一交叉驗(yàn)證法 依次舍去第i(i=1,2,n)個(gè)樣本點(diǎn),用余下的n-1個(gè)樣本點(diǎn)做偏最小二乘回歸模型,并預(yù)測(cè)相應(yīng)的 ,k為主成分的個(gè)數(shù) 。 ( )ijyk21( )( )njijijiPRESS kyyk211( )( )pnijijjiPRESS kyyk 選擇使PRESS(k)最小的主成分的個(gè)數(shù)。(2)分批交叉驗(yàn)證法 分批交叉驗(yàn)證法是每次留下q個(gè)觀測(cè)作為檢驗(yàn)數(shù)據(jù),q=1是為“舍一交叉驗(yàn)證方法”。類(lèi)似按預(yù)測(cè)殘差平方和達(dá)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論