偏最小二乘法(PLS)簡(jiǎn)介.doc_第1頁(yè)
偏最小二乘法(PLS)簡(jiǎn)介.doc_第2頁(yè)
偏最小二乘法(PLS)簡(jiǎn)介.doc_第3頁(yè)
偏最小二乘法(PLS)簡(jiǎn)介.doc_第4頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

偏最小二乘法(PLS)簡(jiǎn)介偏最小二乘法(PLS)簡(jiǎn)介簡(jiǎn) 介偏最小二乘法是一種新型的多元統(tǒng)計(jì)數(shù)據(jù)分析方法,它于1983年由伍德(S.Wold)和阿巴諾(C.Albano)等人首次提出。近幾十年來,它在理論、方法和應(yīng)用方面都得到了迅速的發(fā)展。 偏最小二乘法長(zhǎng)期以來,模型式的方法和認(rèn)識(shí)性的方法之間的界限分得十分清楚。而偏最小二乘法則把它們有機(jī)的結(jié)合起來了,在一個(gè)算法下,可以同時(shí)實(shí)現(xiàn)回歸建模(多元線性回歸)、數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)化(主成分分析)以及兩組變量之間的相關(guān)性分析(典型相關(guān)分析)。這是多元統(tǒng)計(jì)數(shù)據(jù)分析中的一個(gè)飛躍。 偏最小二乘法在統(tǒng)計(jì)應(yīng)用中的重要性體現(xiàn)在以下幾個(gè)方面: 偏最小二乘法是一種多因變量對(duì)多自變量的回歸建模方法。偏最小二乘法可以較好的解決許多以往用普通多元回歸無(wú)法解決的問題。 偏最小二乘法之所以被稱為第二代回歸方法,還由于它可以實(shí)現(xiàn)多種數(shù)據(jù)分析方法的綜合應(yīng)用。 主成分回歸的主要目的是要提取隱藏在矩陣X中的相關(guān)信息,然后用于預(yù)測(cè)變量Y的值。這種做法可以保證讓我們只使用那些獨(dú)立變量,噪音將被消除,從而達(dá)到改善預(yù)測(cè)模型質(zhì)量的目的。但是,主成分回歸仍然有一定的缺陷,當(dāng)一些有用變量的相關(guān)性很小時(shí),我們?cè)谶x取主成分時(shí)就很容易把它們漏掉,使得最終的預(yù)測(cè)模型可靠性下降,如果我們對(duì)每一個(gè)成分進(jìn)行挑選,那樣又太困難了。 偏最小二乘回歸可以解決這個(gè)問題。它采用對(duì)變量X和Y都進(jìn)行分解的方法,從變量X和Y中同時(shí)提取成分(通常稱為因子),再將因子按照它們之間的相關(guān)性從大到小排列。現(xiàn)在,我們要建立一個(gè)模型,我們只要決定選擇幾個(gè)因子參與建模就可以了基本概念 偏最小二乘回歸是對(duì)多元線性回歸模型的一種擴(kuò)展,在其最簡(jiǎn)單的形式中,只用一個(gè)線性模型來描述獨(dú)立變量Y與預(yù)測(cè)變量組X之間的關(guān)系:Y = b0 + b1X1 + b2X2 + . + bpXp 在方程中,b0是截距,bi的值是數(shù)據(jù)點(diǎn)1到p的回歸系數(shù)。 例如,我們可以認(rèn)為人的體重是他的身高、性別的函數(shù),并且從各自的樣本點(diǎn)中估計(jì)出回歸系數(shù),之后,我們從測(cè)得的身高及性別中可以預(yù)測(cè)出某人的大致體重。對(duì)許多的數(shù)據(jù)分析方法來說,最大的問題莫過于準(zhǔn)確的描述觀測(cè)數(shù)據(jù)并且對(duì)新的觀測(cè)數(shù)據(jù)作出合理的預(yù)測(cè)。多元線性回歸模型為了處理更復(fù)雜的數(shù)據(jù)分析問題,擴(kuò)展了一些其他算法,象判別式分析,主成分回歸,相關(guān)性分析等等,都是以多元線性回歸模型為基礎(chǔ)的多元統(tǒng)計(jì)方法。這些多元統(tǒng)計(jì)方法有兩點(diǎn)重要特點(diǎn),即對(duì)數(shù)據(jù)的約束性: 變量X和變量Y的因子都必須分別從XX和YY矩陣中提取,這些因子就無(wú)法同時(shí)表示變量X和Y的相關(guān)性。 預(yù)測(cè)方程的數(shù)量永遠(yuǎn)不能多于變量Y跟變量X的數(shù)量。 偏最小二乘回歸從多元線性回歸擴(kuò)展而來時(shí)卻不需要這些對(duì)數(shù)據(jù)的約束。在偏最小二乘回歸中,預(yù)測(cè)方程將由從矩陣YXXY中提取出來的因子來描述;為了更具有代表性,提取出來的預(yù)測(cè)方程的數(shù)量可能大于變量X與Y的最大數(shù)。簡(jiǎn)而言之,偏最小二乘回歸可能是所有多元校正方法里對(duì)變量約束最少的方法,這種靈活性讓它適用于傳統(tǒng)的多元校正方法所不適用的許多場(chǎng)合,例如一些觀測(cè)數(shù)據(jù)少于預(yù)測(cè)變量數(shù)時(shí)。并且,偏最小二乘回歸可以作為一種探索性的分析工具,在使用傳統(tǒng)的線性回歸模型之前,先對(duì)所需的合適的變量數(shù)進(jìn)行預(yù)測(cè)并去除噪音干擾。因此,偏最小二乘回歸被廣泛用于許多領(lǐng)域來進(jìn)行建模,象化學(xué),經(jīng)濟(jì)學(xué),醫(yī)藥,心理學(xué)和制藥科學(xué)等等,尤其是它可以根據(jù)需要而任意設(shè)置變量這個(gè)優(yōu)點(diǎn)更加突出。在化學(xué)計(jì)量學(xué)上,偏最小二乘回歸已作為一種標(biāo)準(zhǔn)的多元建模工具。計(jì) 算 過 程基本模型作為一個(gè)多元線性回歸方法,偏最小二乘回歸的主要目的是要建立一個(gè)線性模型:Y=XB+E,其中Y是具有m個(gè)變量、n個(gè)樣本點(diǎn)的響應(yīng)矩陣,X是具有p個(gè)變量、n個(gè)樣本點(diǎn)的預(yù)測(cè)矩陣,B是回歸系數(shù)矩陣,E為噪音校正模型,與Y具有相同的維數(shù)。在通常情況下,變量X和Y被標(biāo)準(zhǔn)化后再用于計(jì)算,即減去它們的平均值并除以標(biāo)準(zhǔn)偏差。偏最小二乘回歸和主成分回歸一樣,都采用得分因子作為原始預(yù)測(cè)變量線性組合的依據(jù),所以用于建立預(yù)測(cè)模型的得分因子之間必須線性無(wú)關(guān)。例如:假如我們現(xiàn)在有一組響應(yīng)變量Y(矩陣形式)和大量的預(yù)測(cè)變量X(矩陣形式),其中有些變量嚴(yán)重線性相關(guān),我們使用提取因子的方法從這組數(shù)據(jù)中提取因子,用于計(jì)算得分因子矩陣:T=XW,最后再求出合適的權(quán)重矩陣W,并建立線性回歸模型:Y=TQ+E,其中Q是矩陣T的回歸系數(shù)矩陣,E為誤差矩陣。一旦Q計(jì)算出來后,前面的方程就等價(jià)于Y=XB+E,其中B=WQ,它可直接作為預(yù)測(cè)回歸模型。 偏最小二乘回歸與主成分回歸的不同之處在于得分因子的提取方法不同,簡(jiǎn)而言之,主成分回歸產(chǎn)生的權(quán)重矩陣W反映的是預(yù)測(cè)變量X之間的協(xié)方差,偏最小二乘回歸產(chǎn)生的權(quán)重矩陣W反映的是預(yù)測(cè)變量X與響應(yīng)變量Y之間的協(xié)方差。在建模當(dāng)中,偏最小二乘回歸產(chǎn)生了pxc的權(quán)重矩陣W,矩陣W的列向量用于計(jì)算變量X的列向量的nxc的得分矩陣T。不斷的計(jì)算這些權(quán)重使得響應(yīng)與其相應(yīng)的得分因子之間的協(xié)方差達(dá)到最大。普通最小二乘回歸在計(jì)算Y在T上的回歸時(shí)產(chǎn)生矩陣Q,即矩陣Y的載荷因子(或稱權(quán)重),用于建立回歸方程:Y=TQ+E。一旦計(jì)算出Q,我們就可以得出方程:Y=XB+E,其中B=WQ,最終的預(yù)測(cè)模型也就建立起來了。非線性迭代偏最小二乘法用于計(jì)算偏最小二乘回歸的一種標(biāo)準(zhǔn)算法是非線性迭代偏最小二乘法(NIPALS),在這種算法中有許多變量,有些被規(guī)范化了,有些卻沒有。下面提到的算法被認(rèn)為是非線性迭代偏最小二乘法中最有效的一種。對(duì)h=1.c,且A0=XY, M0=XX, C0=I,變量c已知。 計(jì)算qh,AhAh的主特征向量。 wh=GhAhqh, wh=wh/|wh|,并將wh作為W的列向量。 ph=Mhwh, ch=whMhwh, ph=ph/ch,并將ph作為P的列向量。 qh=Ahwh/ch,并將qh作為Q的列向量。 Ah+1=Ah - chphqh,Bh+1=Mh - chphph Ch+1=Ch - whph 得分因子矩陣T可以計(jì)算出來:T=XW,偏最小二乘回歸系數(shù)B也可由公式B=WQ計(jì)算出。SIMPLS算法還有一種對(duì)偏最小二乘回歸組分的估計(jì)方法,被稱為SIMPLS算法。對(duì)h=1.c,且A0=XY, M0=XX, C0=I,變量c已知。 計(jì)算qh,AhAh的主特征向量。 wh=Ahqh, ch=whMhwh, wh=wh/sqrt(ch),并將wh作為W的列向量。 ph=Mhwh,并將ph作為P的列向量。 qh=Ahwh,并將qh作為Q的列向量。 vh=Chph,vh=vh/|vh| Ch+1=Ch - vhvh,Mh+1=Mh - phph Ah+1=ChAh 與NIPALS相同,SIMPLS的T由公式T=XW計(jì)算出,B由公式B=WQ計(jì)算。 相關(guān)文獻(xiàn) 許祿,化學(xué)計(jì)量學(xué)方法,科學(xué)出版社,北京,1995。 王惠文,偏最小二乘回歸方法及應(yīng)用,國(guó)防科技出版社,北京,1996。 Chin, W. W., and Newsted, P. R. (1999). Structural Equation Modeling analysis with Small Samples Using Partial Least Squares. In Rick Hoyle (Ed.), Statistical Strategies for Small Sample Research, Sage Publications. Chin, W. W. (1998). The partial least squares approach for structural equation modelling. In George A. Marcoulides (Ed.), Modern Methods for Business Research, Lawrence Erlbaum Associates. Barclay, D., C. Higgins and R. Thompson (1995). The Partial Least Squares (PLS) Approach to Causal Modeling: Personal Computer Adoption and Use as an Illustration. Technology Studies, volume 2, issue 2, 285-309. Chin, W. W. (1995). Partial Least Squares Is To LISREL As Principal Components Analysis Is To Common Factor Analysis. Technology Studies. volume 2, issue 2, 315-319. Falk, R. F. and N. Mill

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論