基于R語(yǔ)言的PLS算法的實(shí)現(xiàn)_第1頁(yè)
基于R語(yǔ)言的PLS算法的實(shí)現(xiàn)_第2頁(yè)
基于R語(yǔ)言的PLS算法的實(shí)現(xiàn)_第3頁(yè)
基于R語(yǔ)言的PLS算法的實(shí)現(xiàn)_第4頁(yè)
基于R語(yǔ)言的PLS算法的實(shí)現(xiàn)_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于基于R語(yǔ)言的語(yǔ)言的PLS算法的實(shí)現(xiàn)及研究算法的實(shí)現(xiàn)及研究目錄使用的開(kāi)發(fā)工具偏最小二乘的設(shè)計(jì)思想基于R語(yǔ)言、MATLAB的偏最小二乘的實(shí)現(xiàn)通徑分析測(cè)定系數(shù)實(shí)驗(yàn)分析使用的開(kāi)發(fā)工具R 語(yǔ)言(R是用于統(tǒng)計(jì)分析、繪圖的語(yǔ)言和操作環(huán)境。它是一個(gè)用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖的優(yōu)秀工具。)MATLAB(它是一種以矩陣運(yùn)算為基礎(chǔ)的交互式程序語(yǔ)言。它作為一種編程語(yǔ)言和可視化工具,可解決工程、科學(xué)計(jì)算和數(shù)學(xué)學(xué)科中許多問(wèn)題。)偏最小二乘回歸法最小二乘偏最小二乘1.數(shù)目較少2.無(wú)多重共線性3.各解釋變量與反應(yīng)變量之間的關(guān)系易于解釋1.在自變量存在嚴(yán)重多重共線性時(shí)可以進(jìn)行回歸建模;2.在樣本點(diǎn)個(gè)數(shù)比變量個(gè)數(shù)(維數(shù))明顯過(guò)少

2、時(shí)可以進(jìn)行 回歸建模;3. PLS模型可以識(shí)別系統(tǒng)信息與噪聲;4. PLS模型中,每一個(gè)自變量的回歸系數(shù)容易解釋?zhuān)?. PLS最終回歸模型中包含原有的所有自變量。偏最小二乘回歸法 兩組潛變量分別最大程度承載自變量與因變量的變異信息;二者之間的協(xié)方差最大化(相關(guān)程度最大)。提取多少個(gè)主成分最合適?交叉性檢驗(yàn)121(1)111qhjjhhqhhjjPRESSPRESSQSSSS =0.0975實(shí)例分析(基于MATLAB)蘆薈大黃素大黃素大黃酸大黃酚大黃素甲醚厚樸酚和厚樸酚橙皮苷辛弗林d-乳酸x1x2x3x4x5x6x7x8x9y10.06250.04680.09450.07240.02650.00

3、720.01380.24480.21980.06250.0450.03170.05580.08990.02140.01640.01340.49130.48650.05250.00750.00850.01260.01390.00630.02130.0160.02860.01760.030.0350.02780.04340.05320.01550.02390.01610.16610.07090.040.0180.00970.02320.01590.00360.01790.01220.41990.42490.060.0340.02330.06310.06540.01840.01170.00850.1

4、9360.07220.060.02270.01040.031950.02130.04780.00320.0030.35480.37160.06750.10060.08750.18410.21190.0680.01360.0140.20780.12390.05750.1060.0960.19820.17010.04950.00450.00790.08720.05360.13250.0540.04410.08710.09980.02770.08710.00420.06660.04710.19實(shí)例分析成分個(gè)數(shù)Q2h臨界值110.097520.46350.09753-0.48880.0975在test

5、pls01.m文件中添加下列幾行代碼。%以下計(jì)算決定系數(shù)的R2SST=sum(ppz(:,10)-mu(1,10).2); SSR= sum(ch0+ppz(:,1:9)*xish-mu(1,10).2);RR=SSR/SST;得到復(fù)測(cè)定系數(shù)為 R2=0.927由表可知,當(dāng)我們主成分取三個(gè),才能更好的擬合方程,擬合結(jié)果如下y=0.0916+0.2229x1+0.2167x2+0.0964x3+0.0292x4+(-0.1552)x5+1.0706x6+(-5.8149)x7+-0.0155 x8+0.0194x9實(shí)例分析(基于R)(1)pls包的安裝以及載入install.packages(p

6、ls)library(pls)(2)數(shù)據(jù)的導(dǎo)入C1C2-read.csv(C:UsersAdministratorDesktopdatadata2.csv)#導(dǎo)入自變量和因變量的樣本數(shù)據(jù)(3)數(shù)據(jù)的標(biāo)準(zhǔn)化X-scale(C1)Ypls1summary(pls1,what=all)#顯示回歸結(jié)果(包括PRESS與變異解釋度)其中,validation=LOO表示使用留一交叉驗(yàn)證計(jì)算PRESS,jackknife=TRUE,表示使用jackknife法估計(jì)回歸系數(shù)方差(為后面的顯著性檢驗(yàn)做準(zhǔn)備)在沒(méi)給定成分個(gè)數(shù)的情況下,會(huì)默認(rèn)使用所有的主成分進(jìn)行回歸,因此我們需要在選擇的成分個(gè)數(shù)盡可能小的前提下,

7、選擇使PRESS最小或幾乎不變的成分個(gè)數(shù)假設(shè)選定了成分個(gè)數(shù)為m,重新進(jìn)行回歸,并對(duì)回歸系數(shù)假設(shè)檢驗(yàn)。1comps2comps3comps4comps5comps6comps7comps8compsX50.18268.72589.81696.9399.1899.7399.9599.99y140.40087.27187.27391.3398.2499.7899.8899.92y236.12188.32288.92994.3198.999.8199.9499.99y30.0020.0100.01525.325.3972.2188.888.8y49.35734.29239.79845.6146.025

8、4.5781.6197.36y511.61612.00025.29426.2532.7333.3581.2799.84y653.51765.22676.81676.9482.9796.2397.199.48y75.77711.74877.40577.8278.285.186.3693.03其中CV即為不同主成分個(gè)數(shù)對(duì)應(yīng)的PRESS(殘差值),adjcv為調(diào)整后的PRESS。TRAINING:%varianceexplained一欄為主成分對(duì)各變量的累積貢獻(xiàn)率由結(jié)果可知,主成分個(gè)數(shù)為4個(gè)時(shí),模型在經(jīng)過(guò)留一交叉驗(yàn)證法后求得的PRESS總和最小,隨著成分個(gè)數(shù)的增加,PRESS值也沒(méi)有太大改變,并且4

9、個(gè)成分對(duì)各個(gè)因變量的累積貢獻(xiàn)率也基本達(dá)到了穩(wěn)定,因此定下回歸的成分個(gè)數(shù)m=4(5)指定主成分個(gè)數(shù)之后,進(jìn)行第二次線性曲線擬合,最后求出因變量和自變量的相關(guān)系數(shù)。根據(jù)成分?jǐn)?shù)m=4,建立最終模型:pls2coef(pls2)#得到回歸系數(shù),4comps表1 因變量與自變量之間的標(biāo)準(zhǔn)回歸系數(shù)y1y2y3y4y5y6y7x10.14700.1428-0.1394-0.02220.0558-0.1759-0.0898x20.10660.1041-0.0924-0.02930.0351-0.1541-0.0220 x30.10050.0948-0.0668-0.01050.0491-0.1668-0.03

10、55x40.10430.1082-0.1753-0.09640.0005-0.1324-0.0011x5-0.0573-0.10460.34890.24360.2033-0.2552-0.1489x60.60520.6484-0.36140.1250-0.01580.1448-0.1664x7-0.4786-0.4532-0.1848-0.5423-0.29330.11940.4879x8-0.0086-0.0276-0.2297-0.07670.0855-0.1309-0.3258x90.0156-0.0108-0.13950.01850.1334-0.1486-0.3768y1=0.147

11、022336x1+0.106558962x2+0.100451920 x3+0.104259945x4-0.059733499x5+0.605248435x6-0.478575361x7-0.008575145x8+0.015589996x9以此類(lèi)推y2,y3,y4,y5,y6,y7通徑分析概念:概念:多元線性回歸系數(shù)間不能直接比較各因子間的效應(yīng)大小,因?yàn)楦骰貧w系數(shù)間都帶有不同的量綱,再者多變量的關(guān)系中,往往都不是獨(dú)立的,有的還要研究xi通過(guò)xj對(duì)因變量y的影響,而通徑系數(shù)就能有效的表示相關(guān)變量間原因?qū)Y(jié)果的直接影響或間接影響的效應(yīng),從而區(qū)分因子的相對(duì)重要性及其關(guān)系。作用:作用:通徑分析(pa

12、thanalysis)可用于分析多個(gè)自變量與因變量之間的線性關(guān)系,是回歸分析的拓展,可以處理較為復(fù)雜的變量關(guān)系。如當(dāng)自變量數(shù)目比較多,且自變量間相互關(guān)系比較復(fù)雜(如:有些自變量間的關(guān)系是相關(guān)關(guān)系,有些自變量間則可能是因果關(guān)系)或者某些自變量是通過(guò)其他的自變量間接地對(duì)應(yīng)變量產(chǎn)生影響,這時(shí)可以采用通徑分析。通徑分析思路:思路:通徑分析在多元回歸的基礎(chǔ)上將相關(guān)系數(shù)分解為直接通徑系數(shù)(某一自變量對(duì)因變量的直接作用)和間接通徑系數(shù)(該自變量通過(guò)其他自變量對(duì)因變量的間接作用)。通徑分析的理論已證明,任一自變量xi與因變量Y之間的簡(jiǎn)單相關(guān)系數(shù)(riy)=xi與Y之間的直接通徑系數(shù)(Piy)+所有xi與Y的間

13、接通徑系數(shù),任一自變量xi對(duì)Y的間接通徑系數(shù)=相關(guān)系數(shù)(rij)通徑系數(shù)(Pij)。實(shí)例分析x1x2x3x4x5x6x7x8x9y-0.0250.763-0.582-0.779-0.4560.436-0.70.1080.344x1x2x3x4x5x6x7x8x9y0.1523 0.1388 0.1278 0.0395 -0.0658 0.5360 -0.565 -0.0490.0701 1. 運(yùn)用SPSS軟件做逐步回歸得到通徑系數(shù)。運(yùn)用SPSS軟件只需要“AnalyzeRegressionLinear”這一個(gè)程序就可以獲得通徑系數(shù)。我們現(xiàn)在以數(shù)據(jù)表1中藥量效關(guān)系為例,建立線性回歸方程并計(jì)算通徑系數(shù)2. 用matlab

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論