機器學習之回歸_第1頁
機器學習之回歸_第2頁
機器學習之回歸_第3頁
機器學習之回歸_第4頁
機器學習之回歸_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、學習之回歸目錄學習之回歸11. 線性回歸與 logistic21.1 一元線性回歸模型21.1.1 一元的產(chǎn)生及參數(shù)估計21.1.2 一元線性回歸的建立41.1.3 回歸模型的檢驗51.1.4 回歸模型的優(yōu)缺點61.2 多元線性回歸61.3 廣義線性模型121.4 非線性模型172. 多重共線性的解決232.1 為什么解決多重共線性232.1.1 解決多重共線性的知識前提232.1.2.24-2.2 解決多重共線性的.242.2.1. 嶺回歸242.2.2. LASSO302.2.3. LAR343. 降維技術(shù)343.1 主成分分析343.1.1 什么是主成分分析343.1.2 基本思想343

2、.1.3 直觀幾何意義353.1.4 數(shù)學模型363.1.5 相關(guān)的R 函數(shù)383.1.6 實例展示393.2 因子分析423.2.13.2.23.3.3什么是因子分析42數(shù)學模型43因子分析計算函數(shù)443.3 二者的與區(qū)別461.線性回歸與 logistic1.1 一元線性回歸模型1.1.1 一元的產(chǎn)生及參數(shù)估計(1)(1) 函數(shù)(2) 相關(guān):確定性:非確定性y=10x+3;;(2)相數(shù)衡量線性相關(guān)性強弱的參數(shù),該值越大,說明線性相關(guān)越強。正相關(guān):x,y 同增同跌;負相關(guān):x,y 增跌相反.(3)參數(shù)1.2.3.4.(4)如何確定參數(shù)1.值與真實值的差距,平方誤差真實值 y,值 y,則平方誤

3、使用平方誤差和衡量差就是最小。,尋找合適的參數(shù),使得平方誤差和2.之所以不選用點到直線的垂直距離,是因為運算時帶有根號,使運算變得復(fù)雜。3.最小二乘法:幾何模型:使用最小二乘法求解參數(shù):Rss 其實是 a 與b 的參數(shù),分別對 a 與b 求偏導并令偏導等于 0,就可以得出 a 與b 的值。1.1.2 一元線性回歸的建立Lm 命令函數(shù):線性函數(shù)y=c(61,62,63) X=c(61,62,63.)Plot(x,y)Abline(lm.obj)#c 指的是創(chuàng)建,不能丟!, x,y 對應(yīng)個數(shù)相等# #c 指的是創(chuàng)建做出 X,Y 的散點圖根據(jù) lm.obj 做出回歸直線求解一元線性回歸模型:把模型放

4、在變量 Z 中:z=lm(yx+1) 把模型放在變量 w 中: w=lm(yx-1)#假定模型,即假設(shè) y=ax+b#即 y=x,過原點實例展示1.1.3 回歸模型的檢驗回歸方程的顯著性檢驗相關(guān)知識點主要的知識:Residualstandarderror:標準差# 越小越好# 越大越好MultipleR-squarederror:相tvaluePr(>|t|)的相關(guān)數(shù):假設(shè) yx 模型是錯的,即把 X 的變量加入模型是錯的,那么它的系數(shù)就應(yīng)該為 0,此時假設(shè) X 的系數(shù)為 0,同時誘導出一個變量 t,誘導出的統(tǒng)計變量應(yīng)該服從 t 分布(t 分布類似于正太分布,是一個當大,兩邊可能性相當小

5、。曲線),取值在 0 附近可能性相Pr(>|t|):在圖中代表 t 值以外面積有多大,該值越小越好,0.05 以下一顆*,0.01 以下兩顆*,*越多代表意義越強,即假設(shè) X 系數(shù)為 0 這個回歸模型是無效的,即原本的回歸模型是有效的。通常以 0.05 為界限,該例中 pr(>|t|)=8.21*10-7 遠小于 0.05,說明假設(shè) X 系數(shù)為 0 不成立,原線性模型符合。1.1.4 回歸模型的優(yōu)缺點內(nèi)推插值:在 X 的已有范圍內(nèi)Y 的值。外推歸納:X 范圍之外的 y 值。回歸擅長于內(nèi)推插值,而不擅長外推歸納,在使用回歸模型時要注意 x 的適用取值范圍。銷售業(yè)績適合使用回歸嗎?不適

6、用。1.2 多元線性回歸1.2.1 多元的產(chǎn)生及參數(shù)估計1.2.2 虛擬變量(啞變量)加法模型影響截距1.W(體重)h(身高)color(顏色) Is y(1 或 0) is w(1 或 0)sex(Isman(1 或 0)Iswoman(1 或 0)黃白加法模型只要?。╪-1)個啞變量即可W=a+bh+c(is man)+d(is y)+e每一種情況類型對應(yīng)一個截距W=a1+bh(可能是 is man,yellow) W=a2+bh(可能是 iswoman,white).斜率相同截距不同乘法模型利用啞變量改變斜率,思想相同,略。2.1.2.3.變量的篩選(1)多元線性回歸的:應(yīng)該選擇哪些變量

7、。從多元的變量中剔除那些與模型無關(guān)的變量,添加相關(guān)變量的過程。(2) AICRss(殘差平方和)與 R2(相Rss 最小 R2 最大的模型。數(shù)平方)選擇法:遍歷所有可能的組合,選出使n 為變量總個數(shù),p 為選出的變量個數(shù),AIC 越小越好。(3) 變量篩選的理論逐步回歸向前引入法:從一元回歸開始,逐步增加變量,使指標值達到最優(yōu)為止。剔除法:從變量回歸方程開始,逐步刪去某個變量,使指標值達到最優(yōu)為止。逐步篩選法:綜合上述兩種。(4) 實際篩選,step()函數(shù)> swiss.lm=lm(Fertility.,data=swiss)> sl=step(swiss.lm,directio

8、n="backward")#首先對數(shù)據(jù)做多元線性回歸#此處為剔除法(5) 優(yōu)化:drop1(),add1()1.2.4 多重共線性(1)什么是多重共線性某些變量有時屬于“打醬油”,完全可以由另外一些變量表示出來,即兩個變量線性相關(guān),例 X1=bX2,則這個模型之間多重共線性。(2)多重共線性對回歸的影響當變量中多重共線性時,回歸誤差會比較大(3)如何發(fā)現(xiàn)多重共線性實例展示:> collinear=read.table("6.18.txt")# 事先將 6.18 數(shù)據(jù)寫入工作目錄,讀出數(shù)據(jù)# 讀出數(shù)據(jù)# 提取 27 列的自變量,求相數(shù)矩陣;# 利用k

9、appa()求出矩陣xTx 的條件數(shù)exact 為邏輯變量,當為 TRUE時,精確計算條件數(shù);否則近似計算條件數(shù)。> xx=cor(collinear2:7)> kappa(xx,exact=TRUE)1 2195.908> kappa(xx,exact=FALSE)1 3151.046> eigen(xx)# 求出矩陣xTx 的最小特征值和相應(yīng)特征Kappa 值的解釋:就是把樣本的數(shù)據(jù)組成一個矩陣,然后再乘以它的轉(zhuǎn)置,得到一個新的矩陣,再求這個矩陣的特征根,把最大的與最小的相除,觀測 kappa 值就可 是否存在多重共線性。K<100 基本排除,100<k

10、<1000 較強的多重共線性,k>1000 嚴重的多重共線性。eigen(),求矩陣的特征根。Cor(x)如果X 是矩陣或數(shù)據(jù)框,返回相數(shù)矩陣。(4)如何解決多重共線性> lm.1=lm(V1.,data=a)> summary(lm.1)#建立多元回歸模型> aic=step(lm.1,direction="backward")#對回歸模型做變量篩選> lm.2=update(lm.1,.-V2)> summary(lm.2)#剔除變量 X2在解決了多重共線性后,再進一步對變量進行篩選,使各項指標值達到最優(yōu)。1.3 廣義線性模型1

11、.3.1 概念可以理解質(zhì)上是非線性回歸,可以某種通過轉(zhuǎn)化,轉(zhuǎn)變?yōu)榫€性回歸的模型, 使用線性回歸模型對參數(shù)進行估計。1.3.2 廣義線性模型之一:logistic(1)什么是 logistic在某些回歸中,響應(yīng)變量是分類的,經(jīng)常是的,或者是失敗的。對于這些,正態(tài)線性模型顯然不合適,因為正態(tài)誤差不對應(yīng)一個 0-1 響應(yīng)。在這種情況下,可用一種重要的稱為 logistic 回歸。對于響應(yīng)變量 Y 有 P 個自變量(或稱為解釋變量),記為 X1,X2,Xp,在 P個自變量的作用下,出現(xiàn)歸模型為的條件概率為 P=PY=1|X1,X2,Xp ,那么 logistic 回其中為常數(shù)項或截距,稱,為 logi

12、stic 模型回歸系數(shù)。該式的比值總在 0 到 1 之間變化,這正是概率 P 的取值區(qū)間。(2)Logit 變換對上式作 logit 變換,logistic 回歸模型可以變成下列線性模型:從這個以看出,我們能夠使用線性回歸模型對參數(shù)進行估計,這就是 logistic回歸模型屬于廣義線性模型的。(3)R-logistic 語句Fm=glm(formula,family=binomial,data=data.frame)其中 family=binomial,表示 logistic 函數(shù)對應(yīng)的二項分布族,每個分布族(family) 相應(yīng)的連接函數(shù)。在用 glm()函數(shù)作 logistic 回歸模型時

13、,對于公式 formula 有兩種輸入,一種輸入方法是輸入和失敗的次數(shù),另一種像線性模型通常數(shù)據(jù)的輸入。下面以兩個例子解釋。(4)實踐展示實例 1以6.19 為例> norell=data.frame(+ x=0:5,n=rep(70,6),sucess=c(0,9,21,47,60,63)+ )> norell$Ymat=cbind(norell$sucess,norell$n-norell$sucess)#讀入數(shù)據(jù)#一列是的次數(shù),另一列是失敗的次數(shù)# 用 glm()函數(shù)作 logistic 回歸模型;> logistic=glm(Ymatx,family=binomial

14、,data=norell)公式輸入法之一:輸入和失敗 的 次 數(shù) ; 二 項 分 布 族 :binomial>pre=predict(logistic,data.frame(x=3.5)>p=exp(pre)/(1+exp(pre);>p0.742642#得到回歸模型后,作> d=seq(0,5,len=100)> pre=predict(logistic,data.frame(x=d)> p=exp(pre)/(1+exp(pre)> norell$y=norell$sucess/norell$n> plot(norell$x,norell$y

15、)> lines(d,p)># d 為曲線橫坐標點# pre 計算值# p 是相應(yīng)的概率# 做出logistic 回歸曲線實例 2,習題 6.8> X1 = c(70, 60, 70, 40, 40, 70, 70, 80, 60, 30, 80, 40, 60, 40, 20, 50, 50, 40, 80, 70, 60, 90, 50, 70,20, 80, 60, 50, 70, 40, 30, 30, 40, 60, 80, 70, 30, 60, 80, 70)# 生活行為能力> X2 = c(64, 63, 65, 69, 63, 48, 48, 63,

16、63, 53, 43, 55, 66, 67, 61, 63, 66, 68,41, 53, 37, 54, 52,50, 65, 52, 70, 40, 36, 44, 54, 59, 69, 50, 62, 68, 39, 49, 64, 67)#> X3 = c(5, 9, 11, 10, 58, 9, 11, 4, 14, 4, 12, 2, 25, 23, 19, 4, 16, 12, 12,8, 13, 12, 8, 7, 21, 28, 13,13, 22, 36, 9, 87, 5, 22, 4, 15, 4, 11, 10, 18)#到研究時間> X4 = c(r

17、ep(1, 7), rep(2, 7), rep(3, 2), rep(0, 4), rep(1, 8), rep(2, 4), rep(3,3), rep(0, 5)# 腫瘤類 型> X5 = c(rep(1, 21), rep(0, 19)> Y = c(1, rep(0, 11), 1, rep(0, 5), 1, 1, 0, 1, 1, 1, 0, 1, rep(0, 12), 1, 1)> life=data.frame(X1,X2,X3,X4,X5,Y)# 化療#讀入數(shù)據(jù)> glm.sol=glm(YX1+X2+X3+X4+X5,family=binomia

18、l,data=life)> summary(glm.sol)#建立回歸模型回歸效果不理想,用 step()函數(shù)做逐步回歸> glm.new=step(glm.sol)> summary(glm.new)回歸效果有較為明顯的。> pre1=predict(glm.new,data.frame(X1,X4)> p=exp(pre1)/(1+exp(pre)生存時間大于等于200 天的概率估計值> p#1.4 非線性模型實例:銷售額 x 與流通費率 y。首先采用一元線性回歸模型試驗> x=c(1.5,2.8,4.5,7.5,10.5,13.5,15.1,16

19、.5,19.5,22.5,24.5,26.5)> y=c(7.0,5.5,4.6,3.6,2.9,2.7,2.5,2.4,2.2,2.1,1.9,1.8)> plot(x,y)> lm.a=lm(yx+1)> abline(lm.a)1.4.1 多項式回歸假設(shè)二次多項式方程為 y=a+bx+cx2> x1=x> x2=x2> lm.2=lm(yx1+x2)> dev.new()> plot(x,y)> lines(x,fitted(lm.2)>1.4.2 對數(shù)法回歸> lm.log=lm(ylog(x)> lines

20、(x,fitted(lm.log)>1.4.3 指數(shù)法回歸1.4.4數(shù)法回歸以上非線性模型均沒有做匯總數(shù)據(jù)的 summary()檢驗,通過 summary()函數(shù)的檢驗,觀察殘差,相數(shù),t 值和Pr 值的變化,對比以上各種擬合回歸方程,得出結(jié)論是數(shù)法最佳。2.多重共線性的解決2.1 為什么解決多重共線性2.1.1 解決多重共線性的知識前提(1)多元線性回歸的最小二乘解(無偏估計)#1.2.3.4.6.21 式為殘差平方和多元線性回歸最終可轉(zhuǎn)變成求 Q(B)【殘差平方和】最小值的。選擇一組合適的參數(shù) B 值使 Q(B)達到最小。(Y-XB)即 y1-B0-B1x-B2x.-BpXp (殘差

21、)。無偏估計:樣本數(shù)量多,計算的次數(shù)多,B就可無限逼近總體 B 的值。(2)廣義逆的奇異性(不可逆性)(1) 當變量比樣本多時,出現(xiàn)奇異性變量比樣本多即 P>n,(XTX)得到的是 P*P 方陣,而它的秩為 n,所以其不是矩陣,即出現(xiàn)奇異性,不可逆。(2) 當出現(xiàn)多重共線性時,出現(xiàn)奇異性若矩陣 X 中多重共線性,則 X 矩陣不可逆(若行相關(guān),則該模型列式有兩行(列)元素對應(yīng)成比例,則行列式的值為 0)即 X 不是矩陣。2.1.2多重共線性的危害(奇異的結(jié)果性):xTx 不可逆的話,導致該式無法求解,或矩陣 X 中線性相關(guān)時也有細微誤差,則可以求解,但是求出的常大且不。-2.2 解決多重共

22、線性的2.2.1.嶺回歸1.什么是嶺回歸估計(1)嶺回歸的概念及公式當回歸模型多重共線性時,XTX 是不可逆的,即|XTX|約等于 0,但是添加一個擾動項正常矩陣 kI(k>0) 之后,xTx+kI 就是可逆的了,其接近奇異的程度就比 XTX接近奇異的程度小的多,參數(shù)估計就可以求解了,因此嶺回歸估計是關(guān)于嶺參數(shù)的函數(shù)。嶺參數(shù)不同,回歸系數(shù)相應(yīng)改變嶺回歸作為 B 的估計二乘估計。最小二乘估計,當 K=0 時的嶺回歸估計就是普通的最?。?)等價模型:懲罰函數(shù)嶺回歸系數(shù)估計是一個帶有約束條件的方程求解,要是殘差平方1.和最小,就要使系數(shù)估計盡量大,但最大也不能超過約束條件的限制。當嶺參數(shù)趨向更

23、大時,嶺回歸系數(shù)估計趨向于 0:當 K 更大時,2.需要更小,只有這樣才能保證這個函數(shù)達到極小。(3)嶺回歸的幾何意義以二元模型為例,不必管截距項,考慮通過原點的模型。(4)嶺回歸估計的性質(zhì)性質(zhì) 1:是回歸參數(shù) B 的有偏估計,當 K 不等于 0 時,是 B 的有偏估計,有偏性是嶺回歸估計的一個重要特性。性質(zhì) 2 :以 MSE 表示估計 的均方誤差,則 k>0 ,使得 即意思是:嶺回歸中可以找到一個 K 值比用最小二乘法更加能逼近理想的 B。解 釋:雖然嶺回歸是有偏估計,但在局部上可能比最小乘估計更接近 B 的真實值,嶺回歸中平均與 B 有偏差,但不能排除局部情況可能更接近理想值。2.怎

24、樣使用嶺回歸估計解決多重共線性(1)嶺跡圖同樣還以二元模型為例當不奇異性時,嶺跡應(yīng)是的逐漸趨向于 0;當多重共線性時,嶺跡圖多成喇叭口型,如上圖。(2)確定嶺參數(shù)選擇嶺參數(shù) K 時一般篩選在喇叭口附近的得 K 值,即各回歸系數(shù)的嶺估計基本時,如圖:3.嶺回歸的實際展示(1)R 的 MASS 包> library(MASS)#安裝MASS 包后才可調(diào)用lm.ridge()函數(shù)使用 longley 數(shù)據(jù)集> names(longley)1="y"> lm.ridge(y.,longley)> plot(lm.ridge(y.,longley,lambda

25、=seq(0,0.1,0.001)# #改變因變量的名字為 y調(diào)用 lm.ridge()函數(shù)畫嶺跡圖,嶺參數(shù)從 00.1步長為 0.001> select(lm.ridge(y.,longley,lambda=seq(0,0.1,0.001)#使用 select()計算嶺參數(shù)l 以上為三種估計法,通常取 GCU,或根據(jù)投票原則來選,哪個值出現(xiàn)多就選哪個,此處選擇 K=0.06(2)R 的 ridge 包> library(ridge)> a=linearRidge(y.,data=longley)> summary(a)自動選取嶺參數(shù),此處選取的嶺參數(shù)值為 0.0104

26、69124.嶺回歸的優(yōu)缺點a)優(yōu)點:可以較好的解決模型中的多重共線性b)缺點:嶺回歸估計是一種先天不足的計算,它只是為了解決多重共線性而采取的權(quán)宜之計。嶺回歸通常會使殘差平方和變大,但同時也會使系數(shù)檢驗變好,例如,將* 變成兩顆*。c)嶺參數(shù)計算太多,差異太大,選擇時具有爭議。d)根據(jù)嶺跡圖進行變量篩選,而不是變量的篩選。性太強,隨意性太大。它主要是用來解決多重共線性的e)嶺回歸返回的模型(如果沒有經(jīng)過變量篩選)包含所有變量。2.2.2.LASSO(1)什么是 LASSOa).LASSO 的概念及公式概念:通過構(gòu)造一個一階懲罰函數(shù)獲得一個精煉模型;通過最終確定一些指標(變量)的系數(shù)為零(同時做

27、到篩選變量),擅長處理具有多重共線性的數(shù)據(jù),與嶺回歸一樣是有偏估計b).LASSO 的作用原理LASSO 的作用原理基本等同于嶺回歸, 不過 LASSO 將懲罰函數(shù)換為一階的,同時做到了篩選變量的作用,解釋力更強,效果更好。c).為什么 LASSO 能直接篩選變量LASSO 的約束條件為嶺回歸的約束條件為由一圖可以看出,LASSO 的菱形頂點非常突出,橢圓周交到的機會非常高(頂點在坐在坐標平面上,很多變量的系數(shù)等于 0),所以可以很好的篩選變量。標軸上,由二圖可以看出,橢圓與圓相交的點即為嶺回歸的系數(shù),由圖得,其通常為 0.(2)LASSO 怎樣解決多重共線性實例展示> library(

28、lars)> w=as.matrix(longley)> laa=lars(w,2:7,w,1)> laa# 使用 R 的 lars 包做 LASSO 和 LAR 回歸# 轉(zhuǎn)化為矩陣# 自變量放在前,因變量放在后# 查看 laa 的執(zhí)行過程*該圖為 LASSO 的過程,一步一步的增減變量> plot(laa)#LASSO 的過程圖解*從右向左看,該過程為 K 在增大,減小的過程,同時某些變量的系數(shù)也變?yōu)?0> summary(laa)#Cp 值越小越好,第 8為選取了 1,3,2,4 變量,剔除了 5,6 變量。2.2.3.LARLAR 的過程與 LASSO 過程

29、高度相似,主要理解其幾何意義與思想,詳細知識可LAR 的講解。煉數(shù)3.降維技術(shù)3.1 主成分分析3.1.1 什么是主成分分析(1)定義主成分分析是將多指標化為少數(shù)幾個綜合指標的一種統(tǒng)計分析,通過降維技術(shù)把多個變量化為少數(shù)幾個主成分的們通常為原始變量的線性組合。這些主成分能夠反映原始變量的絕大信息,它(2)作用,效果若原始數(shù)據(jù)有 400 個變量,通常組合出來的新變量為 25 個(大部分皆為 25個)把原始的程度快速下降,降維的效果非常明顯,也把解決的精度降低太多,同時多重共線性也會在降維的過程中自動的消滅掉。3.1.2 基本思想最基本思想:根據(jù)方差選擇變量。(1) 當審視一個時,觀測其包含的變量

30、是不是每一個用的時候,可以觀看這些變量方差的情況,如果一個變量方差很小,則可以拋棄該變量。(2) 通過對原有變量進行線性組合,得到一些新的變量,然后對新變量的方差進行計算,試圖可以去掉那些方差比較小的新變量。3.1.3 直觀幾何意義(1)直觀解釋X1,X2 均為自變量,假如自變量是沿著 x1 軸兩邊條形分布的,則說明數(shù)據(jù)的差異主要是由數(shù)據(jù)在 X1 這個方向上引起的,X2 的差異不明顯,數(shù)據(jù)是沿 X1 軸兩邊分布的,分布在一個狹長的地帶,所以 X2 對變量的影響不是很大,此時可以拋棄 X2 這個維度。假如數(shù)據(jù)不是沿 X1 分布,分布如上圖,它是沿坐標平面的兩側(cè)分布的,此時 X1, X2 都無法舍

31、棄。可以做一個坐標的平移旋轉(zhuǎn),建立一個新的坐標系,沿著數(shù)據(jù)散布最大的Y1,與 Y1 垂直的為 Y2。坐標的旋轉(zhuǎn)就相當于對原先原始變量的線性組合,得到 Y1,Y2,這時就可以舍棄變量 Y2 了。Y2 對數(shù)據(jù)散布的影響并不是很大,數(shù)據(jù)分布的差異主要在 Y1 上,只要 Y1 就可以說明了。以上為主成成分分析的基本思想。(2)解釋主成分分析的基本是最大的。就是在 n里找出一個方向,沿著這個方向數(shù)據(jù)的方差3.1.4 數(shù)學模型(1)主成分的定義與導出a)變量 X 的期望與方差設(shè) X 是 P 維隨量,并假設(shè),考慮如下線性變換表示數(shù)學期望,總體 X 的平均值,均值也是一個個元素就是 X1 這個變量的均值,以此

32、類推。,的第一協(xié)方差矩陣,總體協(xié)方差陣,對 P 個變量求 Var。b)特征與特征值由上述式子化簡可得我們希望 Z1 的方差達到最大,即 a1 是約束優(yōu)化的解。將兩式整理得=a1aa 是 矩陣的特征,a1 是相對于特征的特征值。對該式變換得1=1為第一主成分(z1 為則 a1 是 最大特征值的特征,此時,稱以 a1里的元素作為系數(shù),然后對 X 做一個線性組合)類似地,希望 Z2 的方差達到最大,并且要求0,稱為第二主成分。(2)主成分的性質(zhì)a) 主成分的均值和協(xié)方差陣通過上式得b) 主成分的總方差與貢獻率由于所以其中是協(xié)方差矩陣的第 i 個對角元素,由此可以看出,主成分分析把 p 個原始變量 X

33、1,X2,Xp 的總方差分解成了 p 個不相關(guān)變量 Z1,Z2,,Zp 的方差值和。稱總方差中第 i 主成分 Zi 的比例為主成分 Zi 的貢獻率,第一主成分 Z1 的貢獻率最大,表明它解釋原始變量 X1,X2,Xp 的能力最強,而 Z2,Z3,Zp 的解釋能力依次遞減。稱前 m 個主成分的貢獻率之和率。為主成分 Z1,Z2,Zm 的累積貢獻c) 載荷 loadings原始變量對主成分的影響,可以表示為稱 qji 為第i 主成分在第 j 個原始變量 Xj 上的載荷(loading),它度量了 Xj 對 Zi 的重要程度。3.1.5 相關(guān)的 R 函數(shù)(1)princomp 函數(shù)做主成分分析最主要

34、的函數(shù),其使用格式如下:Princomp(formula,data=NULL,)其中 formula 是沒有響應(yīng)變量的公式,data 是數(shù)據(jù)框?;蛘?princomp(x,cor=FALSE,scores=TRUE,covmat=NULL,)其中 x 是用于主成分分析的數(shù)據(jù),以數(shù)值矩陣或數(shù)據(jù)框的形式給出;cor 是邏輯變量,當 cor=TRUE 表示樣本的相關(guān)矩陣R 作主成分分析,當 cor=FALSE 表示用樣本的協(xié)方差 S 作主成分分析;covmat 是協(xié)方差陣,如果數(shù)據(jù)不用 x 提供,可由協(xié)方差陣提供。(2)summary 函數(shù)summary()函數(shù)與回歸分析中的用法相同summary(

35、object,loadings=TRUE,)其中 object 是 princomp()得到的對象;loadings 是邏輯變量,loadings=TRUE 表示顯示 loadings 的內(nèi)容。(3)Loadings 函數(shù)Loadings() 函數(shù)是顯示主成分分析和因子分析中l(wèi)oadings(載荷)的內(nèi)容,在主成分分析中, 該內(nèi)容實際上是主成分對應(yīng)的各列,即前面的分析的正交矩陣 Q。在因子分析中,其內(nèi)容就是載荷因子矩陣。Loadings()函數(shù)的使用格式為Loadings(x)其中 x 是函數(shù) princomp()或 factanal()得到的對象。(4)Predict 函數(shù)Predict()

36、函數(shù)是主成分的值,其使用格式為 predict(object,newdata,)其中 objec是由 Princomp()得到的對象;newdata 是由已有數(shù)據(jù)的主成分值。值的數(shù)據(jù)框,當 newdata 為默認值時,(5)Screeplot 函數(shù)Screeplot()函數(shù)是畫出主成分的碎石圖,其使用格式為Screeplot(x,npcs=min(10,length(x$sdev),type=c(“barplot”,”lines”),)其中 X 是由princomp()得到的對象;npcs 是畫出的主成分的個數(shù);type 是描述畫出的碎石圖的類型,其中“barplot”是直方圖類型,“l(fā)ine

37、s”是直線圖類型。3.1.6 實例展示(1)例 9.1> student=data.frame(+ x1=c(148,139,160,149,159,142,153,150,151,139,+140,161,158,140,137,152,149,145,160,156,151,147,157,147,157,151,144,141,139,148),+ x2=c(41,34,49,36,45,31,43,43,42,31,+29,47,49,33,31,35,47,35,47,44,42,38,39,30,48,36,36,30,32,38),+ x3=c(72,71,77,67,80

38、,66,76,77,77,68,+64,78,77,67,66,73,82,70,74,78,73,73,68,65,80,74,68,67,68,70),+ x4=c(78,76,86,79,86,76,83,79,80,74,+ )74,84,83,77,73,79,79,77,87,85,82,78,80,75,88,80,76,76,73,78)#用數(shù)據(jù)框形式輸入數(shù)據(jù)函數(shù)中的 student 表示所有變量都參加主成分分析,cor=TRUE 表> student.pr=princomp(student,cor=TRUE)示用相析的計算數(shù)矩陣來做主成分分> summary(st

39、udent.pr,loadings=TRUE)#提取主成分的信息> student.pr=princomp(student,cor=TRUE)該語句可替換為> student.p=princomp(X1+X2+X3+X4,data=student,cor=TRUE)二者是等價的由于在 summary()函數(shù)的參數(shù)中選取了 loadings=TRUE,因此列出了 loadings(載荷)的內(nèi)容,它實際上是主成分對應(yīng)于原始變量 X1,X2,X3,X4 的系數(shù),即前面的到的矩陣 Q,因此由于前兩個累積貢獻率已達到 96%,另外兩個主成分可以省去,達到降維的目的。> screeplot(student.pr,type="lines")> screeplot(student.pr,type="barplot")(2)分析對主成分分析的進一步深入理解參看分析文檔。3.2 因子分析3.2.1 什么是因子分析因子分析是主成分分析的推廣和發(fā)展,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論