




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、生態(tài)學(xué)統(tǒng)計(jì)分析方法與實(shí)踐生態(tài)學(xué)統(tǒng)計(jì)分析方法與實(shí)踐 郝彥賓郝彥賓中國科學(xué)院研究生院中國科學(xué)院研究生院第八章第八章 多變量統(tǒng)計(jì)分析多變量統(tǒng)計(jì)分析多變量統(tǒng)計(jì)分析 (multivariate statistical analysis) 統(tǒng)計(jì)資料中有多個(gè)變量(或稱因素、指標(biāo))同時(shí)存在時(shí)的統(tǒng)計(jì)分析,是統(tǒng)計(jì)學(xué)的重要分支,是單變量統(tǒng)計(jì)的發(fā)展。 -多元回歸分析 逐步回歸、嶺回歸、多項(xiàng)式回歸和分類數(shù)據(jù)-主成分分析-因子分析-典型相關(guān)分析-聚類分析-判別分析8.1多元回歸分析多元回歸分析多元回歸分析(Multiple Regression Analysis) 研究一個(gè)依變量對兩個(gè)或多個(gè)自變量(且自變量均為一次項(xiàng))依
2、存關(guān)系的統(tǒng)計(jì)分析方法。解決的問題:確定各個(gè)自變量對于某一依變量的綜合效應(yīng)在大量自變量中,選擇僅對依變量有顯著效應(yīng)的自變量,建立最優(yōu)的多元回歸方程評定各個(gè)自變量對于依變量的相對重要性確定各個(gè)自變量對某一依變量的各自效應(yīng)(偏回歸系數(shù))8.1.1一般線性回歸分析過程REG過程格式PROC REG 選擇項(xiàng); model 依變量表=自變量表/選擇項(xiàng); by 變量表; var 變量表; Output out=輸出數(shù)據(jù)集 關(guān)鍵字=新變量表;lPROC REG 選擇項(xiàng)說明: Data=數(shù)據(jù)集Outsscp=數(shù)據(jù)集 儲(chǔ)存變量的平方和與叉積矩陣指定輸出的統(tǒng)計(jì)信息:Simple 輸出每個(gè)變量的基本統(tǒng)計(jì)量Corr 輸
3、出model語句或var語句中所列變量的相關(guān)矩陣Usscp 輸出過程所用變量的平方和與叉積矩陣All 輸出所有可能的統(tǒng)計(jì)信息。lModel語句:Noint 指定擬合回歸模型中不包括截距項(xiàng)(常數(shù))Stb 輸出標(biāo)準(zhǔn)偏回歸系數(shù)Collin 進(jìn)行自變量之間的共線性分析Predicted 或P 輸出實(shí)際觀察值、預(yù)測值及其殘差等Residual 或R 進(jìn)行殘差分析DW 檢驗(yàn)回歸方程中是否存在自相關(guān)CLM 輸出依變量平均數(shù)的95%的置信區(qū)間上下限CLI 輸出依變量預(yù)測值95%置信區(qū)間上下限lOUTPUT語句 P、R、U95、L95、student (學(xué)生氏殘差)例題:測定某生態(tài)系統(tǒng)土壤含氮量(x1,%)、含
4、磷量(x2,%)和其生產(chǎn)力的關(guān)系(y,g/m2),得結(jié)果如下,試做二元回歸方程。22iiixbby標(biāo)準(zhǔn)偏回歸系數(shù):結(jié)結(jié) 果果回歸方程的顯著水平達(dá)到了0.0001,說明各個(gè)自變量的綜合對依變量y有真實(shí)的回歸關(guān)系,且自變量x1和x2對依變量y的偏回歸顯著水平分別達(dá)到0.0001和0.0003,說明x1和x2對依變量y有真實(shí)的回歸關(guān)系?;貧w方程:y=-351.74+24.80 x1+9.36x2由標(biāo)準(zhǔn)偏回歸系數(shù)的分析結(jié)果表明,土壤含N量每增加一個(gè)標(biāo)準(zhǔn)差單位,生產(chǎn)力平均增加1.3166個(gè)標(biāo)準(zhǔn)差單位;土壤含P每增加一個(gè)標(biāo)準(zhǔn)差單位,生產(chǎn)力平均增加0.9580個(gè)標(biāo)準(zhǔn)差單位。所以,N的增加比P的增加效應(yīng)要大一
5、些。除非自變量全部取值為除非自變量全部取值為0 0,或者截距項(xiàng)的估計(jì)值與,或者截距項(xiàng)的估計(jì)值與0 0相差很?。ㄔ谝辉貧w中反映為擬合直線可能通相差很小(在一元回歸中反映為擬合直線可能通過原點(diǎn)),在線性回歸分析中我們不用考慮對截過原點(diǎn)),在線性回歸分析中我們不用考慮對截距項(xiàng)(常數(shù)項(xiàng))的顯著性檢驗(yàn)是否能通過。距項(xiàng)(常數(shù)項(xiàng))的顯著性檢驗(yàn)是否能通過。例題:某生態(tài)系統(tǒng)的生產(chǎn)力大小受到光照時(shí)數(shù)、平均年溫度、降雨量和降雨時(shí)數(shù)的影響,根據(jù)多年的觀測的結(jié)果,試擬合預(yù)測模型。.共線性是指某一指標(biāo)量值可以表示成其它幾個(gè)指標(biāo)量值的共線性是指某一指標(biāo)量值可以表示成其它幾個(gè)指標(biāo)量值的線性組合線性組合. .評估指標(biāo)間存在共
6、線性的影響是導(dǎo)致評估結(jié)果推斷上的不評估指標(biāo)間存在共線性的影響是導(dǎo)致評估結(jié)果推斷上的不穩(wěn)定的穩(wěn)定的原因并造成較大的推斷誤差原因并造成較大的推斷誤差 . .回歸方程達(dá)到極顯著水平suntime和pday的偏回歸系數(shù)不顯著,可從方程中剔除比較條件指數(shù)最大值所在行的系數(shù),系數(shù)較大的那些個(gè)自變量具有加大的共線性可能出現(xiàn)共線性的情況:1.偏回歸系數(shù)的大小和方向明顯與常識(shí)不同2.從專業(yè)角度看對應(yīng)變量有影響的因素,卻不能入選3.去掉一兩個(gè)變量,方程的回歸系數(shù)值發(fā)生劇烈的變化4.整個(gè)Model的檢驗(yàn)有統(tǒng)計(jì)學(xué)意義,而model包含的所有自變量均無統(tǒng)計(jì)學(xué)意義221(1)inpniRRnp其 中 當(dāng) 有 截 距 項(xiàng)
7、時(shí) 為 1, 否 則 為 0;是 用 于 擬 合 模 型 的 觀 測 個(gè) 數(shù) ;是模 型 中 參 數(shù) 的 個(gè) 數(shù) 。在回歸分析中,當(dāng)所處理的數(shù)據(jù)與時(shí)間序列有關(guān)時(shí),其預(yù)測誤差往往是前后關(guān)聯(lián)的。檢驗(yàn)這種相關(guān)程度的大小,可選用DUEBIN-WATSON統(tǒng)計(jì)量。DW=2:誤差間完全沒有相關(guān)程度的大小。DW=0 or DW=4 :誤差間有正或負(fù)的線性相關(guān)。Adjrsq:決定系數(shù)準(zhǔn)則。Cp準(zhǔn)則:從預(yù)測觀點(diǎn)出發(fā),基于殘差平方和的一個(gè)準(zhǔn)則。按Cp準(zhǔn)則應(yīng)選擇除全模型外,Cp值與P(P個(gè)自變量)最接近的模型。VIF:方差膨脹因子。如果VIF10多重共線性就會(huì)嚴(yán)重影響參數(shù)估計(jì)值。VIF=1,表示自變量xi與其他變量
8、間不存在線性相關(guān)。AIC信息量準(zhǔn)則:應(yīng)選擇使AIC最小的模型。 AIC=nln(SSEp/n)+2p 多重共線性多重共線性 對于模型 Yi=0+1X1i+2X2i+kXki+i i=1,2,n (2.8.1)其基本假設(shè)之一是解釋變量X1,X2 , , Xk是互相獨(dú)立的。如果某兩個(gè)或多個(gè)解釋變量之間出現(xiàn)了相關(guān)性,則如果某兩個(gè)或多個(gè)解釋變量之間出現(xiàn)了相關(guān)性,則稱為稱為多重共線性多重共線性。backback 完全共線性下參數(shù)估計(jì)量不存在完全共線性下參數(shù)估計(jì)量不存在多元線性模型 YX的普通最小二乘參數(shù)估計(jì)量為: () X XX Y1 (2.6.4)如果存在完全共線性,則如果存在完全共線性,則(XX)
9、(XX) -1-1不存在,無法不存在,無法得到參數(shù)的估計(jì)量。得到參數(shù)的估計(jì)量。例例如如:對一個(gè)離差形式的二元回歸模型 2211xxy 如果兩個(gè)解釋變量完全相關(guān),如12xx,則有221212212121221221211iiiiiiiiiiixxxxxxxxxxxXX1121iiiiiiyxyxyxYX該回歸模型的正規(guī)方程為 YXBX)X(或 iiiiiyxxxx1212211 iiiiiyxxxx2222121解該線性方程組得:002122121212121211221221212222111iiiiiiiiiiiiiiiiiiiiiiixxxxxyxxyxxxxxxxxyxxxyx1為不定式
10、; 同理,2也為不定式,其值無法確定。事實(shí)上,當(dāng)12xx時(shí),原二元回歸模型退化為一元回歸模型: 121)(xy只能確定綜合參數(shù)21的估計(jì)值:21121iiixyx. 例: 研究耗氧量模型。這是有關(guān)身體適應(yīng)性測試的例子,肺活量與一些簡單的鍛煉測試數(shù)據(jù)的擬合,目的是為了在鍛煉測試的基礎(chǔ)上而不是在昂貴笨重的氧氣消耗測試的基礎(chǔ)上得到方程來預(yù)測適應(yīng)性。這是一個(gè)對31位成年人心肺功能的調(diào)查結(jié)果,它包含的變量和測試的各項(xiàng)數(shù)據(jù)見表:通過在SAS/Insight軟件中繪制散點(diǎn)圖矩陣,操作步驟為:在SAS命令框中鍵入insight后按Enter,在SAS/Insight:Open對話單中,選擇work.fitne
11、ss數(shù)據(jù)集后單擊Open按鈕,將在屏幕的窗口中顯示當(dāng)前打開的數(shù)據(jù)集work.fitness內(nèi)容,再選擇菜單上的Analyze/Scatter Plot(Y X)命令,在出現(xiàn)的Scatter Plot(Y X)對話單中,把fitness數(shù)據(jù)集中的7個(gè)變量依上面的次序全部加入Y軸和X軸的列表框中,最后單擊OK。Age的變化范圍ss1是按model語句中自變量的排列順序依次計(jì)算每個(gè)自變量的平方和,也稱為第一類平方和或稱順序平方和,ss2是把model語句中每個(gè)自變量排到變量列表的最后,所計(jì)算的一類平方和,稱為第二類平方和。通過分析每個(gè)自變量的這兩類平方和,能知道回歸模型總的平方和的構(gòu)成和各個(gè)自變量所
12、貢獻(xiàn)的平方和,進(jìn)而能知道哪些自變量是最重要的回歸變量,哪些回歸變量可能是無關(guān)緊要的,配合參數(shù)估計(jì)的t檢驗(yàn),最終為縮減回歸變量提供依據(jù),達(dá)到簡化模型的目的。Type I SS:截距INTERCEP的Type I SS為 ny2,稱為修正均值=3147.375812=69578。Type I SS(maxpulse)=RSS(model oxygen=age maxpulse )RSS(model oxygen=age);Type II SS:Type II SS(age)=RSS(model oxygen=maxpulse rstpulse runpulse runtime weight age
13、 )RSS(model oxygen= maxpulse rstpulse runpulse runtime weight)721.97=78.98+142.35+82.44+98.36+310.36+9.444RSS:RSS:離差平方和離差平方和8.1.2 8.1.2 逐步回歸分析逐步回歸分析作用 自動(dòng)從大量可選擇的變量中,選擇對建立回歸方程重要的變量。選擇變量的方法 1.前進(jìn)法(FORWARD) 事先定一個(gè)選入的標(biāo)準(zhǔn)。開始時(shí),方程中只含常數(shù)項(xiàng),按自變量對y的貢獻(xiàn)大小由大到小依次選入方程。每選入一個(gè)自變量,則要重新計(jì)算未被剔除的各變量對y的貢獻(xiàn)大小,直到方程中所有變量均不符合剔除標(biāo)準(zhǔn),沒有變
14、量可以剔除為止。自變量一旦被剔除,則不能再進(jìn)入模型。2. 后退法(BACKWARD) 從模型含有所有變量開始,每次從模型中剔除一個(gè)對依變量貢獻(xiàn)最小的變量。一個(gè)變量一旦被剔除,就不能在進(jìn)入模型。3.逐步法(STEPWISE)(最常用) 每次引入模型一個(gè)最顯著的變量,然后考慮從模型中剔除一個(gè)最不顯著的變量,直到?jīng)]有變量可以引入也沒有變量可以剔除為止。選擇自變量要靠有關(guān)專業(yè)知識(shí)選擇自變量要靠有關(guān)專業(yè)知識(shí)! !4.請求R2最大準(zhǔn)則法(Rsquare) 按給定樣本的R2大小準(zhǔn)則選擇最優(yōu)的自變量子集,但不能保證對總體或其他樣本而言是最優(yōu)的;5. Mallows的Cp統(tǒng)計(jì)量 (Cp)是一個(gè)誤差平方總和的量度
15、。P是模型中包括截距項(xiàng)的參數(shù)個(gè)數(shù),MSE是滿模型時(shí)均方誤差,ESSp是具有P個(gè)自變量(包括截距項(xiàng))回歸模型的誤差平方和。作Cp與P的曲線圖,Matlows建議取Cp 首次接近P的地方的模型。6. slentry= 值值指出向前選擇和逐步技術(shù)中選擇變指出向前選擇和逐步技術(shù)中選擇變量進(jìn)入模型的顯著水平。如果省略,那么量進(jìn)入模型的顯著水平。如果省略,那么stepwise過程便對向前選擇技術(shù)置過程便對向前選擇技術(shù)置slentry= 0.5,對逐步技術(shù),對逐步技術(shù)置置slentry0.15。7. slstay= 值值指出向后淘汰與逐步技術(shù)中變量留指出向后淘汰與逐步技術(shù)中變量留在模型里的顯著水平。如果省略
16、,則逐步技術(shù)用在模型里的顯著水平。如果省略,則逐步技術(shù)用0.15,向后淘汰技術(shù)用,向后淘汰技術(shù)用0.10。逐步回歸的逐步回歸的SAS實(shí)現(xiàn)實(shí)現(xiàn)REG過程的語法格式和一般多元回歸分析的語法相同,只是在MODEL語句的選擇項(xiàng)要添加:SELECTIONFORWARD()SELECTIONBACKWARD(B)SELECTIONSTEPWISE(S)逐步回歸的基本思想逐步回歸的基本思想: :將變量一個(gè)一個(gè)引入,引入變將變量一個(gè)一個(gè)引入,引入變量的條件是偏回歸平方和經(jīng)檢驗(yàn)是顯著的,同時(shí)每引量的條件是偏回歸平方和經(jīng)檢驗(yàn)是顯著的,同時(shí)每引入一個(gè)新變量后,對已選入的變量要進(jìn)行逐個(gè)檢驗(yàn),入一個(gè)新變量后,對已選入的
17、變量要進(jìn)行逐個(gè)檢驗(yàn),將不顯著變量剔除,這樣保證最后所得的變量子集中將不顯著變量剔除,這樣保證最后所得的變量子集中的所有變量都是顯著的。這樣經(jīng)若干步以后便得的所有變量都是顯著的。這樣經(jīng)若干步以后便得“最最優(yōu)優(yōu)”變量子集。變量子集。 stepwise并不能保證給你“最好”的模型,甚至具有最大R2的模型也不一定是“最好”的,并且靠這些均值演變得來的模型沒有一個(gè)可以保證它精確地描述了真實(shí)的生物學(xué)過程。.)2(PNMSEESSCpPMallowsMallows的的C Cp p統(tǒng)計(jì)量統(tǒng)計(jì)量, ,是一個(gè)誤差平方總和的量度是一個(gè)誤差平方總和的量度P P是模型中包括截距項(xiàng)的參數(shù)個(gè)數(shù),是模型中包括截距項(xiàng)的參數(shù)個(gè)數(shù)
18、,MSEMSE是滿模是滿模型時(shí)均方誤差,型時(shí)均方誤差,ESSESSp p是具有是具有P P個(gè)自變量(包括個(gè)自變量(包括截距項(xiàng))回歸模型的誤差平方和截距項(xiàng))回歸模型的誤差平方和. .定性數(shù)據(jù)的多元回歸定性數(shù)據(jù)的多元回歸多元回歸分析中,要求因變量為服從正態(tài)分布的定量變量,而自變量既可以是定量變量, 也可以是定性變量。通常定量變量的觀察結(jié)果可以直接用于回歸分析而定性變量需進(jìn)行合理的賦值方能用于回歸分析。問題:已知影響氮沉降的因素有降雨、空氣溫 度、空氣濕度、風(fēng)速和季節(jié),試分析氮沉降和它們的關(guān)系。1.定性變量的種類:分為分類變量和有序變量兩種。前者又稱名義變量 或計(jì)數(shù)資料,后者又稱等級(jí)資料。2. 定性
19、變量的原始記錄形式:定性變量的取值稱作水平。3. 回歸分析中有序變量的賦值 按照各水平間合理的或易解釋的距離分別賦以一定的數(shù)值這些數(shù)值可以距離不相等。4. 回歸分析中分類變量的賦值 分類變量的取值是無序的,分類變量的取值1,2,3,4. 只是為了數(shù)據(jù)記錄的便利而設(shè)定的代碼,不能由其平均數(shù)作為該分類變量的平均水平,對資料進(jìn)行描述也不能直接參與回歸分析等計(jì)算 。對于二分類變量,常用0和1來編碼,但賦值可以任意取值。5.啞變量(虛擬變量)的引入如果水平總數(shù)為n,應(yīng)引入n-1個(gè)啞變量。例題中季節(jié)有4個(gè)水平,應(yīng)引入4-1=3個(gè)啞變量??捎么禾鞛閷φ辗謩e引入3個(gè)啞變量。春天(X51=0,X52=0,X53
20、=0);夏天( X51=1,X52=0,X53=0);秋天( X51=0,X52=1,X53=0);冬天(X51=0,X52=0,X53=1);Y=1+1D+1X+Y=1+1D+1X+結(jié)論:氮沉降與降雨量和風(fēng)速有關(guān)。No=0.04+0.00006X1-0.01X4-0.08X53結(jié)論:氮沉降與降雨量(X1)和風(fēng)速(X4)有關(guān), 在其他條件不變的情況下,降雨量每增加1mm,氮沉降增加0.00006個(gè)單位,風(fēng)速每增加1個(gè)單位,氮沉降減少0.01個(gè)單位。和春天相比,冬季的氮沉降比較低。8.1.3 多項(xiàng)式回歸多項(xiàng)式回歸格式:PROC RSREG 選擇項(xiàng); Model 響應(yīng)變量=自變量 /選擇項(xiàng); Ri
21、dge 選擇項(xiàng); Id 變量表;Weight 變量表;By 變量表;Model 響應(yīng)變量=自變量 /選擇項(xiàng);指定模型擬合方法:Lackfit(對自變量先排序);Cover=n(指定前n個(gè)自變量為簡單的線性共變量);Byout(與by語句并用)。必需語句上述分析的結(jié)果可用來解答下列的問題1. 到底多項(xiàng)式中的一次式二次式或相乘積對因變量 (Y) 的變異數(shù)的解釋量最大?2. 這種多項(xiàng)式的模型是否合理?3. 多項(xiàng)式中哪些項(xiàng)是多余的?4. 多項(xiàng)式中哪些項(xiàng)的組合是最精簡的?5. 多項(xiàng)式模型的幾何表示方法是一個(gè)平面一個(gè)拋物線還是一個(gè)馬鞍的形狀?6. 到底 Y 的預(yù)測值是多少?例題:測定氮素的不同施用量(x1
22、,百磅/英畝)和收獲期(x2,每期間隔三周)對糖甜菜根產(chǎn)量(y,噸/4英畝)的影響,試作y對x1、x2的二元多項(xiàng)式回歸方程。Mi=(Xi(max)+Xi(min)/2Si=(Xi(max)-Xi(min)/2Code=(原始值-Mi)/Si模型中,一次項(xiàng)、二次項(xiàng)和交叉項(xiàng)達(dá)到極顯著水平,由原變量建立的方程為:221211 2217.87 30.210.59.281.210.42yxxxxxx對X1和X2的因子檢驗(yàn),即對含有x1和x2因子的所有參數(shù)的聯(lián)合檢驗(yàn)。 本例題的數(shù)據(jù)由 John (1971) 提供。 Schneider 與 Stockett 于 1963 年做了一個(gè)實(shí)驗(yàn),這個(gè)實(shí)驗(yàn)的目的在降
23、低一個(gè)化學(xué)藥品的臭氣 (ODOR)。 他們檢查了三個(gè)有關(guān)的自變量溫度(X1) 、瓦斯與水的比率 (X2) 以及裝箱的高度 (X3), 每一個(gè)自變量以一次式二次式及兩兩變量的相乘積納入回歸模型中。擬合不足顯著時(shí),在模型中可能存在隨機(jī)誤差之外的其他變差(如因子變量的三次效應(yīng))為研究溫度對某微生物菌絲生長的影響,在7種溫度條件下培養(yǎng)微生物,其菌絲平均生長情況列于表,試建立微生物菌絲長度以溫度變化的多項(xiàng)式回歸方程。溫度(x,)10 15 20 25 30 35 40菌絲長度(y,cm)1.33 1.60 3.64 5.48 6.16 4.25 0.64對15名不同程度的煙民的每日飲酒量與其心電圖指標(biāo)的
24、對應(yīng)數(shù)據(jù)。試建立擬合這些數(shù)據(jù)的模型。趨勢模型 概率P值PrF R-square Root MSECoeff VarDurbin-Waston D一階0.00010.954918.875.431.36二階0.00010.983513.163.792.69三階0.00010.982613.673.942.68四階0.00190.988616.424.733.02協(xié)方差分析協(xié)方差分析協(xié)方差分析(協(xié)方差分析(analysis of covarianceanalysis of covariance)是將回歸分析與方差分析結(jié)合起來使用的一種分析方法。當(dāng)定量的影響因素對觀察結(jié)果有難以控制的影響,甚至還有交互
25、作用時(shí),采用協(xié)方差分析,這些影響變量稱為協(xié)變量,扣除(或消除)協(xié)變量的影響,可以得到修正后的均值估計(jì)。基本思想基本思想在試驗(yàn)設(shè)計(jì)中,對主要變量y研究時(shí),希望其他可能影響和干擾y的變量保持一致以到達(dá)均衡或可比,使試驗(yàn)誤差的估計(jì)降到最低限度,從而可以準(zhǔn)確地獲得處理因素的試驗(yàn)效應(yīng)。但是有時(shí),這些變量難以控制,或者根本不能控制。為此需要變量看作自變量或稱協(xié)變量。建立因變量y隨協(xié)變量變化的回歸方程,就可以利用回歸分析把因變量y中受協(xié)變量影響的因素扣除掉,從而,能夠較合理地比較定性的影響因素處在不同水平下,經(jīng)過回歸分析手段修正以后的因變量的總體均值之間是否有顯著性的差別。協(xié)方差分析需要滿足的假定協(xié)方差分析
26、需要滿足的假定1.1.各樣本來自具有相同方差 的正態(tài)分布總體, 即要求各組方差齊性;2.協(xié)變量與主要變量y間的總體回歸系數(shù)不等于0;3.各組的回歸線平等,即回歸系數(shù);4.協(xié)變量是定量變量,并且和處理因素不能有交互作用。21其中x為協(xié)變量, xij為協(xié)變量在分類水平i和j上的記錄值, 為所有協(xié)變量的平均值, 為相關(guān)的回歸系數(shù)例1:為研究A,B,C三種N添加對生產(chǎn)力影響的結(jié)果,隨機(jī)選取24個(gè)樣方,第一年記下各個(gè)樣方的生產(chǎn)力(x, kg),第二年將每種N隨機(jī)施與8塊樣方,再記下其產(chǎn)量(y,kg),得結(jié)果如下,試分析三種N對生產(chǎn)力是否具有影響?處理步驟:1.測驗(yàn)x和y是否存在直線回歸關(guān)系。即對處理內(nèi)項(xiàng)
27、(誤差項(xiàng))做回歸分析,若無直線回歸關(guān)系,則表明資料只能用y變數(shù)值作方差分析,x變數(shù)值不能提供新的信息。若存在顯著的直線回歸關(guān)系,要作協(xié)方差分析2.測驗(yàn)矯正平均數(shù)間的差異顯著性。而在協(xié)方差分析中,分組變量trt的類型1的平方和等于方差分析中的平方和60.75,分組變量trt的類型3的平方和為222.84,大于類型1的平方和,是因?yàn)轭愋?的平方和反映了經(jīng)過共同的協(xié)變量x調(diào)整后的平方和,類型1是一種未經(jīng)過調(diào)整的平方和,因?yàn)樗膬?yōu)先級(jí)高于協(xié)變量的調(diào)整。在協(xié)方差分析中,實(shí)驗(yàn)效果的檢定是根據(jù)第三型的離差平方和而非第一型solution的輸出結(jié)果,對模型中的截距、各分組變量和協(xié)變量的回歸系數(shù)進(jìn)行估計(jì)和檢驗(yàn),
28、在這個(gè)單因素trt的情況下,估計(jì)是以最后一個(gè)水平trtc(trt=c)為對照組,并且設(shè)置它的系數(shù)為0,因此截距intercept的估計(jì)值是分組trtc的估計(jì)值。其他2個(gè)分組trt的系數(shù)估計(jì)是每一個(gè)與trtc進(jìn)行比較而得到的。字母“B”表示并非唯一的估計(jì)值。協(xié)變量x的系數(shù)是合并各組內(nèi)y和x所得到的回歸系數(shù),即是由3個(gè)獨(dú)立的trt分組,分別回歸y和x后得到回歸系數(shù)然后加權(quán)平均,其t=17.90,p 0.8的值是最好的,0.50.5。它是各。它是各f對對xi的決定系數(shù)。其值越大,的決定系數(shù)。其值越大,xi對各對各f的依賴性愈大。的依賴性愈大。第一類反應(yīng)了物質(zhì)和社會(huì)條件,第二類反應(yīng)了播種面積,第三類反
29、應(yīng)了萌發(fā)期的溫度,第四類反應(yīng)的是降雨量。方差最大正交旋轉(zhuǎn)方差最大正交旋轉(zhuǎn): :可使每個(gè)因子上的具有最大載荷的變量可使每個(gè)因子上的具有最大載荷的變量數(shù)最小,因此可以簡化對因子的解釋?;蛘哒f使因子負(fù)荷數(shù)最小,因此可以簡化對因子的解釋。或者說使因子負(fù)荷兩極分化,要么接近于兩極分化,要么接近于0 0,要么接近于,要么接近于1 1。如果公共因子仍。如果公共因子仍然沒有明顯的意義時(shí),可以進(jìn)行斜交變換(然沒有明顯的意義時(shí),可以進(jìn)行斜交變換(R=promaxR=promax)。)。表達(dá)式:表達(dá)式:x1x1=-0.02F1+0.97F2+0.05F3-0.08F4=-0.02F1+0.97F2+0.05F3-0
30、.08F4 因子得分模型同時(shí)也是主成分分析的結(jié)果。為了使公因子到表達(dá)式的左邊,從而進(jìn)行轉(zhuǎn)置。例如:F1=-0.19x1+0.01x2+0.10 x3+0.15x4+0.27x5+0.26x6+0.34x7+0.13x8+0.05x9八、因子分析應(yīng)用的注意事項(xiàng)應(yīng)用條件應(yīng)用條件(1)變量是計(jì)量的,能用線性相關(guān)系數(shù))變量是計(jì)量的,能用線性相關(guān)系數(shù)(Pearson積叉相關(guān)系數(shù))表示它們之積叉相關(guān)系數(shù))表示它們之間的相關(guān)性。間的相關(guān)性。(2)總體的同質(zhì)性)總體的同質(zhì)性樣本量樣本量 沒有估計(jì)公式。至少要保證樣本相關(guān)系數(shù)穩(wěn)沒有估計(jì)公式。至少要保證樣本相關(guān)系數(shù)穩(wěn)定可靠。定可靠。因子數(shù)目因子數(shù)目 一般認(rèn)為,累積
31、貢獻(xiàn)要達(dá)到一般認(rèn)為,累積貢獻(xiàn)要達(dá)到80%以上。但要以上。但要注意注意Heywood現(xiàn)象?,F(xiàn)象。HeywoodHeywood現(xiàn)象現(xiàn)象: :公因子方差(共同度)總是在公因子方差(共同度)總是在0 0和和1 1之間,等于之間,等于1 1為為 Heywood Heywood現(xiàn)象?,F(xiàn)象。原因:模型不正確的設(shè)定;存在異常值;當(dāng)樣本數(shù)過小,且含少于原因:模型不正確的設(shè)定;存在異常值;當(dāng)樣本數(shù)過小,且含少于3 3個(gè)觀測變量的潛在變量。個(gè)觀測變量的潛在變量。主成份分析與因子分析的聯(lián)系及區(qū)別主成份分析與因子分析的聯(lián)系及區(qū)別1.獲得新變量(主成分變量或公因子變量),達(dá)到減少分析指標(biāo)數(shù)并概括原始指標(biāo)主要信息的目的。主
32、成分分析將m個(gè)原始變量提取k(km)個(gè)互不相關(guān)的主成份;因子分析是提取k個(gè)支配原始變量的公因子和1個(gè)特殊因子,各公因子之間可以相關(guān)或不相關(guān)。2.提取公因子的方法主要有主成份法和公因子法,若采用主成分法,則主成份和因子分析等價(jià)。3.因子分析提取的公因子比主成分分析提取的主成份更具有可解釋性。4.兩者分析的實(shí)質(zhì)及重點(diǎn)不同。5. 主成分分析表達(dá)式左邊是隱變量,右邊是原變量,因子分析正好相反,左邊是原變量,右邊是隱變量。聚類分析聚類分析l按照一批樣本(或指標(biāo))的親疏程度進(jìn)行分類分析,分類的途徑是確定樣本或變量間的距離或相似系數(shù)。l四個(gè)聚類過程 1.系統(tǒng)聚類:CLUSTER ,應(yīng)用最廣 2.動(dòng)態(tài)聚類:F
33、ASTCLUS,用于大樣本分析 3.對變量進(jìn)行系統(tǒng)聚類或動(dòng)態(tài)聚類:VARCLUS 4.TREE過程。 聚類分析無處不在聚類分析無處不在誰是銀行信用卡的黃金客戶?利用儲(chǔ)蓄額、刷卡消費(fèi)金額、誠信度等變量對客戶分類,找出“黃金客戶”!這樣銀行可以 制定更吸引的服務(wù),留住客戶!比如:一定額度和期限的免息透資服務(wù)!蘇寧電器的貴賓打折卡!在他或她生日的時(shí)候送上一個(gè)小蛋糕! 聚類分析原理介紹聚類分析原理介紹聚類分析中“類”的特征:聚類所說的類不是事先給定的,而是根據(jù)數(shù)據(jù)的相似性和距離來劃分;聚類的數(shù)目和結(jié)構(gòu)都沒有事先假定。聚類分析原理介紹聚類分析原理介紹聚類方法的目的是尋找數(shù)據(jù)中:潛在的自然分組結(jié)構(gòu)a st
34、ructure of “natural” grouping感興趣的關(guān)系relationship聚類分析原理介紹聚類分析原理介紹什么是自然分組結(jié)構(gòu)Natural grouping ?我們看看以下的例子:有16張牌如何將他們分為 一組一組的牌呢?AKQJ聚類分析原理介紹聚類分析原理介紹分成四組每組里花色相同組與組之間花色相異AKQJ花色相同的牌為一副花色相同的牌為一副Individual suits聚類分析原理介紹聚類分析原理介紹分成四組符號(hào)相同的牌為一組AKQJ符號(hào)相同的的牌符號(hào)相同的的牌Like face cards聚類分析原理介紹聚類分析原理介紹分成兩組顏色相同的牌為一組AKQJ顏色相同的配
35、對顏色相同的配對Black and red suits聚類分析原理介紹聚類分析原理介紹分成兩組大小程度相近的牌分到一組AKQJ大配對和小配對大配對和小配對Major and minor suits聚類分析原理介紹聚類分析原理介紹這個(gè)例子告訴我們,分組的意義在于我們怎么定義并度量“相似性”Similar因此衍生出一系列度量相似性的算法AKQJ大配對和小配對大配對和小配對Major and minor suits聚類分析原理介紹聚類分析原理介紹相似性Similar的度量(統(tǒng)計(jì)學(xué)角度)距離Q型聚類(主要討論)主要用于對樣本分類常用的距離有(只適用于具有間隔尺度變量的聚類):明考夫斯基距離(包括:絕對
36、距離、歐式距離、切比雪夫距離)蘭氏距離馬氏距離斜交空間距離相似系數(shù)R型聚類用于對變量分類,可以用變量之間的相似系數(shù)的變形如1rij定義距離變量按測量尺度(Measurement Level)分類間隔(Interval)尺度變量連續(xù)變量,如長度、重量、速度、溫度等有序(Ordinal)尺度變量 等級(jí)變量,不可加,但可比,如一等、二等、三等獎(jiǎng)學(xué)金名義(Nominal)尺度變量 類別變量,不可加也不可比,如性別、職業(yè)等過程格式:PROC CLUSTER METHOD=聚類算法 選擇項(xiàng);VAR 變量表;ID 變量;COPY 變量表;FREQ 變量;RMSSTD 變量;BY 變量表;PROC CLUSTER 選項(xiàng)串:(1) DATA= 輸入資料文件名稱(2) OUTTREE= 輸出資料文件名稱,供tree過程調(diào)用(3) METHOD= 聚類算法 M=ave 類平均法;M=COM 最長距離法; M=WAR 離差平方和法(應(yīng)用最廣泛)其他選擇項(xiàng):STD: 對原始數(shù)據(jù)標(biāo)準(zhǔn)化(以克服變量的不同量綱和量級(jí)的影響);RMSSTD:輸出標(biāo)準(zhǔn)差均方根,RSQUARE:輸出R2及偏R2 ,R2值越大,偏R2 越小,聚類效果越好。PSEDO:輸出偽F值(標(biāo)志為PSF:用于評價(jià)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 淋巴瘤靶向及免疫治療手冊閱讀札記
- JavaScript Vue.js前端開發(fā)任務(wù)驅(qū)動(dòng)式教程-課件 模塊八 Vue.js基礎(chǔ)知識(shí)及應(yīng)用
- 2025年1-6年級(jí)小學(xué)語文成語+規(guī)律詞(AABB與ABCC和AABC)填空練習(xí)
- 海洋項(xiàng)目投資效益分析
- 老年護(hù)理培訓(xùn)教學(xué)課件
- 2025年按摩浴缸市場調(diào)查報(bào)告
- 特色燒烤店品牌授權(quán)及店鋪轉(zhuǎn)讓合同
- 機(jī)器人產(chǎn)品貨款抵押智能設(shè)備合同范本
- 保險(xiǎn)理賠信息系統(tǒng)驗(yàn)收合同
- 北京民政局離婚協(xié)議書范本編制流程與范本示例
- 2025屆黑龍江省哈爾濱四十七中學(xué)七年級(jí)英語第二學(xué)期期末統(tǒng)考試題含答案
- 譯林版(2024)七年級(jí)下冊英語期末復(fù)習(xí):完形填空+閱讀理解 練習(xí)題(含答案)
- 第5章 相交線與平行線 復(fù)習(xí)課件
- 人工智能通識(shí)課程開課方案
- 廣東省廣州各區(qū)2025屆七下英語期末經(jīng)典試題含答案
- 企業(yè)科技論文管理制度
- 山東卷2025年高考?xì)v史真題
- 【中考真題】2025年福建中考數(shù)學(xué)真題試卷(含解析)
- 2025年四川省宜賓市中考數(shù)學(xué)真題試卷及答案解析
- 機(jī)械租賃投標(biāo)服務(wù)方案
- 《工程勘察設(shè)計(jì)收費(fèi)標(biāo)準(zhǔn)》(2002年修訂本)
評論
0/150
提交評論