多變量統(tǒng)計分析詳解演示文稿_第1頁
多變量統(tǒng)計分析詳解演示文稿_第2頁
多變量統(tǒng)計分析詳解演示文稿_第3頁
多變量統(tǒng)計分析詳解演示文稿_第4頁
多變量統(tǒng)計分析詳解演示文稿_第5頁
已閱讀5頁,還剩132頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

多變量統(tǒng)計分析詳解演示文稿現(xiàn)在是1頁\一共有137頁\編輯于星期五優(yōu)選多變量統(tǒng)計分析現(xiàn)在是2頁\一共有137頁\編輯于星期五§8.1多元回歸分析多元回歸分析(MultipleRegressionAnalysis)研究一個依變量對兩個或多個自變量(且自變量均為一次項)依存關系的統(tǒng)計分析方法。解決的問題:①確定各個自變量對于某一依變量的綜合效應②在大量自變量中,選擇僅對依變量有顯著效應的自變量,建立最優(yōu)的多元回歸方程③評定各個自變量對于依變量的相對重要性④確定各個自變量對某一依變量的各自效應(偏回歸系數(shù))現(xiàn)在是3頁\一共有137頁\編輯于星期五§一般線性回歸分析過程REG過程格式PROCREG[選擇項];model依變量表=自變量表/選擇項;

by變量表;

var變量表;

Outputout=輸出數(shù)據(jù)集關鍵字=新變量表;PROCREG[選擇項]說明:Data=數(shù)據(jù)集Outsscp=數(shù)據(jù)集儲存變量的平方和與叉積矩陣指定輸出的統(tǒng)計信息:Simple輸出每個變量的基本統(tǒng)計量Corr輸出model語句或var語句中所列變量的相關矩陣Usscp輸出過程所用變量的平方和與叉積矩陣All輸出所有可能的統(tǒng)計信息?,F(xiàn)在是4頁\一共有137頁\編輯于星期五Model語句:Noint指定擬合回歸模型中不包括截距項(常數(shù))Stb輸出標準偏回歸系數(shù)Collin進行自變量之間的共線性分析Predicted或P輸出實際觀察值、預測值及其殘差等Residual或R進行殘差分析DW檢驗回歸方程中是否存在自相關CLM輸出依變量平均數(shù)的95%的置信區(qū)間上下限CLI輸出依變量預測值95%置信區(qū)間上下限OUTPUT語句

P、R、U95、L95、student(學生氏殘差)現(xiàn)在是5頁\一共有137頁\編輯于星期五例題:測定某生態(tài)系統(tǒng)土壤含氮量(x1,%)、含磷量(x2,%)和其生產(chǎn)力的關系(y,g/m2),得結果如下,試做二元回歸方程。現(xiàn)在是6頁\一共有137頁\編輯于星期五現(xiàn)在是7頁\一共有137頁\編輯于星期五現(xiàn)在是8頁\一共有137頁\編輯于星期五結果回歸方程的顯著水平達到了0.0001,說明各個自變量的綜合對依變量y有真實的回歸關系,且自變量x1和x2對依變量y的偏回歸顯著水平分別達到0.0001和0.0003,說明x1和x2對依變量y有真實的回歸關系?;貧w方程:y=-351.74+24.80x1+9.36x2由標準偏回歸系數(shù)的分析結果表明,土壤含N量每增加一個標準差單位,生產(chǎn)力平均增加1.3166個標準差單位;土壤含P每增加一個標準差單位,生產(chǎn)力平均增加0.9580個標準差單位。所以,N的增加比P的增加效應要大一些?,F(xiàn)在是9頁\一共有137頁\編輯于星期五除非自變量全部取值為0,或者截距項的估計值與0相差很?。ㄔ谝辉貧w中反映為擬合直線可能通過原點),在線性回歸分析中我們不用考慮對截距項(常數(shù)項)的顯著性檢驗是否能通過?,F(xiàn)在是10頁\一共有137頁\編輯于星期五現(xiàn)在是11頁\一共有137頁\編輯于星期五例題:某生態(tài)系統(tǒng)的生產(chǎn)力大小受到光照時數(shù)、平均年溫度、降雨量和降雨時數(shù)的影響,根據(jù)多年的觀測的結果,試擬合預測模型?,F(xiàn)在是12頁\一共有137頁\編輯于星期五…..共線性是指某一指標量值可以表示成其它幾個指標量值的線性組合.評估指標間存在共線性的影響是導致評估結果推斷上的不穩(wěn)定的原因并造成較大的推斷誤差

.現(xiàn)在是13頁\一共有137頁\編輯于星期五回歸方程達到極顯著水平suntime和pday的偏回歸系數(shù)不顯著,可從方程中剔除比較條件指數(shù)最大值所在行的系數(shù),系數(shù)較大的那些個自變量具有加大的共線性可能出現(xiàn)共線性的情況:1.偏回歸系數(shù)的大小和方向明顯與常識不同2.從專業(yè)角度看對應變量有影響的因素,卻不能入選3.去掉一兩個變量,方程的回歸系數(shù)值發(fā)生劇烈的變化4.整個Model的檢驗有統(tǒng)計學意義,而model包含的所有自變量均無統(tǒng)計學意義現(xiàn)在是14頁\一共有137頁\編輯于星期五在回歸分析中,當所處理的數(shù)據(jù)與時間序列有關時,其預測誤差往往是前后關聯(lián)的。檢驗這種相關程度的大小,可選用DUEBIN-WATSON統(tǒng)計量。DW=2:誤差間完全沒有相關程度的大小。DW=0orDW=4:誤差間有正或負的線性相關?,F(xiàn)在是15頁\一共有137頁\編輯于星期五多重共線性

對于模型

Yi=0+1X1i+2X2i++kXki+i

i=1,2,…,n(2.8.1)其基本假設之一是解釋變量X1,X2,…,Xk是互相獨立的。如果某兩個或多個解釋變量之間出現(xiàn)了相關性,則稱為多重共線性。back現(xiàn)在是16頁\一共有137頁\編輯于星期五

完全共線性下參數(shù)估計量不存在如果存在完全共線性,則(X’X)-1不存在,無法得到參數(shù)的估計量。現(xiàn)在是17頁\一共有137頁\編輯于星期五現(xiàn)在是18頁\一共有137頁\編輯于星期五現(xiàn)在是19頁\一共有137頁\編輯于星期五現(xiàn)在是20頁\一共有137頁\編輯于星期五…..現(xiàn)在是21頁\一共有137頁\編輯于星期五現(xiàn)在是22頁\一共有137頁\編輯于星期五§8.1.2逐步回歸分析作用自動從大量可選擇的變量中,選擇對建立回歸方程重要的變量。選擇變量的方法

1.前進法(FORWARD)事先定一個選入的標準。開始時,方程中只含常數(shù)項,按自變量對y的貢獻大小由大到小依次選入方程。每選入一個自變量,則要重新計算未被剔除的各變量對y的貢獻大小,直到方程中所有變量均不符合剔除標準,沒有變量可以剔除為止。自變量一旦被剔除,則不能再進入模型?,F(xiàn)在是23頁\一共有137頁\編輯于星期五2.后退法(BACKWARD)從模型含有所有變量開始,每次從模型中剔除一個對依變量貢獻最小的變量。一個變量一旦被剔除,就不能在進入模型。3.逐步法(STEPWISE)(最常用)每次引入模型一個最顯著的變量,然后考慮從模型中剔除一個最不顯著的變量,直到?jīng)]有變量可以引入也沒有變量可以剔除為止?,F(xiàn)在是24頁\一共有137頁\編輯于星期五逐步回歸的SAS實現(xiàn)REG過程的語法格式和一般多元回歸分析的語法相同,只是在MODEL語句的選擇項要添加:SELECTION=FORWARD(F)SELECTION=BACKWARD(B)SELECTION=STEPWISE(S)現(xiàn)在是25頁\一共有137頁\編輯于星期五….現(xiàn)在是26頁\一共有137頁\編輯于星期五現(xiàn)在是27頁\一共有137頁\編輯于星期五§8.1.3多項式回歸格式:PROCRSREG[選擇項];Model響應變量=自變量/[選擇項];Ridge[選擇項];Id變量表;Weight變量表;By變量表;Model響應變量=自變量/[選擇項];指定模型擬合方法:Lackfit(對自變量先排序);Cover=n(指定前n個自變量為簡單的線性共變量);Byout(與by語句并用)。必需語句現(xiàn)在是28頁\一共有137頁\編輯于星期五上述分析的結果可用來解答下列的問題1.到底多項式中的一次式二次式或相乘積對因變量(Y)的變異數(shù)的解釋量最大?2.這種多項式的模型是否合理?3.多項式中哪些項是多余的?4.多項式中哪些項的組合是最精簡的?5.多項式模型的幾何表示方法是一個平面一個拋物線還是一個馬鞍的形狀?6.到底Y的預測值是多少?現(xiàn)在是29頁\一共有137頁\編輯于星期五例題:測定氮素的不同施用量(x1,百磅/英畝)和收獲期(x2,每期間隔三周)對糖甜菜根產(chǎn)量(y,噸/4英畝)的影響,試作y對x1、x2的二元多項式回歸方程?,F(xiàn)在是30頁\一共有137頁\編輯于星期五現(xiàn)在是31頁\一共有137頁\編輯于星期五Mi=(Xi(max)+Xi(min))/2Si=(Xi(max)-Xi(min))/2Code=(原始值-Mi)/Si現(xiàn)在是32頁\一共有137頁\編輯于星期五模型中,一次項、二次項和交叉項達到極顯著水平,由原變量建立的方程為:現(xiàn)在是33頁\一共有137頁\編輯于星期五對X1和X2的因子檢驗,即對含有x1和x2因子的所有參數(shù)的聯(lián)合檢驗?,F(xiàn)在是34頁\一共有137頁\編輯于星期五現(xiàn)在是35頁\一共有137頁\編輯于星期五現(xiàn)在是36頁\一共有137頁\編輯于星期五本例題的數(shù)據(jù)由John(1971)提供。Schneider與Stockett于1963年做了一個實驗,這個實驗的目的在降低一個化學藥品的臭氣(ODOR)。他們檢查了三個有關的自變量溫度(X1)、瓦斯與水的比率(X2)以及裝箱的高度(X3),每一個自變量以一次式二次式及兩兩變量的相乘積納入回歸模型中。現(xiàn)在是37頁\一共有137頁\編輯于星期五現(xiàn)在是38頁\一共有137頁\編輯于星期五擬合不足顯著時,在模型中可能存在隨機誤差之外的其他變差(如因子變量的三次效應)現(xiàn)在是39頁\一共有137頁\編輯于星期五現(xiàn)在是40頁\一共有137頁\編輯于星期五為研究溫度對某微生物菌絲生長的影響,在7種溫度條件下培養(yǎng)微生物,其菌絲平均生長情況列于表,試建立微生物菌絲長度以溫度變化的多項式回歸方程。溫度(x,℃)10152025303540菌絲長度(y,cm)1.331.603.645.486.164.250.64現(xiàn)在是41頁\一共有137頁\編輯于星期五現(xiàn)在是42頁\一共有137頁\編輯于星期五現(xiàn)在是43頁\一共有137頁\編輯于星期五現(xiàn)在是44頁\一共有137頁\編輯于星期五現(xiàn)在是45頁\一共有137頁\編輯于星期五對15名不同程度的煙民的每日飲酒量與其心電圖指標的對應數(shù)據(jù)。試建立擬合這些數(shù)據(jù)的模型?,F(xiàn)在是46頁\一共有137頁\編輯于星期五現(xiàn)在是47頁\一共有137頁\編輯于星期五現(xiàn)在是48頁\一共有137頁\編輯于星期五趨勢模型概率P值Pr>FR-squareRootMSECoeffVarDurbin-WastonD一階<0.00010.954918.875.431.36二階<0.00010.983513.163.792.69三階<0.00010.982613.673.942.68四階0.00190.988616.424.733.02現(xiàn)在是49頁\一共有137頁\編輯于星期五分類數(shù)據(jù)回歸分析過程LOGISTIC用來預測一個二分的或次序變量的值二項分類變量:成功和失敗次序變量:病害發(fā)生的程度:不發(fā)生、輕度發(fā)生、中度發(fā)生、大發(fā)生。Prob(p)=e(B0+B1*X1)/(1+e(B0+B1*X1))現(xiàn)在是50頁\一共有137頁\編輯于星期五回歸模型參數(shù)的意義及其解釋和一般線性回歸模型的區(qū)別:1.在一般線性回歸模型中,如果只有一個自變量,自變量和應變量之間呈直線關系;對于二項分類logistic回歸,如果只有一個自變量,那么自變量與應變量Y的概率P之間呈S型曲線關系2.在一般線性回歸模型中,通過最小二乘法求解回歸參數(shù);在二項分類回歸中,通過最大似然估計方法求解回歸參數(shù)?,F(xiàn)在是51頁\一共有137頁\編輯于星期五優(yōu)勢(Odds)與優(yōu)勢比(OddsRatios)(1)事件出現(xiàn)可能性大小的“自然”方式:概率(0,1)和優(yōu)勢(0,∞)。現(xiàn)在是52頁\一共有137頁\編輯于星期五優(yōu)勢比總的暴露優(yōu)勢:[(a+b)/(a+b+c+d)]/[(c+d)/(a+b+c+d)]=50/100=0.5病例的暴露優(yōu)勢:a/c對照的暴露優(yōu)勢:b/d病例對對照的暴露優(yōu)勢比:OR=(a/c)/(b/d)=1.5在實際工作中,Logistic回歸不是直接解釋回歸系數(shù),而是解釋優(yōu)勢比。即:在其他變量固定不變的情況下,某一自變量Xj改變一個單位,應變量對應的優(yōu)勢比平均改變exp(bj)個單位?,F(xiàn)在是53頁\一共有137頁\編輯于星期五過程格式PROCLOGISTIC選項串MODEL反應變量=自變量名稱串/選項串OUTPUTOUT=輸出文件名稱關鍵字=變量名稱串ALPHA=概率值WEIGHT變量名稱BY變量名稱串現(xiàn)在是54頁\一共有137頁\編輯于星期五PROCLOGISTIC選擇項(1)DATA=輸入文件名稱(2)ORDER=DATAORDER=INTERNAL(內(nèi)設值)ORDER=FORMATTED(3)DES:顛倒依變量的排列順序這個選項界定反應變量下組別的先后次序.若ORDER=DATA則組別的先后次序以輸入文件內(nèi)各組出現(xiàn)的次序來決定.若ORDER=INTERNAL則組別以反應變量值的小大或字母排列的先后次序來決定.若ORDER=FORMATTED組別次序由外在格式?jīng)Q定.當省略此選項時內(nèi)設值是ORDER=INTERNAL現(xiàn)在是55頁\一共有137頁\編輯于星期五

上式中Y變量的組別可用數(shù)值(如12)或文字(如FM)來表示,若組別以數(shù)值表示則數(shù)值的大小代表組別的先后次序.若以文字表示組別,則其第一個字母就決定組別先后的排序?qū)τ诙值淖兞靠衫妙l率次數(shù)來界定回歸分析的模型.N代表總實驗的次數(shù)(或樣本的大小),R代表樣本中表現(xiàn)出研研究者有興趣之反應的觀察體個數(shù)。

現(xiàn)在是56頁\一共有137頁\編輯于星期五MODEL反應變量=自變量名稱串選項串1.NOINT-要求LOGISTIC程序在塑造回歸模型時不考慮截距參數(shù);2.Selection=N|F|B|stepwise|score現(xiàn)在是57頁\一共有137頁\編輯于星期五年齡(age)、酸性磷酸酯酶(ACID)兩個連續(xù)型變量、x射線(x_Ray)、病理分級(Grade)、直腸指檢腫瘤位置(STAGE)三個分類變量,后三個變量賦值0、1.手術探查結果變量NODES,1:淋巴結轉(zhuǎn)移,0:無轉(zhuǎn)移?,F(xiàn)在是58頁\一共有137頁\編輯于星期五……現(xiàn)在是59頁\一共有137頁\編輯于星期五LogitP=-2.04+2.12X_RAY+1.59STAGEOR=ebetaP=elogitp/(1+elogitp)現(xiàn)在是60頁\一共有137頁\編輯于星期五本文件(INGOTS)含四個變量它們分別是樣本的總數(shù)(N)樣本中尚不夠軟屬條個數(shù)(R)金屬條加熱的時間(HEAT)以及金屬條浸在化學溶液中的SOAK).試建立合適的回歸模型。HeatSoakRN7101014103127115651131371.7017141.7043271.7444511.70172.207142.2233272.2021512.20172.8012142.8031272.8122514017409144019274116現(xiàn)在是61頁\一共有137頁\編輯于星期五現(xiàn)在是62頁\一共有137頁\編輯于星期五Logit(p)=-5.5592+(0.082)*HEAT+(0.0568)*SOAK若HEAT=7,SOAK=1則logit(p)=-4.9284由于logit(p)代表P值的對數(shù)奇數(shù)比所以P值應等于P=e-4.9284/(1+e-4.9284)=0.0072無特別意義,這兩個指標最好用來比較模型的優(yōu)劣愈是優(yōu)良的模型其所對應的這兩個指標值也愈小?,F(xiàn)在是63頁\一共有137頁\編輯于星期五多變量大樣本分析中,變量間存在共線性,增加了分析的復雜性。若分別分析各個指標,分析有可能是孤立的,而不是綜合的;盲目地減少指標又有可能損失很多信息,得出錯誤結論。欲采用較少指標,反映原資料大部分信息,可采用主成分分析和因子分析?!?.2主成分與因子分析現(xiàn)在是64頁\一共有137頁\編輯于星期五

對同一組觀察體的多個變量執(zhí)行主成份分析,主成份分析的目的是找出一組變量之間互相依賴的程度。將這些線性相關以主成份值表示。其分析的結果包括未經(jīng)標準化及標準化后的主成份值,這些主成份值可以代替變量的原始數(shù)據(jù)進行進一步的分析處理。*把多個指標化為少數(shù)幾個總和指標的一種統(tǒng)計方法1901年由Person首先引入,被Hotelling(1933)發(fā)展現(xiàn)在是65頁\一共有137頁\編輯于星期五成績數(shù)據(jù)(student.sav)100個學生的數(shù)學、物理、化學、語文、歷史、英語的成績?nèi)缦卤恚ú糠郑,F(xiàn)在是66頁\一共有137頁\編輯于星期五從本例可能提出的問題目前的問題是,能不能把這個數(shù)據(jù)的6個變量用一兩個綜合變量來表示呢?這一兩個綜合變量包含有多少原來的信息呢?能不能利用找到的綜合變量來對學生排序呢?這一類數(shù)據(jù)所涉及的問題可以推廣到對企業(yè),對學校進行分析、排序、判別和分類等問題?,F(xiàn)在是67頁\一共有137頁\編輯于星期五主成分分析例中的的數(shù)據(jù)點是六維的;也就是說,每個觀測值是6維空間中的一個點。我們希望把6維空間用低維空間表示。先假定只有二維,即只有兩個變量,它們由橫坐標和縱坐標所代表;因此每個觀測值都有相應于這兩個坐標軸的兩個坐標值;如果這些數(shù)據(jù)形成一個橢圓形狀的點陣(這在變量的二維正態(tài)的假定下是可能的)那么這個橢圓有一個長軸和一個短軸。在短軸方向上,數(shù)據(jù)變化很少;在極端的情況,短軸如果退化成一點,那只有在長軸的方向才能夠解釋這些點的變化了;這樣,由二維到一維的降維就自然完成了?,F(xiàn)在是68頁\一共有137頁\編輯于星期五當坐標軸和橢圓的長短軸平行,那么代表長軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。但是,坐標軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進行變換,使得新變量和橢圓的長短軸平行。如果長軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個變量(舍去次要的一維),降維就完成了。橢圓(球)的長短軸相差得越大,降維也越有道理。現(xiàn)在是69頁\一共有137頁\編輯于星期五現(xiàn)在是70頁\一共有137頁\編輯于星期五對于多維變量的情況和二維類似,也有高維的橢球,只不過無法直觀地看見罷了。首先把高維橢球的主軸找出來,再用代表大多數(shù)數(shù)據(jù)信息的最長的幾個軸作為新變量;這樣,主成分分析就基本完成了。注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principalcomponent)。

現(xiàn)在是71頁\一共有137頁\編輯于星期五對應m個變量的m個主成分如下:現(xiàn)在是72頁\一共有137頁\編輯于星期五選擇越少的主成分,降維就越好。什么是標準呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻建議,所選的主軸總長度占所有主軸長度之和的大約85%即可,其實,這只是一個大體的說法;具體選幾個,要看實際情況而定?,F(xiàn)在是73頁\一共有137頁\編輯于星期五過程格式PROCPRINCOMP[選項];VAR變量表;PARTIAL變量表;FREQ變量;WEIGHT變量;BY變量表;

現(xiàn)在是74頁\一共有137頁\編輯于星期五PROCPRINCOMP[選項]:(1)DATA=輸入資料文件名稱。指明到底對那一個SAS資料文件執(zhí)行PROCPRINCOMP的分析,這個輸入資料文件可以是原始數(shù)據(jù)也可以是一個相關系數(shù)矩陣(TYPE=CORR)。(2)OUT=輸出資料文件名稱。這一個輸出資料文件包括輸入資料文件的數(shù)據(jù)以及主成份值。(3)PREFIX=主成份的名字為主成份命名內(nèi)設值是PRIN1PRIN2...PRINn,n為正整數(shù)主成份的名字(包括字母及數(shù)字),不得超過八個字母或數(shù)字?,F(xiàn)在是75頁\一共有137頁\編輯于星期五VAR變量表指明對那些數(shù)值變量作主成份分析。PARTIAL變量表指定對偏相關或協(xié)方差矩陣進行分析的數(shù)值變量?,F(xiàn)在是76頁\一共有137頁\編輯于星期五例:為了進行土壤分析,研究土壤質(zhì)量,抽取了20個樣本,每個樣本有4個指標:泥炭含量(x1,%),粘土含量(x2,%),有機物(x3,%),PH值(x4),試做主成分分析?,F(xiàn)在是77頁\一共有137頁\編輯于星期五現(xiàn)在是78頁\一共有137頁\編輯于星期五1.各主成分的累積方差貢獻率≥85%2.特征值≥1這些系數(shù)稱為主成分載荷(loading),它表示主成分和相應的原先變量的相關系數(shù)。相關系數(shù)(絕對值)越大,主成分對該變量的代表性也越大?,F(xiàn)在是79頁\一共有137頁\編輯于星期五第一主分量的方差為1.67,PRIN1=0.7102x1’+0.7033x2’+0.0224x3’+0.0201x4’單獨說明整個原始數(shù)據(jù)標準變異的41.76%,其代表變量為x1和x2。第二主分量的方差為1.15,PRIN2=0.1887x1’-0.2304x2’+0.8350x3’+0.4626x4’單獨說明整個原始數(shù)據(jù)標準變異的28.68%,其代表變量為x3.第三個主分量的代表變量為x4。前三個主分量所構成的信息量占總信息量的94.46%。X1’=(x1-22.7)/8.89現(xiàn)在是80頁\一共有137頁\編輯于星期五某研究所收集了13名兒童的年齡(x1)、身高(x2)、體重(x3)、胸圍(X4)和心像面積(y),試分析心像面積與年齡、身高、體重和胸圍之間的關系?,F(xiàn)在是81頁\一共有137頁\編輯于星期五現(xiàn)在是82頁\一共有137頁\編輯于星期五PRIN1=0.49x1’+0.49x2’+0.50x3’+0.49x4’PRIN2=0.52x1’+0.47x2’-0.39x3’-0.59sx4’現(xiàn)在是83頁\一共有137頁\編輯于星期五現(xiàn)在是84頁\一共有137頁\編輯于星期五我們以建立發(fā)電量需求模型來說明主成分分析的應用。

影響發(fā)電量需求量的指標有:(1)鋼的產(chǎn)量;(2)生鐵產(chǎn)量;(3)鋼材產(chǎn)量;(4)有色金屬產(chǎn)量;(5)涼煤產(chǎn)量;(6)水泥產(chǎn)量:(7)機械工業(yè)總產(chǎn)值:(8)化肥產(chǎn)量;(9)硫酸產(chǎn)量;(10)燒堿產(chǎn)量;(11)棉紗產(chǎn)量,共11個指標,收集了從1958年~1980年共23個年頭的各個指標的產(chǎn)量和發(fā)電量,其目的是構造發(fā)電量需求模型?,F(xiàn)在是85頁\一共有137頁\編輯于星期五現(xiàn)在是86頁\一共有137頁\編輯于星期五現(xiàn)在是87頁\一共有137頁\編輯于星期五把具有最小特征值的主分量所對應的特征向量中具有最大分量的變量刪除掉現(xiàn)在是88頁\一共有137頁\編輯于星期五現(xiàn)在是89頁\一共有137頁\編輯于星期五現(xiàn)在是90頁\一共有137頁\編輯于星期五現(xiàn)在是91頁\一共有137頁\編輯于星期五現(xiàn)在是92頁\一共有137頁\編輯于星期五品種冬季分蘗株高每穗粒數(shù)千粒重抽穗期成熟期a11.595.326.439.204/19/032006-2-3b997.730.846.804/17/032006-6-3c7.5110.739.739.104/17/032006-3-3d9.18935.435.304/18/032006-2-3e11.68829.33704/20/032006-7-3f1387.724.644.804/19/032006-7-3g11.679.725.643.704/19/032006-5-3h10.7119.329.938.804/19/032006-5-3i11.187.732.235.604/18/032006-3-3現(xiàn)在是93頁\一共有137頁\編輯于星期五現(xiàn)在是94頁\一共有137頁\編輯于星期五現(xiàn)在是95頁\一共有137頁\編輯于星期五現(xiàn)在是96頁\一共有137頁\編輯于星期五Y1Y2現(xiàn)在是97頁\一共有137頁\編輯于星期五因子分析分為共同因子(又稱公共因子)和獨特因子,這兩種因子都是指一個(或一組)假設的抽象的變量。共同因子:根據(jù)相關性大小,把變量分組,使得同組內(nèi)的變量之間相關性較高,但不同組的變量相關性較低,每組變量代表一個基本結構,這個基本結構稱為共同因子。獨特因子:則指一個假設的抽象的變量,它只能用來解釋一個原始的變量,與其它變量完全無關。主成份分析是指原始變量間的線性組合,它的功能在于簡化原有的變量群。因子分析目的是用有限個不可觀測的潛在變量來解釋原變量間的相關性或協(xié)方差關系。現(xiàn)在是98頁\一共有137頁\編輯于星期五格式:PROCFACTOR[選項串];VAR變量名稱串;PARTIAL變量名稱串;FREQ變量名稱;WEIGHT變量名稱;BY變量名稱串;現(xiàn)在是99頁\一共有137頁\編輯于星期五例:影響某生態(tài)系統(tǒng)收益的指標有9個:生態(tài)系統(tǒng)面積(x1,畝)、耕作面積(x2,畝)、技術推廣比例(x3,%)、肥料的使用量(x4,噸)、牲畜出欄(x5,只),載畜量(x6,只),耕牛數(shù)(x7,頭)、植物萌發(fā)氣溫(x8,℃)、萌發(fā)期降雨量(x9,mm),數(shù)據(jù)見下表,采用因子分析研究變量之間的相互關系?,F(xiàn)在是100頁\一共有137頁\編輯于星期五現(xiàn)在是101頁\一共有137頁\編輯于星期五….現(xiàn)在是102頁\一共有137頁\編輯于星期五Kaiser’smeasureofSamplingAdequacy(抽樣適當?shù)腒aiser量度),MSA她包括全部變量和每個變量方面。MSA是偏相關相對于普通相關有多大的概述。>0.8的值是最好的,<0.5需要采取補救措施。要么刪去一些違法變量,要么引入一些和違法變量有聯(lián)系的變量?,F(xiàn)在是103頁\一共有137頁\編輯于星期五因子載荷量,闡明各xi的方差在各主成份上的載荷,系數(shù)的絕對值較大的變量與相應因子的相關度較強,m個公共因子對第i個變量的貢獻,稱為第i個共同度(communality)或共性方差,共性方差>0.5。它是各f對xi的決定系數(shù)。其值越大,xi對各f的依賴性愈大?,F(xiàn)在是104頁\一共有137頁\編輯于星期五第一類反應了物質(zhì)和社會條件,第二類反應了播種面積,第三類反應了萌發(fā)期的溫度,第四類反應的是降雨量。方差最大正交旋轉(zhuǎn):可使每個因子上的具有最大載荷的變量數(shù)最小,因此可以簡化對因子的解釋?;蛘哒f使因子負荷兩極分化,要么接近于0,要么接近于1。如果公共因子仍然沒有明顯的意義時,可以進行斜交變換(R=promax)。表達式:x1’現(xiàn)在是105頁\一共有137頁\編輯于星期五

因子得分模型同時也是主成分分析的結果。為了使公因子到表達式的左邊,從而進行轉(zhuǎn)置。例如:F1=-0.19x1’+0.01x2’+0.10x3’+0.15x4’+0.27x5’+0.26x6’+0.34x7’+0.13x8’+0.05x9’現(xiàn)在是106頁\一共有137頁\編輯于星期五現(xiàn)在是107頁\一共有137頁\編輯于星期五八、因子分析應用的注意事項應用條件(1)變量是計量的,能用線性相關系數(shù)(Pearson積叉相關系數(shù))表示它們之間的相關性。(2)總體的同質(zhì)性現(xiàn)在是108頁\一共有137頁\編輯于星期五樣本量沒有估計公式。至少要保證樣本相關系數(shù)穩(wěn)定可靠。因子數(shù)目一般認為,累積貢獻要達到80%以上。但要注意Heywood現(xiàn)象。Heywood現(xiàn)象:公因子方差(共同度)總是在0和1之間,等于1為Heywood現(xiàn)象。原因:模型不正確的設定;存在異常值;當樣本數(shù)過小,且含少于3個觀測變量的潛在變量?,F(xiàn)在是109頁\一共有137頁\編輯于星期五主成份分析與因子分析的聯(lián)系及區(qū)別1.獲得新變量(主成分變量或公因子變量),達到減少分析指標數(shù)并概括原始指標主要信息的目的。主成分分析將m個原始變量提取k(k≤m)個互不相關的主成份;因子分析是提取k個支配原始變量的公因子和1個特殊因子,各公因子之間可以相關或不相關。2.提取公因子的方法主要有主成份法和公因子法,若采用主成分法,則主成份和因子分析等價。3.因子分析提取的公因子比主成分分析提取的主成份更具有可解釋性。4.兩者分析的實質(zhì)及重點不同。5.主成分分析表達式左邊是隱變量,右邊是原變量,因子分析正好相反,左邊是原變量,右邊是隱變量?,F(xiàn)在是110頁\一共有137頁\編輯于星期五聚類分析按照一批樣本(或指標)的親疏程度進行分類分析,分類的途徑是確定樣本或變量間的距離或相似系數(shù)。四個聚類過程

1.系統(tǒng)聚類:CLUSTER,應用最廣

2.動態(tài)聚類:FASTCLUS,用于大樣本分析

3.對變量進行系統(tǒng)聚類或動態(tài)聚類:VARCLUS4.TREE過程?,F(xiàn)在是111頁\一共有137頁\編輯于星期五聚類分析無處不在誰是銀行信用卡的黃金客戶?利用儲蓄額、刷卡消費金額、誠信度等變量對客戶分類,找出“黃金客戶”!這樣銀行可以……制定更吸引的服務,留住客戶!比如:一定額度和期限的免息透資服務!蘇寧電器的貴賓打折卡!在他或她生日的時候送上一個小蛋糕!現(xiàn)在是112頁\一共有137頁\編輯于星期五聚類分析原理介紹聚類分析中“類”的特征:聚類所說的類不是事先給定的,而是根據(jù)數(shù)據(jù)的相似性和距離來劃分;聚類的數(shù)目和結構都沒有事先假定?,F(xiàn)在是113頁\一共有137頁\編輯于星期五聚類分析原理介紹聚類方法的目的是尋找數(shù)據(jù)中:潛在的自然分組結構astructureof“natural”grouping感興趣的關系relationship現(xiàn)在是114頁\一共有137頁\編輯于星期五聚類分析原理介紹什么是自然分組結構Naturalgrouping?我們看看以下的例子:有16張牌如何將他們分為一組一組的牌呢?AKQJ現(xiàn)在是115頁\一共有137頁\編輯于星期五聚類分析原理介紹分成四組每組里花色相同組與組之間花色相異AKQJ花色相同的牌為一副Individualsuits現(xiàn)在是116頁\一共有137頁\編輯于星期五聚類分析原理介紹分成四組符號相同的牌為一組AKQJ符號相同的的牌Likefacecards現(xiàn)在是117頁\一共有137頁\編輯于星期五聚類分析原理介紹分成兩組顏色相同的牌為一組AKQJ顏色相同的配對Blackandredsuits現(xiàn)在是118頁\一共有137頁\編輯于星期五聚類分析原理介紹分成兩組大小程度相近的牌分到一組AKQJ大配對和小配對Majorandminorsuits現(xiàn)在是119頁\一共有137頁\編輯于星期五聚類分析原理介紹這個例子告訴我們,分組的意義在于我們怎么定義并度量“相似性”Similar因此衍生出一系列度量相似性的算法AKQJ大配對和小配對Majorandminorsuits現(xiàn)在是120頁\一共有137頁\編輯于星期五聚類分析原理介紹相似性Similar的度量(統(tǒng)計學角度)距離Q型聚類(主要討論)主要用于對樣本分類常用的距離有(只適用于具有間隔尺度變量的聚類):明考夫斯基

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論