多元統計分析期末復習_第1頁
多元統計分析期末復習_第2頁
多元統計分析期末復習_第3頁
多元統計分析期末復習_第4頁
多元統計分析期末復習_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第1章 :多元統計分析研究的內容(5點)1、簡化數據結構(主成分分析)2、分類與判別(聚類分析、判別分析)3、變量間的相互關系(典型相關分析、多元回歸分析)4、多維數據的統計推斷5、多元統計分析的理論基礎 第二三章:2、 多維隨機變量的數字特征1、隨機向量的數字特征隨機向量X均值向量:隨機向量X與Y的協方差矩陣:當X=Y時Cov(X,Y)=D(X);當Cov(X,Y)=0 ,稱X,Y不相關。隨機向量X與Y的相關系數矩陣:2、均值向量協方差矩陣的性質(1).設X,Y為隨機向量,A,B 為常數矩陣 E(AX)=AE(X); E(AXB)=AE(X)B; D(AX)=AD(X)A; Cov(AX,B

2、Y)=ACov(X,Y)B;(2).若X,Y獨立,則Cov(X,Y),反之不成立(3).X的協方差陣D(X)是對稱非負定矩陣。例2.見黑板三、多元正態(tài)分布的參數估計2、多元正態(tài)分布的性質(1).若 ,則E(X)= ,D(X)= .特別地,當 為對角陣時, 相互獨立。(2) .若 ,為sxp階常數矩陣,d為s階向量,d . 即正態(tài)分布的線性函數仍是正態(tài)分布(3).多元正態(tài)分布的邊緣分布是正態(tài)分布,反之不成立(4).多元正態(tài)分布的不相關與獨立等價例見黑板三、多元正態(tài)分布的參數估計(1)“ 為來自p元總體X的(簡單)樣本”的理解-獨立同截面(2)多元分布樣本的數字特征-常見多元統計量樣本均值向量 樣

3、本離差陣 樣本協方差陣 S;樣本相關陣(3) ,分別是 和的最大似然估計;(4)估計的性質是的無偏估計; ,分別是和的有效和一致估計; ; , 與相互獨立;第5章 聚類分析:一、什么是聚類分析 :聚類分析是根據“物以類聚”的道理,對樣品或指標進行分類的一種多元統計分析方法。用于對事物類別不清楚,甚至事物總共可能有幾類都不能確定的情況下進行事物分類的場合。聚類方法:系統聚類法(直觀易懂)、動態(tài)聚類法(快)、有序聚類法(保序).Q-型聚類分析(樣品)R-型聚類分析(變量) 變量按照測量它們的尺度不同,可以分為三類:間隔尺度、有序尺度、名義尺度。二、常用數據的變換方法:中心化變換、標準化變換、極差正

4、規(guī)化變換、對數變換(優(yōu)缺點)1、中心化變換(平移變換):中心化變換是一種坐標軸平移處理方法,它是先求出每個變量的樣本平均值,再從原始數據中減去該變量的均值,就得到中心化變換后的數據。不改變樣本間的相互位置,也不改變變量間的相關性。2、標準化變換:首先對每個變量進行中心化變換,然后用該變量的標準差進行標準化。經過標準化變換處理后,每個變量即數據矩陣中每列數據的平均值為0,方差為1,且也不再具有量綱,同樣也便于不同變量之間的比較。3、 極差正規(guī)化變換(規(guī)格化變換):規(guī)格化變換是從數據矩陣的每一個變量中找出其最大值和最小值,這兩者之差稱為極差,然后從每個變量的每個原始數據中減去該變量中的最小值,再除

5、以極差。經過規(guī)格化變換后,數據矩陣中每列即每個變量的最大數值為1,最小數值為0,其余數據取值均在01之間;且變換后的數據都不再具有量綱,便于不同的變量之間的比較。4、 對數變換:對數變換是將各個原始數據取對數,將原始數據的對數值作為變換后的新值。它將具有指數特征的數據結構變換為線性數據結構。 三、樣品間相近性的度量 研究樣品或變量的親疏程度的數量指標有兩種:距離,它是將每一個樣品看作p維空間的一個點,并用某種度量測量點與點之間的距離,距離較近的歸為一類,距離較遠的點應屬于不同的類;相似系數,性質越接近的變量或樣品,它們的相似系數越接近于1或一l,而彼此無關的變量或樣品它們的相似系數則越接近于0

6、,相似的為一類,不相似的為不同類。樣品之間的聚類即Q型聚類分析,則常用距離(統計量)來測度樣品之間的親疏程度;而變量之間的聚類即R型聚類分析,常用相似系數(統計量)來測度變量之間的親疏程度。、 距離的算法:明氏距離 蘭氏距離 斜交空間距離 馬氏距離 、 相似系數的算法:夾角余弦 相似系數、 樣品分類和指標分類:對樣品分類常用距離,對指標分類常用相似系數、 明氏(Minkowski)距離的兩個缺點:明氏距離的值與各指標的量綱有關,而各指標計量單位的選擇有一定的人為性和隨意性,各變量計量單位的不同不僅使此距離的實際意義難以說清,而且,任何一個變量計量單位的改變都會使此距離的數值改變從而使該距離的數

7、值依賴于各變量計量單位的選擇。明氏距離的定義沒有考慮各個變量之間的相關性和重要性。實際上,明考夫斯基距離是把各個變量都同等看待,將兩個樣品在各個變量上的離差簡單地進行了綜合、 相似系數:通常所說相關系數,一般指變量間的相關系數,作為刻劃樣品間的相似關系也可類似給出定義,即第i個樣品與第j個樣品之間的相似系數定義為: 實際上,就是兩個向量中心化后的夾角余弦、 距離和相似系數選擇的原則:(1)所選擇的親疏測度指標在實際應用中應有明確的意義。(2)親疏測度指標的選擇要綜合考慮已對樣本觀測數據實施了的變換方法和將要采用的聚類分析方法。(3)適當地考慮計算工作量的大小。練習:1聚類分析是建立一種分類方法

8、,它將一批樣品或變量按照它們在性質上的_進行科學的分類. 2Q型聚類法是按_進行聚類,R型聚類法是按 _進行聚類。 3Q型聚類統計量是_,而R型聚類統計量通常 采用_。 4在聚類分析中需要對原始數據進行無量綱化處理,以消除不同量綱或數量級的影響,達到數據間可同度量的目的。常用的無量綱化方法有以下幾種:_、_、_。5Q型聚類方法有_、_、_、_等。第六章 判別分析:1.四種判別方法:距離判別法、費歇判別法、貝葉斯判別法、逐步判別法。2.貝葉斯Bayes判別法:距離判別方法簡單實用,但沒有考慮到每個總體出現的機會大小,即先驗概率,沒有考慮到錯判的損失;Fisher判別法隨著總體個數的增加,建立的判

9、別式也增加,計算量加大,如果考慮各總體的重要性,問題會突出而簡單許多。既要考慮到各個總體出現的先驗概率,又要考慮到錯判造成的損失,Bayes判別就具有這些優(yōu)點,其判別效果更加理想,應用也更廣泛?;舅枷耄嚎偸羌俣▽λ芯康膶ο笠延幸欢ǖ恼J識,常用先驗分布來認識它,然后,基于抽取的樣本對先驗概率作修正,得到后驗概率,最后采用相應的判別準則(如誤判率最小準則,后驗概率最大準則等)進行判別。Bayes判別法,對各類(總體)的分布有特定的要求,即已知先驗概率和分布密度函數。3.4. 各判別法之間的聯系:在正態(tài)等協方差陣及先驗概率相等的條件下貝葉斯判別與距離判別等價;不加權的判別法等價于距離判別法練習:

10、1判別分析是要解決在研究對象已_的情況下,確定新的觀測數據屬于已知類別中哪一類的多元統計方法。2用判別分析方法處理問題時,通常以_作為衡量新樣本點與各已知組別接近程度的指標。3進行判別分析時,通常指定一種判別規(guī)則,用來判定新樣本的歸屬,常見的判別準則有_、_。4在p維空間Rp中,點與點之間的接近和疏遠尺度用_來衡量,最簡單的就是_或_。5類內樣本點接近,類間樣本點疏遠的性質,可以通過_與_的大小差異表現出來,而兩者的比值能把不同的類區(qū)別開來。這個比值越大,說明類與類間的差異越_,分類效果越_。6Fisher判別法是找一個由p個變量組成的_,使得各自組內點的_盡可能接近,而不同組間點的盡可能疏遠

11、。簡答題:1判別分析的分類:距離判別法、費歇判別法、貝葉斯判別法、逐步判別法。2判別的基本思想:是根據已掌握的、歷史上若干樣本的p個指標數據及所屬類別的信息,總結出該事物分類的規(guī)律性,建立判別公式和判別準則。根據總結出來的判別公式和判別準則,判別未知類別的樣本點所屬的類別。3簡述兩個總體的判別及判別準則:基本思路:(1)統計模型:設G1,G2是兩個不同的P維已知總體,x=(x1,xp)T是一個待判樣品; (2)距離判別準則: (3)判別函數:4簡述Fisher判別法及具體判別步驟:Fisher判別的思想是投影,將k組p維數投影到某一個方向,使得他們的投影組與組之間盡可能的分開。5簡述逐步判別基

12、本原理: 逐步引入變量,每次把一個判別能力最強的變量引入,每引入一個新的變量,對老變量又逐個進行檢驗,如其判別能力因新變量的引入而變得不顯著,應把它從判別式中剔除,最終建立的判別函數中僅保留判別能力顯著的變量。6簡述BAYES判別分析與其它判別方法的優(yōu)劣:(1)與距離判別的優(yōu)劣比較:距離判別優(yōu)于兩個總體情況下的判別,對兩個總體幾乎沒有任何要求,簡捷,實用,易懂;距離判別法在多個總體時,沒有考慮各總體出現的概率,對各個變量的重要性一視同仁,難免產生誤判。Bayes判別法對的理論與方法嚴密而完善,對研究對象的信息利用充分,誤判率大大降低,但計算較復雜。(2)與判別法的比較:判別與判別的比較:對總體

13、的分布要求不同;多個總體下,判別的計算量大,但均值向量共線性程度較好時,可以考慮用判別;各總體出現的重要性不同時應使用是判別。第7章 、主成分分析1.主成分分析就是設法將原來變量重新組合成一組新的相互無關的綜合變量來代替原來的變量,并盡可能多地反映原來變量的信息。數學表現為:Var(Yj)最大;cov(Yi,Yj)=0;2.主成分就是以協方差陣的特征向量為系數的線性組合,它們互不相關,其方差的特征根。主成分的名次是按特征根取值大小的順序排列的。3. 主成分模型中各統計量的意義: 1)貢獻率:第i個主成分的方差在全部方差中所占比重 ,稱為貢獻率 ,反映了原來P個指標多大的信息,有多大的綜合能力

14、。2)累積貢獻率:前k個主成分共有多大的綜合能力,用這k個主成分的方差和在全部方差中所占比重 來描述,稱為累積貢獻率。 例 :設 的協方差矩陣為 解得特征根為 , , 第一個主成分的貢獻率為5.83/(5.83+2.00+0.17)=72.875%,盡管第一個主成分的貢獻率并不小,但在本題中第一主成分不含第三個原始變量的信息,所以應該取兩個主成分。4. 1)從協方差陣和相關系數矩陣出發(fā)計算主成分一般是不同的。2)主成分是原始變量的線性組合,故而起著原始變量的綜合作用。3)對總體分布類型沒有特定要求。4)主成分個數的確定。5)主成分用于系統評估。6)除主成分分析之外,還有主成分回歸和加權主成分分

15、析。填空:1、對P元正態(tài)分布變量來說,找主成分的問題就是找P維空間中的橢球體的主軸問題。2、樣本主成分的總方差等于_。 3、原始變量協方差矩陣的特征根的統計含義是_。 4、主成分表達式的系數向量是_協方差陣 的特征向量。5、主成分分析就是通過適當的變量替換,使新變量成為原變量的線性組合,并尋求主成分來分析事物的一種方法。第8章 、因子分析1.什么是因子分析及基本思想 多元數據常常包含大量的測量變量,有時這些變量是相互重疊,存在相關性。因子分析的目的就是從實驗所得的數據樣本中概括和提取出較少量的關鍵因素,它們能反映和解釋所得的大量觀測事實,從而建立最簡潔、最基本的概念系統,揭示出事物之間最本質的

16、聯系。因子分析的基本思想是通過變量(或樣品)的相關系數矩陣內部結構的研究,找出能控制所有變量的少數幾個隨機變量去描述多個變量(或樣品)之間的相關關系。2. 主成分分析與因子分析的聯系與區(qū)別?相同之處:都是多元數據處理降維的統計方法;求解過程的出發(fā)點是一樣的;不同之處:主成分分析是變量變換:原始變量的線性組合表示新的綜合變量,即主成分;而因子分析需要構造因子模型:潛在的假想變量和隨機影響變量的線性組合表示原始變量;主成分的系數是唯一的;而因子分析的載荷系數是不唯一的;3. 因子載荷aij的統計意義: 因子載荷是第i個變量與第j個公共因子的相關系數載荷矩陣中第i行,第j列的元素)反映了第i個變量與

17、第j個公共因子的相關重要性。絕對值越大,相關的密切程度越高。例題:假定某地固定資產投資率 ,通貨膨脹率 ,失業(yè)率 ,相關系數矩陣為 試用主成分分析法求因子分析模型。特征根為: 可取前兩個因子F1和F2為公共因子,第一公因子F1物價就業(yè)因子,對X的貢獻為1.55。第一公因子F2為投資因子,對X的貢獻為0.85。共同度分別為1,0.706,0.706。4.為什么要旋轉因子:由于因子載荷陣是不惟一的,所以應該對因子載荷陣進行旋轉。目的是使因子載荷陣的結構簡化,使載荷矩陣每列或行的元素平方值向0和1兩極分化。有三種主要的正交旋轉法:四次方最大法、方差最大法和等量最大法。5.因子分析通常包括以下五個步驟

18、:選擇分析的變量; 計算所選原始變量的相關系數矩陣;提取公共因子;因子旋轉; 計算因子得分。6.變量共同度的統計意義:變量 的共同度是因子載荷矩陣的第i行的元素的平方和。記為7.因子分析數學模型:填空:1因子分析是把每個原始變量分解為兩部分因素,一部分是_公共因子_,另一部分為_特殊因子_。2變量共同度是指因子載荷矩陣中_變量所在行元素平方和_。3公共因子方差與特殊因子方差之和為_1_。4因子分析和主成分分析在求解過程中都是從 出發(fā)簡答:1比較因子分析和主成分分析模型的關系,說明它們的相似和不同之處。 2能否將因子旋轉的技術用于主成分分析,使主成分有更鮮明的實際背景 :不能,用了就是因子分析,

19、旋轉之后不叫主成分(這一句就行),公因子的方差不等于特征值,因此不能旋轉。 3.因子分析中為什么要進行因子旋轉?通過因子旋轉,可以使每個變量只在一個公共因子上有較大的載荷,因此因子分析模型是適用的。 4.什么是因子得分?因子得分有何作用?在因子分析中,得出公共因子后,可以根據原始變量計算出各個樣本(個體)在每個因子上的得分,稱為因子得分,因子得分可以有多種求解方法,計算出因子得分后,可以把各個因子作為新的變量用于其他分析,也可以來進行綜合評價等。第9章 、對應分析1. 對應分析:也稱關聯分析、R-Q型因子分析,通過分析由定性變量構成的交互匯總表來揭示變量間聯系??梢越沂就蛔兞康母鱾€類別之間的

20、差異,以及不同變量各個類別之間的對應關系。對應分析的基本思想是將一個聯列表的行和列中各元素的比例結構以點的形式在較低維的空間中表示出來。它最大特點是能把眾多的樣品和眾多的變量同時作到同一張圖解上,將樣品的大類及其屬性在圖上直觀而又明了地表示出來,具有直觀性。2. 對應分析方法的優(yōu)缺點:(1)定性變量劃分的類別越多,這種方法的優(yōu)越性越明顯(2)揭示行變量類間與列變量類間的聯系(3)將類別的聯系直觀地表現在圖形中(4)不能用于相關關系的假設檢驗(5)維數有研究者自定(6)受極端值的影響第10章 :1.研究兩組隨機變量之間的相關性用典型相關分析。典型相關分析就是分別構造各組變量的適當線性組合,將兩組變量的相關性轉化為兩個變量的相關性。數學表現為: 最大;U和V分別來自兩組變量的線性組合。2. 課件P21頁例題。第11章 多重多元回歸分析一回歸分析的功能及涵義:回歸分析是研究一個(或多個)因變量對于一個或多個其他變量(即自變量)的依存關系,并用數學模型加以模擬,目的在于根據已知的或在多次重復抽樣中固定的解釋變量之值,估計、預測因變量的總體平均值。二回歸分析的研究思路和步驟:根據研究問題的性質、要求建立回歸模型。根據樣本觀測值對回歸模型參數進行估計,求得回歸方程。對回歸方程、參數估計值進行顯著性檢驗。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論