多元統(tǒng)計分析期末考試考點整理_第1頁
多元統(tǒng)計分析期末考試考點整理_第2頁
多元統(tǒng)計分析期末考試考點整理_第3頁
多元統(tǒng)計分析期末考試考點整理_第4頁
多元統(tǒng)計分析期末考試考點整理_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、多元統(tǒng)計分析題型一定義、名詞解釋題型二 計算(協(xié)方差陣、模糊矩陣)題型三解答題一、定義§ 1隨機向量及其分布一、隨機向量的聯(lián)合分布設(shè)司,4為是定義在樣本空間Q上的9個隨機變量,則稱 (國/心,是七維隨機向量(或為維隨機變量).中元函數(shù)產(chǎn)(田一馬,,.i) =尸工G g .號,,為" 稱為中維隨機向量國.才",苞y的聯(lián)合分布函數(shù).如果存在非負可積函數(shù)/&.4.),使得產(chǎn)(4巧,7J Z,Jj小心心dF 則稱是夕維連續(xù)型隨機向量,稱八為 (國&*力了的聯(lián)合分布密度.§ 2 的機向量的數(shù)字特征一、隨機向量的數(shù)學期望(均值)定義1設(shè)了=(為工.y

2、,若與(工二)=%,z,中存在, 則稱EF = 01;,左1/=(氏中r,/J = N為片TJ的數(shù)學期望(向量).設(shè)片=(卷),稱1為隨機矩陣,稱ZT = (©;)“為隨機矩陣工的數(shù)學期望(矩陣).二、邊緣分布稱2維隨機向量,為),的分量構(gòu)成的子向量的概率分 布為.為)'的邊緣分布.設(shè)夕維隨機向量.為)'的分布函數(shù)為產(chǎn)(22,.),則 關(guān)于用的邊緣分布函數(shù)為£(管)=PXf < Xf = A+S,.+8,必+C0,+8),設(shè)維連續(xù)型隨機向量(%,4,為)'的聯(lián)合分布密度為/(.卬0,與),則關(guān)于.的邊緣分布密度為/(工)=J二j二"&

3、#39;£-1'七,¥+1,年)火局.四、協(xié)方差矩陣的性質(zhì)設(shè)工,廠為隨機向量,*, B為常數(shù)矩陣,貝IJ 性質(zhì) 1 CoyAX, BY) = A CoxX, >) B,性質(zhì) 2 LAX) = ALX)A五、協(xié)方差矩陣r的代數(shù)性質(zhì)記 s = zzr,1 . Z為非負定矩陣,即對Da e AJ有aEa / 0 .記號:若E為非負定矩陣,則記作EN。,若工為正定矩陣,則記作Z>0.二、數(shù)學期望的性質(zhì)設(shè)X,y為隨機矩陣,,八夕為常數(shù)矩陣,則性質(zhì) 1 EAX) = AEX.性質(zhì) 2 E(.4XB) = A EX B,性質(zhì) 3 EJ) = EXEY.三、協(xié)方差矩陣定

4、義2設(shè)%=(國昌,為丫,=(4,),若可(/),/=1, 2. P, 7 = 1, 2.,/存在,則稱工,)=EX-EX)Y-Eiy=而您/)】內(nèi)為隨機向量工與尸的協(xié)方差矩陣.當。1)=0時,稱隨機向量1與廠不相關(guān).稱CoyX.X) = DX為隨機向量X的協(xié)方差矩陣.顯然,協(xié)方差矩陣是一個對稱矩陣.定義3 稱火=4%為隨機向量1的相關(guān)陣 由相關(guān)系數(shù)的概念,顯然有勿=1, |共1, /.八L 2,,p.(1)最矩距離法(Nearestneighbor)考慮月個樣本構(gòu)成的距離矩陣,定義G與$之間的距離為兩類最近樣品的距離,即(3-3-29)£)= min 4,現(xiàn)在設(shè)G,與G合并為一個新類

5、記為5,則任意一類G.與G的距離為y mm d”=min( min d* min ) = min(Dv,D).(3-3-30)2 .若E為正定矩陣,則有下述等價結(jié)論.Z>0o3非奇異方陣乙使£ = .Z>0 o 3正交矩陣I,使E= MZg(44 其中,>0./= L2,,.為Z的全部特征根.(3) E >。o工的任一主子式均大于零.(4) £ > 0 o Va w 火尸,有 aa > 0 ,且 a£a = 0 o a = 0.(5)S>0<=> £7存在且S-l>0.§ 3多元總體

6、一、多元總體設(shè)觀測指標為則才;工./7構(gòu)成一個維隨機 向量1=(;4 C,1的一切可能取值的全體就構(gòu)成了 元總 體,仍記作"維隨機向量1的概率分布即為所對應(yīng)總體的概率分布,X 的數(shù)字特征也即為所對應(yīng)總體的數(shù)字特征.二、樣本觀測陣設(shè)對元總體才二5,為)'進行了次觀測,記為第/次的觀測結(jié)果($L 2,每次的觀測結(jié)果稱為一個樣品.如果滿足:% , 4),花)相互獨立;(2)每個一%均與總體I具有相同的概率分布.稱小為來總體的一個容鼠為的簡單隨機樣本,仍 簡稱為樣本.稱樣本觀測值的個體構(gòu)成的矩陣為樣本觀測陣(資料陣).三、樣本數(shù)字特征%112Xp叫用2 % . 二% % 。吊 吊 吃

7、)25W 4 1 .樣本均值(向量)記 弓=上£一 稱=(.不元.七)'為樣本均值向最. “12,樣本離差陣記= X(%-吊)( -可),稱s= (%)”為樣本離差陣.3 .樣本協(xié)差陣毛爾“=_Ls=(-L7 s.“:為樣本協(xié)差陣.4 .樣本相關(guān)陣稱天=(弓)上夕為樣本和I關(guān)陣.§1-3.1多元正態(tài)分布定義1.5:若夕元隨機向量X=(不&,| 的概率密度函數(shù)為: /(七,力尸)" 二萬; exp - 3(x f)2一(x -“(2萬),iXf|/>0)(1.24) 則稱x=(x,乜,,為了遵從。元正態(tài)分布,也稱虺P元正 態(tài)變量。記為X N&a

8、mp;A)|Z|為協(xié)差陣Z的行列式。二、一般的正態(tài)分布設(shè)隨機向量、=(與,天,,巧,),若其的密度函數(shù)為/(不+,,x)=(如"2國-仁 exp-g(x-M£T (%-/)-oo<A; V+oc其中、=(不多,xy的均值為石(x)=«"j,a .從y(x, /aX-Vi _i)(x一"XX 一“)協(xié)方差為(x /4 X。Z4)(玉一“)(x 一 )(七一幺)2(吃一幺Xx -4,) .;WTa一x.q“) (xp_/Y 稱x =(不受,,巧,)服從均值為E(X),協(xié)方差為E的正態(tài)分布。馬氏是巨商定義:設(shè)總體6為,維總體 (考察,個指標),

9、均值向量為 = (,=2, 一,一,)',協(xié)方差陣為x=(,),則樣品 X=(xx2,.,x/n) z與總體G的馬氏距離定義為2(X,G) = (X -)T(X -)當/n = 1H寸, 2 (x, G)=(一") , )=bb二名詞解釋1、多元統(tǒng)計分析:多元統(tǒng)計分析是運用數(shù)理統(tǒng)計的方法來研究多變量(多指標)問題的理 論和方法,是一元統(tǒng)計學的推廣2、聚類分析:是根據(jù)“物以類聚”的道理,對樣品或指標進行分類的一種多元統(tǒng)計分析方 法。將個體或?qū)ο蠓诸?,使得同一類中的對象之間的相似性比與其他類的對象的相似性更強。 使類內(nèi)對象的同質(zhì)性最大化和類間對象的異質(zhì)性最大化3、隨機變量:是指變

10、量的值無法預(yù)先確定僅以一定的可能性(概率)取值的量。它是由于隨機而獲得的非確定值,是概率中的一個基本概念。即每個分量都是隨機變量的向量為隨機向 量。類似地,所有元素都是隨機變量的矩陣稱為隨機矩陣。4、統(tǒng)計量:多元統(tǒng)計研究的是多指標問題 ,為了了解總體的特征,通過對總體抽樣得到代表 總體的樣本,但因為信息是分散在每個樣本上的 ,就需要對樣本進行加工,把樣本的信息濃縮 到不包含未知量的樣本函數(shù)中,這個函數(shù)稱為統(tǒng)計量三、計算題T6 72、1.設(shè)1 =(A.科啊)砥口花),其中#=(1Q2)6= -44-1 2-14試判斷巧+ 2巧與屋L餐是否獨立?解:10-6-15=_61520-16 2040故出

11、此的聯(lián)合分布為I故不獨立。-1620 )40,2、82.0)60.2 455)-1 = (115,6924)-1、104.3107-14.62108.946414.62103.172-37 376089464、-37 376035.59362、對某地區(qū)農(nóng)村的6名2同歲男嬰的身高、胸圍、上半曾圉進行測量, 得相關(guān)數(shù)據(jù)如下,根據(jù)以往資料,該地區(qū)城市2周歲男嬰的這三個指標的 均值外二(為5%16現(xiàn)欲在事元正態(tài)性的假定下檢驗讀地區(qū)農(nóng)村男嬰是 否與城市男嬰有相同的均值.答:2、假設(shè)檢驗問題;/邛=回% R工內(nèi) r-8,o>經(jīng)計算可得;X-出=2 2 .(43107-1462108 9464、L 二

12、(231384司-14.62103.172-37.3760、8 9464-37 3760 35.5936 ;構(gòu)造檢驗統(tǒng)計量1F =M/-晶)節(jié)(”= 6x70,0741 = 420,445由題目已知/1(3,3) = 29.5,由是琉廣學/。3) = 147.5所以在顯著性水平s= 0 01下,拒絕原設(shè)與 即認為農(nóng)村和城市的2周歲男嬰上述三個 指標的均值有顯著性差異(a = 0.01, oiC,2) = 99.2, Oi 03) =29 5,況00,4) =16.7)答:4、設(shè) =過,凡名劣尸砥(。,辦 協(xié)方差陣£= pP(1)試從E出發(fā)求X的第一總體士成分,(2)試1司當取多大時才

13、能A14由P-P-P主成分的貢獻率達95%以上. =0得特征根為4=1;-pa -i得項對應(yīng)的單位特征向量為仁1故得第一主成分八%亭#舞+興(2)第一個主成分的貢獻率為"的上 95% 4 H+44得p3U.95;4 二1 再 0933題型三解答題1、簡述多元統(tǒng)計分析中協(xié)差陣檢驗的步驟答:第一,提出待檢驗的假設(shè)和H1;第二,給出檢驗的統(tǒng)計量及其服從的分布;第三,給定檢驗水平,查統(tǒng)計量的分布表,確定相應(yīng)的臨界值,從而得到否定域;第四,根據(jù)樣本觀測值計算出統(tǒng)計量的值,看是否落入否定域中, 以便對待判假設(shè)做出決策(拒絕或接受)。2、簡述一下聚類分析的思想答:聚類分析的基本思想, 是根據(jù)一批樣

14、品的多個觀測指標,具體地找出一些能夠度量樣品或指標之間相似程度的統(tǒng)計量,然后利用統(tǒng)計量將樣品或指標進行歸類。把相似的樣品或指標歸為一類,把不相似的歸為其他類。直到把所有的樣品(或指標)聚合完畢.3、多元統(tǒng)計分析的內(nèi)容和方法答:1、簡化數(shù)據(jù)結(jié)構(gòu),將具有錯綜復雜關(guān)系的多個變量綜合成數(shù)量較少且互不相關(guān)的變量, 使研究問題得到簡化但損失的信息又不太多。(1)主成分分析(2)因子分析(3)對應(yīng)分析等2、分類與判別,對所考察的變量按相似程度進行分類。 (1)聚類分析:根據(jù)分析樣本的各研 究變量,將性質(zhì)相似的樣本歸為一類的方法。 (2)判別分析:判別樣本應(yīng)屬何種類型的統(tǒng)計 方法。4、系統(tǒng)聚類法基本原理和步驟

15、答:1)先計算n個樣本兩兩間的距離2)構(gòu)造n個類,每個類只包含一個樣本3)合并距離最近的兩類為一新類4)計算新類與當前各類的距離5)類的個數(shù)是否等于 1,如果不等于回到 3在做6)畫出聚類圖7)決定分類個數(shù)和類5、聚類分析的類型有:答:(1)對樣本分類,稱為 Q型聚類分析(2)對變量分類,稱為 R型聚類分析# Q 型聚類是對樣本進行聚類,它使具有相似性特征 的樣本聚集在一起,使差異性大的樣本分離開來。#R型聚類是對變量進行聚類,它使具有相似性的變量聚集在一起,差異性大的變量分離開來,可在相似變量中選擇少數(shù)具有代表性 的變量參與其他分析,實現(xiàn)減少變量個數(shù),達到變量降維的目的。6、 簡述歐氏距離與

16、馬氏距離的區(qū)別和聯(lián)系。4"簡述歐氏距離與馬氏距離的區(qū)別和聯(lián)系.答I設(shè)p維空間RP中的兩點X=(XrX2XPy和Y= YpY2- YP '0則歐氏距離為 歐氏距離的局B艮有在多元數(shù)據(jù)分析中,其度量不合理.會受到匆際問題中磐岡的影響.設(shè)Z,T是來自均值向量為H,械方差為上的總體G中的p維樣本.則馬氏K巨惠為 一 1- 1D國了:X Y'l XY -當工 =【即單位陣時,D(K,¥、X Y ' X丫=匕/及Y =Y力即次氏SE離口因此,在一定程度上,隙氏£巨離是馬氏距離的特殊情況,馬氏距離是歐氏距離的推廣.7、 試述系統(tǒng)聚類的基本思想。答:系統(tǒng)聚

17、類的基本思想是:距離相近的樣品(或變量)先聚成類,距離相遠的后聚成類, 過程一直進行下去,每個樣品(或變量)總能聚到合適的類中。8對樣品和變量進行聚類分析時所構(gòu)造的統(tǒng)計量分別是什么?簡要說明為什么這樣構(gòu)造?答:對樣品進行聚類分析時,用距離來測定樣品之間的相似程度。因為我們把n個樣本看作p維空間的n個點。點之間的距離即可代表樣品間的相似度。常用的距離為(:明氏距離;&/4)=(£因或一工魅嚴"比.1q取不同值,分為聲(1)絕對距離9】)= X,詆-巴X-1 ,(2)歐氏距離。=(£ |凡1t 一產(chǎn)(3)切比雪夫距離("s)=巴篙區(qū)編-xJk1 戶

18、X. 一"(-)馬氏距離廣 p L工4 +了”k K " 1*,dR3fK(二)蘭氏距離 dj(M) = (Xt - XJ)X-1(X1 -xp對變量的相似性,我們更多地要了解堂量的變化趨勢或變化方向,因此用相關(guān)性迸行衡量口將堂里看作P維空間的向里,一艘用()夾角余弦 /X X2 叭欄工:冷£;)(-)相關(guān)系數(shù)。= '9、在進行系統(tǒng)聚類時,選擇距離公式應(yīng)遵循哪些原則?答:(1)要考慮所選擇的距離公式在實際應(yīng)用中有明確的意義。如歐氏距離就有非常明確的空間距離概念。馬氏距離有消除量綱影響的作用。(2)要綜合考慮對樣本觀測數(shù)據(jù)的預(yù)處理和將要采用的聚類分析方法。如在進行聚類分析之前已經(jīng)對變量作了標準化處理,則通常就可采用歐氏距離。(3)要考慮研究對象的特點和計算量的大小。樣品間距離公式的選擇是一個比較復雜且?guī)в幸欢ㄖ饔^性的問題, 我們應(yīng)根據(jù)研究對象的特點不同做出具體分折。實際中,聚類分析前不妨試探性地多選擇幾個距離公式分別進行聚類,然后對聚類分析的結(jié)果進行對比分析, 以確定最合適的距離測度方法。10、歐式距離的優(yōu)點缺點答:歐式距離(Euclii距離)% = (£5謹 - X/Q” 嚴優(yōu)點:幾何意義明確,簡單,容易掌握,由于中學數(shù)學就已初步接觸,數(shù)學知識不多的人也可以把握它的基本含義。缺點:從統(tǒng)計學的角度看, 使用歐

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論