回歸聚類相關(guān)主成分_第1頁
回歸聚類相關(guān)主成分_第2頁
回歸聚類相關(guān)主成分_第3頁
回歸聚類相關(guān)主成分_第4頁
回歸聚類相關(guān)主成分_第5頁
已閱讀5頁,還剩24頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

專題一類分一.聚類分析析 來性和定量分析結(jié)合起來進行分類工作,從而數(shù)學工具逐漸被引入到了分類學當數(shù)值分類學離。二.聚類分析的定義聚類分析又稱群分析,它是研究對樣品或指標進行分類的一種多元統(tǒng)計方的具體分類情況,通過對觀測數(shù)據(jù)進行分析處理,選定一種度量接近程在經(jīng)濟學中存在的這類問題:不是逐個省市區(qū)進行分析,而較好的做法是通過選取能反映企業(yè)經(jīng)濟效益的代表性指標,如百元固定資產(chǎn)實現(xiàn)利稅,利稅率、產(chǎn)值利稅率,百元銷售收入實現(xiàn)利潤,全員勞動生產(chǎn)率等等,根據(jù)這些指標對30個省市區(qū)進行分類,然后根據(jù)分類結(jié)果對企業(yè)經(jīng)濟效益進行綜合評分,從而得若對某些地區(qū)的物價指數(shù)進行,但是物價指數(shù)包含的內(nèi)容很多,像價格指數(shù)等,由于要的物價指數(shù)很多,通常先對這些物價指數(shù)進行三.聚類分析的內(nèi)種最優(yōu)準則將他們分割為兩類、三類,一直分割到所需的k類為止。這第二節(jié)距離與相一.數(shù)據(jù)的變換方這里有n個樣品,每個樣品測得m項指標(變量),觀測數(shù)據(jù)為xij(i,"n,j,"X1""""""Xj""""""Xx11""""""x1j""""""# # X(ixi1""""""xij""""""# # X(xn1""""""xnj""""""均值x1""""""xj""""""S1""""""Sj""""""極差R1""""""Rj""""""極差=(該組中maxmin,也稱為全距1n這些數(shù)據(jù)當中,均值定義形式為:xj nt

(j1,,"

(j1,

,1nn(xx1nn(xx txx (i1,"n;j1," *差陣為:S*S(S),其中: n(xx)(xx) 1*

ijn

t

n

t

xtiCovX,YDXDYCovX,YDXDYXY

——X與YDXYDXDY2CovX,YCovX,YEXYEXEY——協(xié)方差CovXXDX設(shè)n維 量X1,X2"Xn的二階混合中心矩均存在CijCovXi,YjEXiEXiXjEXj,i,j1," Cc 2n ——XX"X的協(xié)方差 ij

n

nn x xy y22211f2211

212 2

2

2 1 exp1xC1x 22C x1 1 c

,

,C

c12 122x2 2 22 1 推廣到n維情況:fx,x"x exp1xC1x,這里 1 22C x

EX1x1 1

X

2,

2

C是XX"X的協(xié)方差# # xn

n

EXn n維正態(tài)分布的重要性質(zhì):(1)n維隨 量X1,X2"Xn服從n維正態(tài)分布性組合l1X1l2X2"lnXn服從一維正態(tài)分布;

X1X2"Xn的任意(2)若X1X2"Xn服從n維正態(tài)分布,設(shè)Y1,Y2",Xjj1,"的線性函數(shù),則Y1,Y2,",也服 正態(tài)分布(線性變換不變性(3)設(shè)X1X2"Xn服從nX1,X2"Xn相互獨立X1X2"Xn兩兩】xxijx (i1,"n;j1,"SSj變換后每個變量的樣本均值為0,標準差為1,并且標準化變換后的數(shù)據(jù){x*}xxijx (i1,"n;j1,"RRjx01,并且*1x極差正規(guī)化變換(規(guī)格化變換xijminx 1t (i1,"n;j1,"RRj變換后的數(shù)據(jù)0x*11xlog(x (x (i1,"n;j1,"二.樣品間的距離和相似描述樣品間的親疏程度最常用的是距離,由先前表格數(shù)據(jù),用dijX(i)Xj)之間的距離,一般要求dij0對一切i,j;當dij0X(i)Xjdijdji對一切i,jdijdikdkj對一切i,jk(三角不等式);閔距離

d(q)[mt

x

q

(i,j1,"mdij(1)xitxjtt1m

(i,j1,"

(2)

(i,j1,"xm2 t ,如用1xm2 tq時,Chebyshevdij()maxxitx

(i,j1,"蘭氏距離(xij0由Lance和Williams最早,定義為(L)1

xitx

(xx) (i,j1,,"t 馬氏距離X(iXj)dij(M)(X(i)X(j))S1(X(i)X(j) (i,j1,"其中S1為樣本協(xié)差陣的逆 m mdij[2(xikxjk)(xilxjl)rklmk1l

(i,j1,"其中rkl為變量XkXl之間的相關(guān)系數(shù)三.變量間的相似系數(shù)和距Cij1XiaX (a0,常數(shù)Cij1i,jCijCjii,j

變量Xi的n次觀測值(x1i,x2i"xni)看成n的向量,則Xi和Xj夾角ij的余弦稱為兩向量的相似系數(shù),記為Cij(1),即:C(1)

xtitnnx2t2xn] t tnnx2t2xn當ij時,夾角ij0,Cij(1)1,XiXjij90,Cij(10,常用rij表示,在這里我們記為Cij(2),即:n(xtixi)(xtjxjCij(2)

t

(i,j1," (xtixi (xx t t當ijCij(2)1

Cij(2)1

1

d21C (i,j,", S(sij)0dijsiisjj- (i,j1,,"注意:聚類分析帶有非常強的實用主義特征,在分類方法和最終類別數(shù)的確定上,檢驗和統(tǒng)計指標并非至關(guān)重要,結(jié)果是否適用專題二歸分回歸分析(Regressionysis)是研究變量之間作用關(guān)系的一種統(tǒng)計分析方一、歷史19SirFrancisGalton,1822-1911)發(fā)展起來的概念也是高爾頓第一次使用的,他是怎樣產(chǎn)生這些概念的呢?1870年,高爾頓和他的學生,也是另一位現(xiàn)代統(tǒng)計學的奠基人(K.Pearson)在研究人類1078二、回歸分析的種類按回歸方程的表現(xiàn)形式不同,可分為線性回歸分析和非線性回歸分析三、回歸分析的主要內(nèi)容四、一元線性回歸分析xy兩個變量無明顯因果關(guān)系,則存在著兩個回歸方程:一個是直線回歸方程中,回歸系數(shù)b可以是正值,也可以是負值。若b0,表示直線上升,說明兩個變量同方向變動;若b0,表示直線下降,說明

ycaa,b為回歸方程參數(shù)。其中,a是直yx等于0時,因變量所達到的數(shù)值;b是直線的斜率,在回歸方程中亦稱為回歸系數(shù),它表示當自變量x每變動一個單位時,因變量y平均變動的數(shù)值。yyc的離差平方和為最小值,即QyyQyyc)2=根據(jù)微積分中求極值的原理,需分別對ab0,經(jīng)過整理, xy x 解此方程組,可求得abbnxyx nx2(ay例1:可支配收入(千元)消費支元)xybnxyxy 66247356204 nx2( 1051656 aybx47.30.7266.2yc0.360.72120=86.04yyc n( n(yy例2:xy(yyc y2cn10y2cn10差3.546千元。估計標準誤差用來說明各實際觀察值對回歸直線的接近情況,Sy例3:從某所大學中隨機選取8名女大學生,其身高和體重數(shù)據(jù)如下表所示:12345678身高體重量y,作散點圖。得到回歸方程是y?0.849x相關(guān)分析一、相關(guān)關(guān)系的概念Y與該商品的銷售量Q以及該商品價格P之間的關(guān)系可以用下列公式表示:YQ的變動而變動,Q的某一個具體數(shù)值,Y就有唯一確定的值與之相對應(yīng);在商品的銷售數(shù)量YP的變化而變化。又如圓的面積與二、關(guān)關(guān)三、相關(guān)分析的主要內(nèi)容專題三主成分分析(主分量分析第一節(jié)主成分分析的一.主成分分PrincipalComponentysis,最早是在1901年由KarlParson對非隨量的討論中引入的,1933年,Holing又將該方法推廣到了隨量。主成分分析就是設(shè)法將原來指標重新組合成一組新的互相無關(guān)的幾個綜合Eg1:要做一件上衣,要測量許多尺寸,如身長、袖長、、腰圍、二.基本思均是對同事物的反,不可免的造成信的大量,這種信息的有甚至會抹事物的真特征和在規(guī)律?;陨系膯?, 若將選取的第一個線性組合即第一個綜合指標記為F1,自然希望F1盡可能F1的方差來表達,即Var(F1)越大,表示F1包含的信息越多。<例一個花瓶個信息熵的概念,越是復(fù)雜、的東西其信息熵越大。>因此,在所有的線組合中所選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分。若第一主成分不足以代表原來p個指標的信息,再考慮選取F2即選第二個線性組合,為了有效的反映原來的信息F1已有的信息就不需要再出現(xiàn)F2中,數(shù)學上就稱為 第二節(jié)主成分分析的數(shù)學模型及幾何解釋一.數(shù)學模設(shè)有np項指標(變量)X1X2"Xp,得到原始數(shù) " X 2 # "x

(X1,X2"Xp n np

(共有n個樣品,每個樣pp個n維向量。x1i X

2i

i," #niXp個分量(p個指標向量)X1X2",Xp作線性組合,也就FaXaX"a 12 p or記為

FaX X"a 1p 2 Fia1iX1a2iX2"apiXp i,"Xi是n維向量,從而Fi也是n維向量以上的方程組要求:a2a2"a21,i,"p(這是一個一般化的限制要求 且aijFiFi(ij,ij,"p不相關(guān)F1X1X2",Xp的一切線性組合(系數(shù)滿足上述方程組)F2F1X1X2",Xp的一切線性組合(系數(shù)滿足上述方程組中方差最大的,",F(xiàn)pF1F1,"Fp1都不X1X2",Xp的切線性組合中方差最大的每個方程式中的系數(shù)向量(a1ia2i,"api),i1,"p不是別的,而恰X的協(xié)差陣的特征值所對應(yīng)的特征向量,即,使Var(F1達到最大,這個最大值就是在的第一個特征值所對應(yīng)的特征向量處達到。同理,使Var(Fp達到最大值是在p數(shù)學模型中為什么做線性組合數(shù)學上容易處理;每次主成分的選取使Var(Fi最大,若不加限制就可能使Var(Fia2a2"a21,i,", 二.主成分的幾何意從代數(shù)學觀點看主成分就是p個變X1X2"Xp的一些特殊的線性組X1X2"Xp構(gòu)成的坐標系旋轉(zhuǎn)產(chǎn)生的新坐標系,設(shè)有npX1X2",Xp,它們的綜合變量記F1F2"Fpp2時,原變量是X1,X2,則:XX1X2N2坐標軸F1,短軸方向取坐標軸F2,這就相當于在平面上作了一個坐標變換按逆時針方向旋轉(zhuǎn) FXCosXSinFXSin

Ui 2 2顯然UU1并且是正交矩陣(U'U1)F1軸上的波動,而在F2軸上的波動很小。如果上圖的橢圓相當扁平,則我最終只要取第一個綜合變量F1F1即橢圓長軸。第三節(jié)主成分的推導(dǎo)和App階實對稱矩陣,則一定可以找到正交陣U # # 0" p其中12"pA的特征根A的特征根所對應(yīng)的單位特征向量為u1"up"u,u" (u"u) 2p # u,u"u p ppuiiuj0UU'U'UI一.主成分的推設(shè)FaXaX"a a'X1 2 paa1a2"ap)',XX1X2"X求主成分就是尋找X的線性函數(shù)pa'XVar(a'X)E(a'XE(a'X))(a'XE(a'Xa'E(XE(X))(XE(X))'設(shè)協(xié)差陣的特征根為12p0,相應(yīng)的單位特征向量為u1u2"up, (u"u)

u,u"u 2p(p # u,u"u p pp由前面線性代數(shù)定理可知:U'UUUI

0 0 U

U'uuii p

i∵a'aia'uu'ai(a'ui)(a'ui)'i(a'uip

a'a(a'u)2a'u(a'u)'a'uu'aa'a 而且,當au1

u'uu'(uu')uu'uu'u(u'u)2

ii

i1ii 1 因此au1使Var(a'Xa'a V

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論