第11章-對應(yīng)分析_第1頁
第11章-對應(yīng)分析_第2頁
第11章-對應(yīng)分析_第3頁
第11章-對應(yīng)分析_第4頁
第11章-對應(yīng)分析_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

主編:費宇,魯筠中國人民大學(xué)出版社,2024年2024/9/5主編:費宇2第11章對應(yīng)分析11.1

對應(yīng)分析基本思想11.2

對應(yīng)分析原理11.3

對應(yīng)分析計算步驟11.4案例分析2024/9/5主編:費宇311.1

對應(yīng)分析基本思想第10章介紹的因子分析分為R型因子分析和Q型因子分析,R型因子分析是研究變量間的相關(guān)關(guān)系,而Q型因子分析是研究樣品之間的相關(guān)關(guān)系.本章討論的對應(yīng)分析(correspondence

analysis)是R型因子分析和Q型因子分析的結(jié)合,利用降維的思想來達(dá)到簡化數(shù)據(jù)結(jié)構(gòu)的目的,它同時對數(shù)據(jù)表中的行和列進行處理,尋求以低維圖表表示數(shù)據(jù)表中行與列之間的關(guān)系,所以對應(yīng)分析本質(zhì)上是一種圖方法.2024/9/5主編:費宇411.1

對應(yīng)分析基本思想對應(yīng)分析主要目的是構(gòu)造一些簡單的指標(biāo)來反映行和列之間的關(guān)系,這些指標(biāo)同時告訴我們在一行里哪些列的權(quán)重更大以及在一列里哪些行的權(quán)重更大.對應(yīng)分析是將R型因子分析和Q型因子分析結(jié)合起來進行統(tǒng)計分析,R型因子分析是對變量(指標(biāo))作因子分析,研究的是變量(指標(biāo))之間的相互關(guān)系;Q型因子分析是對樣品作因子分析,研究的是樣品之間的相互關(guān)系.2024/9/5主編:費宇511.1

對應(yīng)分析基本思想對應(yīng)分析是從R型因子分析出發(fā),直接獲得Q型因子分析的結(jié)果,從而克服由于樣本容量大,作Q型因子分析所帶來的計算上的困難,并且根據(jù)R型因子分析和Q型因子分析的內(nèi)在聯(lián)系,可將變量和樣品同時反映在相同坐標(biāo)軸上,便于對問題進行分析.2024/9/5主編:費宇611.1

對應(yīng)分析基本思想對應(yīng)分析通過由原數(shù)據(jù)矩陣Xn*p出發(fā)構(gòu)建一個過渡矩陣Zn*p,然后得到變量之間的協(xié)方差矩陣SR=ZTZ和樣品之間的協(xié)方差矩陣SQ=ZZT,由矩陣代數(shù)知識知,ZTZ和

ZZT有相同的非零特征值記為

λ1,λ2,…,λm(λ1≥λ2≥…≥λm,0<m<min(n,p))如果SR的特征值λi對應(yīng)的特征向量為ui,而SQ的特征值λi對應(yīng)的特征向量為

.2024/9/5主編:費宇711.1

對應(yīng)分析基本思想由式(10.13)可知變量點對應(yīng)的因子載荷陣為:2024/9/5主編:費宇811.1

對應(yīng)分析基本思想而樣品點對應(yīng)的因子載荷陣為:2024/9/5主編:費宇911.1

對應(yīng)分析基本思想由于SR和SQ的特征值正好是各個公共因子的方差,因此可以用相同的因子軸來同時表示變量點和樣本點,即把變量點和樣本點同時反映在具有相同坐標(biāo)軸的平面上,以便對變量點和樣品點一起進行分析.2024/9/5主編:費宇1011.2

對應(yīng)分析原理1.原始數(shù)據(jù):設(shè)有n個樣品,每個樣品有p個變量,即數(shù)據(jù)矩陣為對X的元素要求都大于0(否則,對所有數(shù)據(jù)同加上一個數(shù)使其滿足大于0的條件).2024/9/5主編:費宇111.原始數(shù)據(jù)用xi.、x.j和x..分別表示X的行和、列和與總和,即2024/9/5主編:費宇122.“概率”2.“概率”令,即,不難看出,,且,因而

可解釋為“概率”;類似地,

可理解為第i個樣品的邊緣概率(i=1,2,…,n),可理解為第j個樣品的邊緣概率(j=1,2,…,p),并稱P為對應(yīng)陣.記式中,是元素均為1的q維向量.2024/9/5主編:費宇132.“概率”式中,是元素均為1的n維向量.向量r和c的元素有時稱為行和列密度(masses).在此我們考慮R型因子分析,從對應(yīng)陣P出發(fā)計算變量的協(xié)方差矩陣,稱為p個變量在第i樣品上的分布輪廓(條件分布),顯然有2024/9/5主編:費宇142.“概率”即坐標(biāo)是用變量在該樣品中的相對比例來表示的,于是對n個樣品的研究轉(zhuǎn)化為對n個樣品點的相對關(guān)系的研究,如果對樣品進行分類,就可以用樣品點的距離遠(yuǎn)近來刻畫.2024/9/5主編:費宇153.歐氏距離3.歐氏距離我們用歐氏距離來刻畫兩個樣品點i與i’之間的距離:

這樣定義的距離有一個缺點,如果第j個變量的概率較大時,(11.6)定義的就會偏高,因此我們用作權(quán)重,得到如下加權(quán)的距離公式

2024/9/5主編:費宇163.歐氏距離3.歐氏距離可以認(rèn)為(11.7)式是坐標(biāo)為

的n個樣品點中樣品點i與i’之間的距離,而且這樣定義的樣品點的第j個變量的用概率pi.的加權(quán)均值為.于是可以寫出樣品空間中變量點的協(xié)方差矩陣為

2024/9/5主編:費宇174.協(xié)方差矩陣4.協(xié)方差矩陣(11.8)式中2024/9/5主編:費宇184.協(xié)方差矩陣若定義

令Z=(zij),則有SR=ZTZ,即變量點的協(xié)方差矩陣可以表示為ZTZ.同理樣本點的協(xié)方差矩陣SQ可以表示為ZZT.由矩陣代數(shù)知,SR=ZTZ與SQ=ZZT有相同的非零特征值,這些相同的特征值恰好表示各個公共因子所提供的方差,因此,變量空間Rp上的第一公共因子與樣本空間Rn2024/9/5主編:費宇194.協(xié)方差矩陣上的第一公共因子相對應(yīng),……,變量空間Rp上的第m公共因子與樣本空間Rn上的第m公共因子相對應(yīng),且各對公共因子在總方差的百分比全部相同.另一方面,如果把所研究的p個變量看成一個屬性變量的p個類目,而把n個樣品看成另一個屬性變量的n個類目,這時原始數(shù)據(jù)陣X就可以看成一張由觀測得到的頻數(shù)表或計數(shù)表.2024/9/5主編:費宇204.協(xié)方差矩陣首先由雙向頻數(shù)表X矩陣得到對應(yīng)陣P:設(shè)n>p,且rank(P)=p.下面我們從代數(shù)學(xué)角度由對應(yīng)陣P來導(dǎo)出數(shù)據(jù)對應(yīng)變換的公式:(1)對P中心化,令式中,

它是假定行與列兩個屬性變量不相關(guān)時在第(i,j)單元上的期望頻數(shù)值.2024/9/5主編:費宇214.協(xié)方差矩陣記,由式(11.4)可得因,所以.令(2)對P標(biāo)準(zhǔn)化得Z,令式中,.2024/9/5主編:費宇224.協(xié)方差矩陣故經(jīng)對應(yīng)變換后所得到的過渡矩陣Z,可以看成是由對應(yīng)陣P經(jīng)中心化和標(biāo)準(zhǔn)化后所得到的矩陣.設(shè)用于檢驗行與列兩個屬性變量是否不相關(guān)的統(tǒng)計量為:2024/9/5主編:費宇234.協(xié)方差矩陣其中,表示第(i,j)單元在檢驗行與列兩個屬性變量是否不相關(guān)時對總統(tǒng)計量的貢獻(cellchi2):故2024/9/5主編:費宇245.幾何含義5.幾何含義從幾何上看,Rp空間中所有樣本點與Rp中各因子軸的距離平方和,以及Rn空間中所有變量點與Rn中相對應(yīng)的各因子軸的距離平方和完全相同,因此,可以把變量點和樣品點同時反應(yīng)在同一因子軸所確定的平面上,即取在同一坐標(biāo)系中,根據(jù)變量點與變量點的的接近程度,樣本點與樣本點的接近程度,變量點與樣本點的接近程度,來對樣本點和變量點同時進行分類.2024/9/5主編:費宇2511.3

對應(yīng)分析計算步驟設(shè)有p個變量的n個樣品觀測數(shù)據(jù)矩陣,其中(否則,對所有數(shù)據(jù)同加上一個數(shù)使其滿足大于0的條件),對數(shù)據(jù)矩陣X作對應(yīng)分析的具體步驟如下:(1)由數(shù)據(jù)矩陣X計算規(guī)格化的對應(yīng)陣(2)計算過渡矩陣(3)計算統(tǒng)計量,計算公式見式(11.14),2024/9/5主編:費宇2611.3

對應(yīng)分析計算步驟用來檢驗行的樣品點和列的變量點是否相關(guān),如果不相關(guān)就不適合做對應(yīng)分析.(4)進行因子分析.1)R型因子分析:計算協(xié)方差矩陣SR=ZTZ的特征值λ1,λ2,…,λp(λ1≥λ2≥…≥λp),按照累積百分比,取前m個特征值λ1,λ2,…,λm,并計算對應(yīng)的單位特征向量,得到2024/9/5主編:費宇2711.3

對應(yīng)分析計算步驟因子載荷矩陣.2)Q型因子分析:有上述求得的特征值,計算SQ=ZZT所對應(yīng)的單位特征向量,得到因子載荷矩陣2024/9/5主編:費宇2811.3

對應(yīng)分析計算步驟3)在同一坐標(biāo)軸上作變量點圖與樣品點圖:分析變量點之間的關(guān)系;分析樣品點之間的關(guān)系;同時綜合分析變量點和樣品點之間的關(guān)系.2024/9/5主編:費宇29例11.1在R基本包MASS中有一個自帶數(shù)據(jù)集caith,它是蘇格蘭北部的凱斯內(nèi)斯郡的居民的頭發(fā)和眼睛顏色的調(diào)查數(shù)據(jù),見表11-1.每一行對應(yīng)一種眼睛的顏色,分別是藍(lán)色(blue)、淺色(light)、中色(medium)和深色(dark).每一列代表一種頭發(fā)的顏色,分別是金色(fair)、紅色(red)、中色(medium)、深色(dark)和黑色(black).?dāng)?shù)值代表人數(shù)(如第1行第2列的38表示藍(lán)眼紅發(fā)的人數(shù)為38).請對表中數(shù)據(jù)進行對應(yīng)分析.表11-1凱斯內(nèi)斯郡的居民頭發(fā)和眼睛顏色的調(diào)查數(shù)據(jù)要求:(1)先從MASS中讀入數(shù)據(jù)caith,并用中文對數(shù)據(jù)集的行和列重新命名;(2)利用中文命名后的數(shù)據(jù)集作對應(yīng)分析;(3)作對應(yīng)分析圖(注意選擇適當(dāng)?shù)膞lim和ylim);(4)對分析結(jié)果和圖形意義作出合理的評價和解釋.例11.19/5/2024主編:費宇30解:(1)讀入數(shù)據(jù),R命令如下:例11.19/5/2024主編:費宇31library(MASS)#加載MASS包data(caith);caith#讀入并展示數(shù)據(jù)caithFairredmediumdarkblackblue326382411103light6881165841884medium3438490941226dark984840368185rownames(caith)=c("藍(lán)色","淺色","中色","深色")#用中文命名行(眼睛顏色)colnames(caith)=c("金發(fā)","紅發(fā)","中色發(fā)","深發(fā)","黑發(fā)")#用中文命名列(頭發(fā)顏色)例11.19/5/2024主編:費宇32caith#展示用中文命名后的數(shù)據(jù)caith

金發(fā)紅發(fā)中色發(fā)深發(fā)黑發(fā)藍(lán)色326382411103淺色6881165841884中色3438490941226深色984840368185(2)作對應(yīng)分析EyeHair=corresp(caith,nf=2)#用函數(shù)corresp作對應(yīng)分析EyeHair#展示對應(yīng)分析結(jié)果例11.19/5/2024主編:費宇33Firstcanonicalcorrelation(s):0.4460.173Rowscores:Columnscores:[,1][,2][,1][,2]藍(lán)色-0.8970.954金發(fā)-1.2191.002淺色-0.9870.510紅發(fā)-0.5230.278中色0.075-1.412中色發(fā)-0.094-1.201深色1.5740.772深發(fā)1.3190.599黑發(fā)2.4521.651(3)作對應(yīng)分析圖biplot(EyeHair,xlim=c(-1,1),ylim=c(-0.3,0.3))#畫對應(yīng)分析圖abline(v=0,h=0)#劃分象限例11.19/5/2024主編:費宇34圖11-1各眼睛顏色對應(yīng)分析因子聚點圖例11.19/5/2024主編:費宇35(4)分析結(jié)果和圖形意義的解釋從對應(yīng)分析圖可以發(fā)現(xiàn):深色眼睛和黑色頭發(fā)距離很近;淺色眼睛和金色頭發(fā)距離很近,藍(lán)色眼睛和金色頭發(fā)距離也很近;中色眼睛和中色頭發(fā)距離較近;而紅發(fā)大致居中偏向于淺色眼睛.說明人類眼睛顏色和頭發(fā)顏色確實存在對應(yīng)關(guān)系,其原因可以從遺傳學(xué)的角度予以解釋.2024/9/5主編:費宇3611.4

案例分析案例11.1(數(shù)據(jù)文件為case11.1)不同省市(或不同經(jīng)濟區(qū)域)因經(jīng)濟、觀念等因素的不同而教育程度不一.2016年各省市6歲及6歲以上人口中未上過學(xué)、小學(xué)、初中、高中、大專及以上文化程度人口數(shù),根據(jù)這些數(shù)據(jù)進行對應(yīng)分析.2024/9/5主編:費宇37案例11.1數(shù)據(jù)文件為case11.1解:先讀取數(shù)據(jù),做卡方檢驗.R程序及結(jié)果如下:#case11.1我國各省市不同文化程度人數(shù)的對應(yīng)分析#打開數(shù)據(jù)文件case11.1.xls,選取A1:F32區(qū)域,然后復(fù)制case11.1<-read.table("clipboard",header=T)#將case11.1.xls數(shù)據(jù)讀入到case11.1中Z=case11.1[,-1]#第一列為樣本名稱,不宜代入做分析chisq.test(Z)#卡方檢驗

Pearson'sChi-squaredtestdata:ZX-squared=63730,df=120,p-value<2.2e-162024/9/5主編:費宇38案例11.1數(shù)據(jù)文件為case11.1p值為,遠(yuǎn)小于0.05,所以拒絕原假設(shè),認(rèn)為因素A和因素B不獨立,即文化程度與省市有密切聯(lián)系,可以進一步進行對應(yīng)分析.作對應(yīng)分析,計算行和列得分,R程序和運行結(jié)果如下:library(MASS)ca1=corresp(Z,nf=2)ca1Firstcanonicalcorrelation(s):0.1980.1152024/9/5主編:費宇39案例11.1數(shù)據(jù)文件為case11.1Rowscores:Columnscores:[,1][,2][,1][,2][1,]-4.67513.1840未上過學(xué)1.5452.528[2,]-2.27520.4422小學(xué)0.9320.487

………初中0.122-0.874[30,]-0.12900.8790高中-0.597-0.581[31,]0.08930.2299大專及以上-2.1091.306繪制對應(yīng)分析圖,R程序和運行結(jié)果如下:rownames(ca1$rscore)=case11.1[,1]#將ca1$rscore的行命名為case11.1的第一列樣本名稱biplot(ca1,cex=0.55);abline(v=0,h=0,lty=3)#作對應(yīng)分析圖(見圖9-1),并分好象限案例11.1數(shù)據(jù)文件為case11.19/5/2024主編:費宇40圖11-2各省市文化程度對應(yīng)分析因子聚點圖案例11.1數(shù)據(jù)文件為case11.19/5/2024主編:費宇41根據(jù)圖11-2可將樣品點和變量分為五類:第一類:變量:大專及以上;樣品:北京.第二類:變量:高中;樣品:上海、天津、江蘇、遼寧、內(nèi)蒙古、山西、廣東、吉林.第三類:變量:初中;案例11.1數(shù)據(jù)文件為case11.19/5/2024主編:費宇42樣品:寧夏、浙江、重慶、山東、湖北、陜西、黑龍江、湖南、河北、海南、河南、江西、安徽、福建、新疆、廣西.第四類:變量:小學(xué);樣品:青海、甘肅、云南、貴州、四川.第五類:變量:未上過學(xué);樣品:西藏.第一類和第五類的樣品中都是只有一個省,北京作為首都,經(jīng)濟發(fā)展、人員素質(zhì)、家庭觀念都提倡教育,案例11.1數(shù)據(jù)文件為case11.19/5/2024主編:費宇43使其大專及以上文化程度人數(shù)相對較多;而西藏受自然環(huán)境、師資力量、教育觀念影響,未上過學(xué)的人相對較多.第四類的樣品為西南“云貴川”地區(qū)和西北青海、甘肅地區(qū),屬于邊窮、民族地區(qū),文化程度為小學(xué)的人數(shù)偏多.用對應(yīng)分析的方法綜合評價我國各省市文化程度人數(shù)分布情況與實際情況基本上是一致的.由于各省市地理位置不同,經(jīng)濟發(fā)展快慢不一,師資力量分布不均,教育觀念差異明顯,各省市文化程度人數(shù)分布不是很均衡.本案例考慮到的因素非常有限,但大體上反映了我國當(dāng)前的現(xiàn)狀,這說明用對應(yīng)分析的方法來評價我國各省市文化程度分布情況是可行的.案例11.1數(shù)據(jù)文件為case11.29/5/2024主編:費宇44將各省市按八大經(jīng)濟區(qū)域進行劃分匯總不同受教育程度人數(shù),結(jié)果如表11-3(數(shù)據(jù)文件為case11.2).解:先讀取數(shù)據(jù),做卡方檢驗.R程序及結(jié)果如下:#case11.2我國八大經(jīng)濟區(qū)域不同文化程度人數(shù)的對應(yīng)分析#打開數(shù)據(jù)文件case11.2.xls,選取A1:F9區(qū)域,然后復(fù)制case11.2<-read.table("clipboard",header=T)#將case11.2.xls數(shù)據(jù)讀入到case11.2中Z=case11.2[,-1]#第一列為樣本名稱,不宜代入做分析chisq.test(Z)#卡方檢驗案例11.1數(shù)據(jù)文件為case11.19/5/2024主編:費宇45p值為,遠(yuǎn)小于0.05,所以文化程度與八大經(jīng)濟區(qū)域有密切聯(lián)系,可以進一步進行對應(yīng)分析.作對應(yīng)分析,計算行和列得分,R程序和運行結(jié)果如下:Pearson'sChi-squaredtestdata:ZX-squared=22611,df=28,p-value<2.2e-16library(MASS)ca2=corresp(Z,nf=2)ca2案例11.1數(shù)據(jù)文件為case11.19/5/2024主編:費宇46Firstcanonicalcorrelation(s):0.12330.06

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論