




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
2024/7/31主編:費宇1主編:費宇中國人民大學出版社2024/7/31主編:費宇2第11章對應分析11.1
對應分析基本思想11.2
對應分析原理11.3
對應分析計算步驟11.4案例分析2024/7/31主編:費宇311.1
對應分析基本思想第10章介紹的因子分析分為R型因子分析和Q型因子分析,R型因子分析是研究變量間的相關關系,而Q型因子分析是研究樣品之間的相關關系.本章討論的對應分析(correspondence
analysis)是R型因子分析和Q型因子分析的結合,利用降維的思想來達到簡化數(shù)據(jù)結構的目的,它同時對數(shù)據(jù)表中的行和列進行處理,尋求以低維圖表表示數(shù)據(jù)表中行與列之間的關系,所以對應分析本質(zhì)上是一種圖方法.2024/7/31主編:費宇411.1
對應分析基本思想對應分析主要目的是構造一些簡單的指標來反映行和列之間的關系,這些指標同時告訴我們在一行里哪些列的權重更大以及在一列里哪些行的權重更大.對應分析是將R型因子分析和Q型因子分析結合起來進行統(tǒng)計分析,R型因子分析是對變量(指標)作因子分析,研究的是變量(指標)之間的相互關系;Q型因子分析是對樣品作因子分析,研究的是樣品之間的相互關系.2024/7/31主編:費宇511.1
對應分析基本思想對應分析是從R型因子分析出發(fā),直接獲得Q型因子分析的結果,從而克服由于樣本容量大,作Q型因子分析所帶來的計算上的困難,并且根據(jù)R型因子分析和Q型因子分析的內(nèi)在聯(lián)系,可將變量和樣品同時反映在相同坐標軸上,便于對問題進行分析.2024/7/31主編:費宇611.1
對應分析基本思想對應分析通過由原數(shù)據(jù)矩陣Xn*p出發(fā)構建一個過渡矩陣Zn*p,然后得到變量之間的協(xié)方差矩陣SR=ZTZ和樣品之間的協(xié)方差矩陣SQ=ZZT,由矩陣代數(shù)知識知,ZTZ和
ZZT有相同的非零特征值記為
λ1,λ2,…,λm(λ1≥λ2≥…≥λm,0<m<min(n,p))如果SR的特征值λi對應的特征向量為ui,而SQ的特征值λi對應的特征向量為
.2024/7/31主編:費宇711.1
對應分析基本思想由式(10.13)可知變量點對應的因子載荷陣為:2024/7/31主編:費宇811.1
對應分析基本思想而樣品點對應的因子載荷陣為:2024/7/31主編:費宇911.1
對應分析基本思想由于SR和SQ的特征值正好是各個公共因子的方差,因此可以用相同的因子軸來同時表示變量點和樣本點,即把變量點和樣本點同時反映在具有相同坐標軸的平面上,以便對變量點和樣品點一起進行分析.2024/7/31主編:費宇1011.2
對應分析原理1.原始數(shù)據(jù):設有n個樣品,每個樣品有p個變量,即數(shù)據(jù)矩陣為對X的元素要求都大于0(否則,對所有數(shù)據(jù)同加上一個數(shù)使其滿足大于0的條件).2024/7/31主編:費宇111.原始數(shù)據(jù)用xi.、x.j和x..分別表示X的行和、列和與總和,即2024/7/31主編:費宇122.“概率”2.“概率”令,即,不難看出,,且,因而
可解釋為“概率”;類似地,
可理解為第i個樣品的邊緣概率(i=1,2,…,n),可理解為第j個樣品的邊緣概率(j=1,2,…,p),并稱P為對應陣.記式中,是元素均為1的q維向量.2024/7/31主編:費宇132.“概率”式中,是元素均為1的n維向量.向量r和c的元素有時稱為行和列密度(masses).在此我們考慮R型因子分析,從對應陣P出發(fā)計算變量的協(xié)方差矩陣,稱為p個變量在第i樣品上的分布輪廓(條件分布),顯然有2024/7/31主編:費宇142.“概率”即坐標是用變量在該樣品中的相對比例來表示的,于是對n個樣品的研究轉(zhuǎn)化為對n個樣品點的相對關系的研究,如果對樣品進行分類,就可以用樣品點的距離遠近來刻畫.2024/7/31主編:費宇153.歐氏距離3.歐氏距離我們用歐氏距離來刻畫兩個樣品點i與i’之間的距離:
這樣定義的距離有一個缺點,如果第j個變量的概率較大時,(11.6)定義的就會偏高,因此我們用作權重,得到如下加權的距離公式
2024/7/31主編:費宇163.歐氏距離3.歐氏距離可以認為(11.7)式是坐標為
的n個樣品點中樣品點i與i’之間的距離,而且這樣定義的樣品點的第j個變量的用概率pi.的加權均值為.于是可以寫出樣品空間中變量點的協(xié)方差矩陣為
2024/7/31主編:費宇174.協(xié)方差矩陣4.協(xié)方差矩陣(11.8)式中2024/7/31主編:費宇184.協(xié)方差矩陣若定義
令Z=(zij),則有SR=ZTZ,即變量點的協(xié)方差矩陣可以表示為ZTZ.同理樣本點的協(xié)方差矩陣SQ可以表示為ZZT.由矩陣代數(shù)知,SR=ZTZ與SQ=ZZT有相同的非零特征值,這些相同的特征值恰好表示各個公共因子所提供的方差,因此,變量空間Rp上的第一公共因子與樣本空間Rn2024/7/31主編:費宇194.協(xié)方差矩陣上的第一公共因子相對應,……,變量空間Rp上的第m公共因子與樣本空間Rn上的第m公共因子相對應,且各對公共因子在總方差的百分比全部相同.另一方面,如果把所研究的p個變量看成一個屬性變量的p個類目,而把n個樣品看成另一個屬性變量的n個類目,這時原始數(shù)據(jù)陣X就可以看成一張由觀測得到的頻數(shù)表或計數(shù)表.2024/7/31主編:費宇204.協(xié)方差矩陣首先由雙向頻數(shù)表X矩陣得到對應陣P:設n>p,且rank(P)=p.下面我們從代數(shù)學角度由對應陣P來導出數(shù)據(jù)對應變換的公式:(1)對P中心化,令式中,
它是假定行與列兩個屬性變量不相關時在第(i,j)單元上的期望頻數(shù)值.2024/7/31主編:費宇214.協(xié)方差矩陣記,由式(11.4)可得因,所以.令(2)對P標準化得Z,令式中,.2024/7/31主編:費宇224.協(xié)方差矩陣故經(jīng)對應變換后所得到的過渡矩陣Z,可以看成是由對應陣P經(jīng)中心化和標準化后所得到的矩陣.設用于檢驗行與列兩個屬性變量是否不相關的統(tǒng)計量為:2024/7/31主編:費宇234.協(xié)方差矩陣其中,表示第(i,j)單元在檢驗行與列兩個屬性變量是否不相關時對總統(tǒng)計量的貢獻(cellchi2):故2024/7/31主編:費宇245.幾何含義5.幾何含義從幾何上看,Rp空間中所有樣本點與Rp中各因子軸的距離平方和,以及Rn空間中所有變量點與Rn中相對應的各因子軸的距離平方和完全相同,因此,可以把變量點和樣品點同時反應在同一因子軸所確定的平面上,即取在同一坐標系中,根據(jù)變量點與變量點的的接近程度,樣本點與樣本點的接近程度,變量點與樣本點的接近程度,來對樣本點和變量點同時進行分類.2024/7/31主編:費宇2511.3
對應分析計算步驟設有p個變量的n個樣品觀測數(shù)據(jù)矩陣,其中(否則,對所有數(shù)據(jù)同加上一個數(shù)使其滿足大于0的條件),對數(shù)據(jù)矩陣X作對應分析的具體步驟如下:(1)由數(shù)據(jù)矩陣X計算規(guī)格化的對應陣(2)計算過渡矩陣(3)計算統(tǒng)計量,計算公式見式(11.14),2024/7/31主編:費宇2611.3
對應分析計算步驟用來檢驗行的樣品點和列的變量點是否相關,如果不相關就不適合做對應分析.(4)進行因子分析.1)R型因子分析:計算協(xié)方差矩陣SR=ZTZ的特征值λ1,λ2,…,λp(λ1≥λ2≥…≥λp),按照累積百分比,取前m個特征值λ1,λ2,…,λm,并計算對應的單位特征向量,得到2024/7/31主編:費宇2711.3
對應分析計算步驟因子載荷矩陣.2)Q型因子分析:有上述求得的特征值,計算SQ=ZZT所對應的單位特征向量,得到因子載荷矩陣2024/7/31主編:費宇2811.3
對應分析計算步驟3)在同一坐標軸上作變量點圖與樣品點圖:分析變量點之間的關系;分析樣品點之間的關系;同時綜合分析變量點和樣品點之間的關系.2024/7/31主編:費宇29例11.1在R基本包MASS中有一個自帶數(shù)據(jù)集caith,它是蘇格蘭北部的凱斯內(nèi)斯郡的居民的頭發(fā)和眼睛顏色的調(diào)查數(shù)據(jù),見表11-1.每一行對應一種眼睛的顏色,分別是藍色(blue)、淺色(light)、中色(medium)和深色(dark).每一列代表一種頭發(fā)的顏色,分別是金色(fair)、紅色(red)、中色(medium)、深色(dark)和黑色(black).數(shù)值代表人數(shù)(如第1行第2列的38表示藍眼紅發(fā)的人數(shù)為38).請對表中數(shù)據(jù)進行對應分析.表11-1凱斯內(nèi)斯郡的居民頭發(fā)和眼睛顏色的調(diào)查數(shù)據(jù)要求:(1)先從MASS中讀入數(shù)據(jù)caith,并用中文對數(shù)據(jù)集的行和列重新命名;(2)利用中文命名后的數(shù)據(jù)集作對應分析;(3)作對應分析圖(注意選擇適當?shù)膞lim和ylim);(4)對分析結果和圖形意義作出合理的評價和解釋.例11.17/31/2024主編:費宇30解:(1)讀入數(shù)據(jù),R命令如下:例11.17/31/2024主編:費宇31library(MASS)#加載MASS包data(caith);caith#讀入并展示數(shù)據(jù)caithFairredmediumdarkblackblue326382411103light6881165841884medium3438490941226dark984840368185rownames(caith)=c("藍色","淺色","中色","深色")#用中文命名行(眼睛顏色)colnames(caith)=c("金發(fā)","紅發(fā)","中色發(fā)","深發(fā)","黑發(fā)")#用中文命名列(頭發(fā)顏色)例11.17/31/2024主編:費宇32caith#展示用中文命名后的數(shù)據(jù)caith
金發(fā)紅發(fā)中色發(fā)深發(fā)黑發(fā)藍色326382411103淺色6881165841884中色3438490941226深色984840368185(2)作對應分析EyeHair=corresp(caith,nf=2)#用函數(shù)corresp作對應分析EyeHair#展示對應分析結果例11.17/31/2024主編:費宇33Firstcanonicalcorrelation(s):0.4460.173Rowscores:Columnscores:[,1][,2][,1][,2]藍色-0.8970.954金發(fā)-1.2191.002淺色-0.9870.510紅發(fā)-0.5230.278中色0.075-1.412中色發(fā)-0.094-1.201深色1.5740.772深發(fā)1.3190.599黑發(fā)2.4521.651(3)作對應分析圖biplot(EyeHair,xlim=c(-1,1),ylim=c(-0.3,0.3))#畫對應分析圖abline(v=0,h=0)#劃分象限例11.17/31/2024主編:費宇34圖11-1各眼睛顏色對應分析因子聚點圖例11.17/31/2024主編:費宇35(4)分析結果和圖形意義的解釋從對應分析圖可以發(fā)現(xiàn):深色眼睛和黑色頭發(fā)距離很近;淺色眼睛和金色頭發(fā)距離很近,藍色眼睛和金色頭發(fā)距離也很近;中色眼睛和中色頭發(fā)距離較近;而紅發(fā)大致居中偏向于淺色眼睛.說明人類眼睛顏色和頭發(fā)顏色確實存在對應關系,其原因可以從遺傳學的角度予以解釋.2024/7/31主編:費宇3611.4
案例分析案例11.1(數(shù)據(jù)文件為case11.1)不同省市(或不同經(jīng)濟區(qū)域)因經(jīng)濟、觀念等因素的不同而教育程度不一.2016年各省市6歲及6歲以上人口中未上過學、小學、初中、高中、大專及以上文化程度人口數(shù),根據(jù)這些數(shù)據(jù)進行對應分析.2024/7/31主編:費宇37案例11.1數(shù)據(jù)文件為case11.1解:先讀取數(shù)據(jù),做卡方檢驗.R程序及結果如下:#case11.1我國各省市不同文化程度人數(shù)的對應分析#打開數(shù)據(jù)文件case11.1.xls,選取A1:F32區(qū)域,然后復制case11.1<-read.table("clipboard",header=T)#將case11.1.xls數(shù)據(jù)讀入到case11.1中Z=case11.1[,-1]#第一列為樣本名稱,不宜代入做分析chisq.test(Z)#卡方檢驗
Pearson'sChi-squaredtestdata:ZX-squared=63730,df=120,p-value<2.2e-162024/7/31主編:費宇38案例11.1數(shù)據(jù)文件為case11.1p值為,遠小于0.05,所以拒絕原假設,認為因素A和因素B不獨立,即文化程度與省市有密切聯(lián)系,可以進一步進行對應分析.作對應分析,計算行和列得分,R程序和運行結果如下:library(MASS)ca1=corresp(Z,nf=2)ca1Firstcanonicalcorrelation(s):0.1980.1152024/7/31主編:費宇39案例11.1數(shù)據(jù)文件為case11.1Rowscores:Columnscores:[,1][,2][,1][,2][1,]-4.67513.1840未上過學1.5452.528[2,]-2.27520.4422小學0.9320.487
………初中0.122-0.874[30,]-0.12900.8790高中-0.597-0.581[31,]0.08930.2299大專及以上-2.1091.306繪制對應分析圖,R程序和運行結果如下:rownames(ca1$rscore)=case11.1[,1]#將ca1$rscore的行命名為case11.1的第一列樣本名稱biplot(ca1,cex=0.55);abline(v=0,h=0,lty=3)#作對應分析圖(見圖9-1),并分好象限案例11.1數(shù)據(jù)文件為case11.17/31/2024主編:費宇40圖11-2各省市文化程度對應分析因子聚點圖案例11.1數(shù)據(jù)文件為case11.17/31/2024主編:費宇41根據(jù)圖11-2可將樣品點和變量分為五類:第一類:變量:大專及以上;樣品:北京.第二類:變量:高中;樣品:上海、天津、江蘇、遼寧、內(nèi)蒙古、山西、廣東、吉林.第三類:變量:初中;案例11.1數(shù)據(jù)文件為case11.17/31/2024主編:費宇42樣品:寧夏、浙江、重慶、山東、湖北、陜西、黑龍江、湖南、河北、海南、河南、江西、安徽、福建、新疆、廣西.第四類:變量:小學;樣品:青海、甘肅、云南、貴州、四川.第五類:變量:未上過學;樣品:西藏.第一類和第五類的樣品中都是只有一個省,北京作為首都,經(jīng)濟發(fā)展、人員素質(zhì)、家庭觀念都提倡教育,案例11.1數(shù)據(jù)文件為case11.17/31/2024主編:費宇43使其大專及以上文化程度人數(shù)相對較多;而西藏受自然環(huán)境、師資力量、教育觀念影響,未上過學的人相對較多.第四類的樣品為西南“云貴川”地區(qū)和西北青海、甘肅地區(qū),屬于邊窮、民族地區(qū),文化程度為小學的人數(shù)偏多.用對應分析的方法綜合評價我國各省市文化程度人數(shù)分布情況與實際情況基本上是一致的.由于各省市地理位置不同,經(jīng)濟發(fā)展快慢不一,師資力量分布不均,教育觀念差異明顯,各省市文化程度人數(shù)分布不是很均衡.本案例考慮到的因素非常有限,但大體上反映了我國當前的現(xiàn)狀,這說明用對應分析的方法來評價我國各省市文化程度分布情況是可行的.案例11.1數(shù)據(jù)文件為case11.27/31/2024主編:費宇44將各省市按八大經(jīng)濟區(qū)域進行劃分匯總不同受教育程度人數(shù),結果如表11-3(數(shù)據(jù)文件為case11.2).解:先讀取數(shù)據(jù),做卡方檢驗.R程序及結果如下:#case11.2我國八大經(jīng)濟區(qū)域不同文化程度人數(shù)的對應分析#打開數(shù)據(jù)文件case11.2.xls,選取A1:F9區(qū)域,然后復制case11.2<-read.table("clipboard",header=T)#將case11.2.xls數(shù)據(jù)讀入到case11.2中Z=case11.2[,-1]#第一列為樣本名稱,不宜代入做分析chisq.test(Z)#卡方檢驗案例11.1數(shù)據(jù)文件為case11.17/31/2024主編:費宇45p值為,遠小于0.05,所以文化程度與八大經(jīng)濟區(qū)域有密切聯(lián)系,可以進一步進行對應分析.作對應分析,計算行和列得分,R程序和運行結果如下:Pearson'sChi-squaredtestdata:ZX-squared=22611,df=28,p-value<2.2e-16library(MASS)ca2=corresp(Z,nf=2)ca2案例11.1數(shù)據(jù)文件為case11.17/31/2024主編:費宇46Firstcanonicalcorrelation(s):0.12330.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度上市公司股份回購退股協(xié)議
- 2025年度高科技園區(qū)土地租賃服務協(xié)議
- 二零二五年度房屋租賃合同租賃物能源消耗管理補充協(xié)議
- 二零二五年度商業(yè)地產(chǎn)租賃合同(含品牌推廣合作)
- 二零二五年度玉米種植戶土地流轉(zhuǎn)與收購合作協(xié)議
- 2025年度車輛出借免責協(xié)議書:車輛租賃合同違約責任及賠償辦法合同
- 一年級家校共育發(fā)言稿
- 白酒品鑒會發(fā)言稿
- 大學第一課發(fā)言稿
- 2025年沈陽道路運輸從業(yè)資格證考試內(nèi)容是什么
- 2025年黑龍江農(nóng)墾職業(yè)學院單招職業(yè)傾向性測試題庫完整
- 2025年黑龍江旅游職業(yè)技術學院單招職業(yè)傾向性測試題庫附答案
- 《多彩的節(jié)日民俗》(教學設計)浙教版四年級下冊綜合實踐活動
- 2025年黃河水利職業(yè)技術學院單招職業(yè)技能測試題庫新版
- 2025年湖南理工職業(yè)技術學院單招職業(yè)技能測試題庫必考題
- 2025年健康咨詢管理服務合同范文
- 光學鏡片透光率測量基準
- 歷史-貴州省貴陽市2025年高三年級適應性考試(一)(貴陽一模)試題和答案
- 2025中國國際工程咨詢限公司總部社會招聘20人易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年01月2025全國婦聯(lián)所屬在京事業(yè)單位公開招聘93人筆試歷年典型考題(歷年真題考點)解題思路附帶答案詳解
- 輻射安全管理測試題含答案
評論
0/150
提交評論