應(yīng)用多元統(tǒng)計分析第八章列聯(lián)與對應(yīng)分析_第1頁
應(yīng)用多元統(tǒng)計分析第八章列聯(lián)與對應(yīng)分析_第2頁
應(yīng)用多元統(tǒng)計分析第八章列聯(lián)與對應(yīng)分析_第3頁
應(yīng)用多元統(tǒng)計分析第八章列聯(lián)與對應(yīng)分析_第4頁
應(yīng)用多元統(tǒng)計分析第八章列聯(lián)與對應(yīng)分析_第5頁
已閱讀5頁,還剩73頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

應(yīng)用多元統(tǒng)計分析第八章列聯(lián)與對應(yīng)分析第1頁,共78頁,2023年,2月20日,星期四

第八章——列聯(lián)分析與對應(yīng)分析第2頁,共78頁,2023年,2月20日,星期四列聯(lián)分析第3頁,共78頁,2023年,2月20日,星期四二維列聯(lián)表

例8.1關(guān)于某項政策調(diào)查所得結(jié)果:table7.sav觀點:不贊成觀點:贊成合計男女231835475865合計4182123表8.1第4頁,共78頁,2023年,2月20日,星期四列聯(lián)表前面就是一個所謂的二維列聯(lián)表(contingencytable).列聯(lián)表是由兩個或兩個以上的變量進(jìn)行交叉分類的頻數(shù)分布表。這些變量中每個都有兩個或更多的可能取值。這些取值也稱為水平;比如觀點有兩個水平,性別有兩個水平等。第5頁,共78頁,2023年,2月20日,星期四列聯(lián)表一般將橫向變量的劃分類別視為R,縱向變量的劃分類別視為C,則可以將列聯(lián)表稱為R×C列聯(lián)表。上表即為2×2列聯(lián)表。在SPSS數(shù)據(jù)中,收入的“低”、“中”、“高”用代碼1、2、3代表;性別的“女”、“男”用代碼0、1代表;觀點“贊成”和“不贊成”用1、0代表。第6頁,共78頁,2023年,2月20日,星期四列聯(lián)表的分布列聯(lián)表有兩個分布:一個是觀察值的分布;一個是期望值的分布;第7頁,共78頁,2023年,2月20日,星期四sex*opinionCrosstabulation

opinion

不贊成贊成

sex女184765

%withinsex27.6972.31100.00%

男Count233558

%withinsex39.6660.34100.00%Total

Count4182123

%withinsex33.3366.67100.00%第8頁,共78頁,2023年,2月20日,星期四觀察值的分布事實上,表8.2就是一個最簡單的觀察值的分布。觀察值分布雖然反映了數(shù)據(jù)的分布,但因為基數(shù)不同,不適合于進(jìn)行對比。為了能在此相統(tǒng)的基數(shù)上比較,使列聯(lián)表中的數(shù)據(jù)提供更多的信息,可以計算相應(yīng)的百分比。第9頁,共78頁,2023年,2月20日,星期四期望值的分布如果我們想進(jìn)一步了解不同性別的人對這項政策的觀點是否存在著顯著的差異,就要進(jìn)行檢驗。從邏輯上講,如果男女性別的人對這項政策的看法相同,那么男性不贊同方案的人應(yīng)為:58×33.3%=19人,女性不贊同方案的人應(yīng)為:65×33.3%=22人。這19人和22人就是本例中的期望值,由此可以計算出期望值的分布。第10頁,共78頁,2023年,2月20日,星期四期望值的分布

表8.3期望值分布表觀點:不贊成觀點:贊成合計男女58×33.3%=1965×33.3%=2258×66.7%=3965×66.7%=435865合計4182第11頁,共78頁,2023年,2月20日,星期四對比分布表表8.4觀察值與期望值頻數(shù)對比分布表觀點:不贊成觀點:贊成男:觀察值

期望值女:觀察值

期望值2319182235394743第12頁,共78頁,2023年,2月20日,星期四期望值的分布如果男女性別對該性政策的觀點相同,就應(yīng)有:那么表8.4中,觀察值和期望值就應(yīng)當(dāng)非常接近。對于這個假設(shè)的檢驗,可以采用分布進(jìn)行檢驗。第13頁,共78頁,2023年,2月20日,星期四

分布與檢驗第14頁,共78頁,2023年,2月20日,星期四用f0表示觀察值頻數(shù),fe表示期望值的頻數(shù),則統(tǒng)計量為:

統(tǒng)計量由于值的大小與觀察值與期望值的配對數(shù),即R×C有關(guān),所以,統(tǒng)計量的分布與自由度有關(guān)。自由度=(R-1)(C-1)第15頁,共78頁,2023年,2月20日,星期四分布第16頁,共78頁,2023年,2月20日,星期四檢驗

檢驗可在交叉匯總分析中進(jìn)行:SPSS選項:

Analyze——DescriptiveStatistics—Crosstabs然后選擇statistics,再選檢驗即可。第17頁,共78頁,2023年,2月20日,星期四檢驗結(jié)果第18頁,共78頁,2023年,2月20日,星期四檢驗實際上有不止一個X2檢驗統(tǒng)計量。包括PearsonX2統(tǒng)計量和似然比(likelihoodratio)X2統(tǒng)計量;它們都有漸近的X2分布。根據(jù)計算可以得到(對于這兩個統(tǒng)計量均有)p-值大于0.05。第19頁,共78頁,2023年,2月20日,星期四此外還有精確的統(tǒng)計量——Fisher精確檢驗;它不是X2分布,而是超幾何分布。對本問題,計算Fisher統(tǒng)計量得到的p-值也大于0.05。聰明的同學(xué)必然會問,既然有精確檢驗為什么還要用近似的X2檢驗?zāi)兀窟@是因為當(dāng)數(shù)目很大時,超幾何分布計算相當(dāng)緩慢(比近似計算會差很多倍的時間);而且在計算機(jī)速度不快時,根本無法計算。因此人們多用大樣本近似的X2統(tǒng)計量。第20頁,共78頁,2023年,2月20日,星期四我們以上介紹的是列聯(lián)表中一致性的檢驗,但是列聯(lián)表分析中用的更多的是檢驗變量之間是否存在相關(guān)關(guān)系,即獨立性檢驗。我們?nèi)杂胻able7.sav的例子:第21頁,共78頁,2023年,2月20日,星期四觀點與收入是否相關(guān)的檢驗H0:觀點和收入這兩個變量不相關(guān);H1:這兩個變量相關(guān)。第22頁,共78頁,2023年,2月20日,星期四列聯(lián)表中的相關(guān)測量利用檢驗對列聯(lián)表中變量之間的相互關(guān)系進(jìn)行檢驗之后,如果認(rèn)為拒絕原假設(shè),變量之間存在聯(lián)系,那么,接下來的問題就是它們之間的相關(guān)程度有多大?第23頁,共78頁,2023年,2月20日,星期四列聯(lián)表中的相關(guān)測量SPSS中提供了多種相關(guān)檢驗的方法:定距變量與定距變量相關(guān)的檢驗名義變量與名義變量相關(guān)的檢驗序次變量與序次變量相關(guān)的檢驗第24頁,共78頁,2023年,2月20日,星期四第25頁,共78頁,2023年,2月20日,星期四X2分布的期望值準(zhǔn)則利用X2分布進(jìn)行檢驗時,要求樣本容量必須足夠大,特別是每個單元中的期望頻數(shù)不能過小,否則應(yīng)用X2檢驗可能會得出錯誤的結(jié)論。一項準(zhǔn)則是:如果只有兩個單元,每個單元的期望頻數(shù)必須是5或以上。另一準(zhǔn)則是:如果有兩個以上的單元,如果20%的單元期望頻數(shù)小于5,則不能應(yīng)用X2檢驗。第26頁,共78頁,2023年,2月20日,星期四X2分布的期望值準(zhǔn)則例如表8.5中的數(shù)據(jù)可以計算,因為6個單元中只有1個單元的期望頻數(shù)小于5。類別f0feABCDEF2849186922026472348825合計213213第27頁,共78頁,2023年,2月20日,星期四X2分布的期望值準(zhǔn)則但是表8.6中的數(shù)據(jù)不能應(yīng)用檢驗。類別f0feABCDEFG301108623554321138724241合計263263第28頁,共78頁,2023年,2月20日,星期四X2分布的期望值準(zhǔn)則如果我們仔細(xì)觀察會發(fā)現(xiàn),表8.6中的f0與fe非常接近,最大的差別只是3,應(yīng)當(dāng)說期望值與觀察值擬合得很好,它們之間并無顯著差別。然而,用X2檢驗得到的結(jié)果卻是拒絕原假設(shè),差異顯著。解決的方法是:將小單元合并,使得fe大于5。第29頁,共78頁,2023年,2月20日,星期四對應(yīng)分析第30頁,共78頁,2023年,2月20日,星期四行和列變量的相關(guān)問題在因子分析中,或者對指標(biāo)(列中的變量)進(jìn)行分析,或者對樣品(觀測值或行中的變量)進(jìn)行分析。另外,在處理實際問題中,樣品的個數(shù)遠(yuǎn)遠(yuǎn)大于指標(biāo)個數(shù)。如有100個樣品,每個樣品測10個指標(biāo),要做樣品的因子分析,就要計算(100×100)階相似系數(shù)陣的特征根和特征向量,這對于計算機(jī)來說也是一想耗時費力的事情。第31頁,共78頁,2023年,2月20日,星期四行和列變量的相關(guān)問題然而,在很多情況下,所關(guān)心的不僅僅是行或列本身變量之間的關(guān)系,而是行變量和列變量的相互關(guān)系;這就是因子分析等方法所沒有說明的了。先看一個例子。第32頁,共78頁,2023年,2月20日,星期四例7.1—數(shù)據(jù)文件:ChMath.sav在研究讀寫漢字能力與數(shù)學(xué)的關(guān)系的研究時,人們?nèi)〉昧?32個美國亞裔學(xué)生的數(shù)學(xué)成績和漢字讀寫能力的數(shù)據(jù)。關(guān)于漢字讀寫能力的變量有三個水平:“純漢字”——可以完全自由使用純漢字讀寫,“半漢字”——讀寫中只有部分漢字(比如日文),“純英文”——只能夠讀寫英文而不會漢字。而數(shù)學(xué)成績有4個水平(A、B、C、D)。第33頁,共78頁,2023年,2月20日,星期四例7.1—數(shù)據(jù)文件:ChMath.sav這項研究是為了考察漢字具有的抽象圖形符號的特性能否會促進(jìn)兒童空間和抽象思維能力。該數(shù)據(jù)以列聯(lián)表形式展示在表中:第34頁,共78頁,2023年,2月20日,星期四人們可以對這個列聯(lián)表進(jìn)行前面所說的X2檢驗來考察行變量和列變量是否獨立。結(jié)果在下面表(通過Analyze-DescriptiveStatistics-Crosstabs)第35頁,共78頁,2023年,2月20日,星期四對應(yīng)分析由于所有的檢驗都很顯著,看來兩個變量的確不獨立。但是如何用象因子分析的載荷圖那樣的直觀方法來展示這兩個變量各個水平之間的關(guān)系呢?這就是本章要介紹的對應(yīng)分析(correspondenceanalysis)方法。對應(yīng)分析是將指標(biāo)型的因子分析與樣品型的因子分析結(jié)合起來進(jìn)行的統(tǒng)計分析。第36頁,共78頁,2023年,2月20日,星期四對應(yīng)分析它是從指標(biāo)型因子分析出發(fā),而直接獲得樣品因子分析的結(jié)果。概括起來,因子分析可以提供三方面的信息:指標(biāo)之間的關(guān)系;樣品之間的關(guān)系;指標(biāo)與樣品之間的關(guān)系。第37頁,共78頁,2023年,2月20日,星期四對應(yīng)分析的基本思想由于指標(biāo)型的因子分析和樣品型的因子分析都是反映一個整體的不同側(cè)面,以它們之間一定存在內(nèi)在的聯(lián)系。對應(yīng)分析就是通過一個過渡矩陣Z將兩者有機(jī)的結(jié)合起來:即:首先給出指標(biāo)變量點的協(xié)差陣A=Z’Z和樣品點的協(xié)差陣B=ZZ’,由于兩者有相同的非零特征根,記為:第38頁,共78頁,2023年,2月20日,星期四如何得到過渡矩陣Z?設(shè)有n個樣品,每個樣品有p個指標(biāo),原始資料陣為:假定矩陣X的元素都>0第39頁,共78頁,2023年,2月20日,星期四如何得到過渡矩陣Z?第40頁,共78頁,2023年,2月20日,星期四如何得到過渡矩陣Z?如果我們將n個樣品看成是p維空間的點,則其n個點的坐標(biāo)用下面的形式表示:稱為n個樣品點第41頁,共78頁,2023年,2月20日,星期四如何得到過渡矩陣Z?如果要對樣品分類,就可以用樣品點的距離遠(yuǎn)近來刻劃.若引入歐氏距離則任兩個樣品點K與L之間的歐氏距離為:為了消除各變量的數(shù)量級不同,如第k各變量有較大的數(shù)量級,在計算距離時就會抬高這個變量的作用尺度差異的影響。第42頁,共78頁,2023年,2月20日,星期四如何得到過渡矩陣Z?所以再用系數(shù)去乘距離公式就得到一個加權(quán)的距離公式。第43頁,共78頁,2023年,2月20日,星期四如何得到過渡矩陣Z?也可以說上式是坐標(biāo)為的n個樣品點群中兩個樣品點K與L之間的距離。第44頁,共78頁,2023年,2月20日,星期四如何得到過渡矩陣Z?類似,兩個變量i與j之間的加權(quán)距離為:通過計算兩兩樣品點或兩兩變量點之間的距離,可以對樣品點或變量點進(jìn)行分類,但是這樣還不能用圖表示出來。為了能直觀地表現(xiàn)出變量點與樣品點之間的關(guān)系,必須計算出變量點的協(xié)差陣和樣品點的協(xié)差陣。第45頁,共78頁,2023年,2月20日,星期四如何得到過渡矩陣Z?為得到協(xié)差陣,必須先給出樣品點中第j個變量的均值:因此,可以寫出樣品空間中變量點的協(xié)差陣,即第i個變量與第j個變量的協(xié)差陣為:第46頁,共78頁,2023年,2月20日,星期四如何得到過渡矩陣Z?第47頁,共78頁,2023年,2月20日,星期四令Z=(zij),則有:

A=Z’Z即變量點的協(xié)差陣可以表示成Z’Z的形式類似,可以得到樣品點的協(xié)差陣:

B=ZZ’A與B兩矩陣明顯的存在這簡單的對應(yīng)關(guān)系,而且將原始數(shù)據(jù)變換成zij后,

zij對于i,j是對等的,即zij對變量和樣品具有對等性.而且A與B的非零特征根相同.第48頁,共78頁,2023年,2月20日,星期四如果A的特征根對應(yīng)的特征向量為則B的特征根對應(yīng)的特征向量就是ZU.根據(jù)這個結(jié)論,可以很方便的借助指標(biāo)型因子分析而得到樣品型因子分析的結(jié)論。第49頁,共78頁,2023年,2月20日,星期四對應(yīng)分析的基本思想如果對每組變量選擇前兩列因子載荷,那么兩組變量就可以畫出兩個因子載荷的散點圖。由于這兩個圖所表示的載荷可以配對,于是就可以把這兩個因子載荷的兩個散點圖畫到同一張圖中,并以此來直觀地顯示各行變量和各列變量之間的關(guān)系。下面通過對ChMath.sav數(shù)據(jù)的計算和結(jié)果分析來介紹對應(yīng)分析。第50頁,共78頁,2023年,2月20日,星期四首先看對應(yīng)分析結(jié)果的一個主要SPSS展示,然后再解釋該圖的來源和解釋。運用純漢字的點和最好的數(shù)學(xué)成績A最接近,而不會漢字只會英文的點與最差的數(shù)學(xué)成績F(或者D,雖然在縱坐標(biāo)稍有差距)最接近,而用部分漢字的和數(shù)學(xué)成績B接近。第51頁,共78頁,2023年,2月20日,星期四對應(yīng)分析輸出—各維匯總表第52頁,共78頁,2023年,2月20日,星期四表中的術(shù)語SingularValue-奇異值(是慣量的平方根),反映了是行與列各水平在二維圖中分量的相關(guān)程度,是對行與列進(jìn)行因子分析產(chǎn)生的新的綜合變量的典型相關(guān)系數(shù)。Inertia-慣量,實際上就是常說的特征根,表示的是每個維度對變量各個類別之間差異的解釋量。第53頁,共78頁,2023年,2月20日,星期四表中的術(shù)語ChiSquare-就是關(guān)于列聯(lián)表行列獨立性x2檢驗的x2統(tǒng)計量的值,和前面表中的相同。其后面的Sig為在行列獨立的零假設(shè)下的p-值,注釋表明自由度為(4-1)×(3-1)=6,Sig.值很小說明列聯(lián)表的行與列之間有較強(qiáng)的相關(guān)性。ProportionofInertia-慣量比例,是各維度(公因子)分別解釋總慣量的比例及累計百分比,類似于因子分析中公因子解釋能力的說明。第54頁,共78頁,2023年,2月20日,星期四輸出結(jié)果解釋從該表可以看出,由于第一維的慣量比例占了總比例的93.9%,因此,其他維的重要性可以忽略(雖然畫圖時需要兩維,但主要看第一維-橫坐標(biāo))。在對應(yīng)分析中,每個變量的類別差異是通過直觀圖上的分值距離表現(xiàn)出來的,但這個距離并不是我們通常所說的距離,而是經(jīng)過加權(quán)的距離,在加權(quán)的過程中,以卡方值的差異表現(xiàn)。第55頁,共78頁,2023年,2月20日,星期四第56頁,共78頁,2023年,2月20日,星期四行變量的有關(guān)內(nèi)容第57頁,共78頁,2023年,2月20日,星期四行變量的有關(guān)內(nèi)容第一部分是關(guān)于行變量每一類別在兩個維度上的分值情況,實際上就是每一類別在坐標(biāo)途中的坐標(biāo),Mass為行與列的邊緣概率。第二部分(ContributionofPointtoInertiaofDimention)是說明行變量各個類別對每一維度特征值的影響,數(shù)值越大的類別,說明它對類別間差異的影響越大。第三部分(ContributionofDimentiontoInertiaofPoint)是說明每一維度對行變量各個類別特征值的影響。第58頁,共78頁,2023年,2月20日,星期四列變量的有關(guān)內(nèi)容

第59頁,共78頁,2023年,2月20日,星期四第60頁,共78頁,2023年,2月20日,星期四第61頁,共78頁,2023年,2月20日,星期四第62頁,共78頁,2023年,2月20日,星期四對應(yīng)分析的SPSS實現(xiàn)首先對數(shù)據(jù)進(jìn)行加權(quán)SPSS選項:Analyze—DataReduction——CorrespondenceAnalysis然后把“漢字使用”選入Row(行),再點擊DefineRange來定義其范圍為1(Minimumvalue)到3(Maximumvalue),之后點擊Update。類似地,點擊Continue之后,把“數(shù)學(xué)成績”選入Column(列),并以同樣方式定義其范圍為1到4。由于其他選項可以用默認(rèn)值,就可以直接點擊OK來運行了。這樣就得到上述表格和點圖。

第63頁,共78頁,2023年,2月20日,星期四例7.2數(shù)據(jù)文件:

收入等級與消費支出.sav

眾所周知,收入水平不同,消費支出的結(jié)構(gòu)也會不同?,F(xiàn)將收入等級分為:困難戶、最低收入戶、低收入戶、中等偏下戶、中等收入戶、中等偏上戶、高收入戶、最高收入戶。將消費支出分為:食品、衣著、家庭設(shè)備、醫(yī)療、交通通訊、文娛、居住、雜項。第64頁,共78頁,2023年,2月20日,星期四Spss對應(yīng)分析結(jié)果第65頁,共78頁,2023年,2月20日,星期四分析結(jié)果解釋由匯總表中可知,第一維慣量所占比例達(dá)到96.2%,前兩維慣量的累積比例為99.3%,說明前兩維慣量能很充分地代表數(shù)據(jù)的信息。而且由于第一維所占比例很高,所以第一維的橫坐標(biāo)表現(xiàn)了絕大部分的差異,而縱坐標(biāo)則可以忽略。

第66頁,共78頁,2023年,2月20日,星期四行變量的有關(guān)內(nèi)容第67頁,共78頁,2023年,2月20日,星期四行變量的有關(guān)內(nèi)容由行變量有關(guān)內(nèi)容可知:在第一維度上食品、家庭設(shè)備和雜項的差異影響最大,而且從坐標(biāo)上的分值來看來,食品與家庭設(shè)備和雜項處于兩個不同的方向。說明在消費上食品與家庭設(shè)備和雜項

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論