有序分類數(shù)據(jù)的變量間線性依存關(guān)系的估計(jì)_第1頁(yè)
有序分類數(shù)據(jù)的變量間線性依存關(guān)系的估計(jì)_第2頁(yè)
有序分類數(shù)據(jù)的變量間線性依存關(guān)系的估計(jì)_第3頁(yè)
有序分類數(shù)據(jù)的變量間線性依存關(guān)系的估計(jì)_第4頁(yè)
有序分類數(shù)據(jù)的變量間線性依存關(guān)系的估計(jì)_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

有序分類數(shù)據(jù)的變量間線性依存關(guān)系的估計(jì)

0總體方法和模型因此,有必要通過(guò)有序分類數(shù)據(jù)提供更精確、更可靠的相關(guān)系數(shù),即相關(guān)系數(shù)的平均值,并將其解釋為“多個(gè)相關(guān)系數(shù)”。多分格相關(guān)系數(shù)的起源可以追溯到皮爾遜,他早在20世紀(jì)初就定義四分格相關(guān)系數(shù)來(lái)計(jì)算每個(gè)變量各有2個(gè)分類情況下的相關(guān)系數(shù)。隨后,又將四分格相關(guān)拓展到超過(guò)2個(gè)分類的情況,誕生了多分格相關(guān)系數(shù)的概念。皮爾遜之后,多分格相關(guān)系數(shù)的研究在很長(zhǎng)一段時(shí)期內(nèi)沒(méi)有更多的進(jìn)展。直到上世紀(jì)七十年代,在計(jì)算機(jī)技術(shù)的支持下,以O(shè)lsson為代表的一些學(xué)者重新對(duì)多分格相關(guān)系數(shù)的估計(jì)方法進(jìn)行了探討,產(chǎn)生了“兩步法”等估計(jì)方法。八九十年代,它和結(jié)構(gòu)方程模型(StructuralEquationModeling,簡(jiǎn)寫為SEM)技術(shù)相結(jié)合,產(chǎn)生了面向有序分類數(shù)據(jù)的結(jié)構(gòu)方程模型分析法。其間,香港的Lee和Poon等人還對(duì)多變量下的多分格相關(guān)系數(shù)估計(jì)和不完整數(shù)據(jù)下的多分格相關(guān)系數(shù)估計(jì)進(jìn)行了研究。近10年來(lái),以多分格相關(guān)系數(shù)為基礎(chǔ)的因素分析方法和結(jié)構(gòu)方程模型已經(jīng)進(jìn)入了實(shí)際應(yīng)用的階段,并在應(yīng)用中表現(xiàn)出了具體的優(yōu)勢(shì)。皮爾遜相關(guān)系數(shù)的使用范圍是等距數(shù)據(jù)或等比例數(shù)據(jù),多分格相關(guān)系數(shù)適用于兩個(gè)變量同為有序分類變量的情況;如果一個(gè)變量為分類變量,而另一個(gè)是連續(xù)變量,就需要使用多序列相關(guān)。本文將不在這里對(duì)多序列相關(guān)詳細(xì)介紹,有興趣的研究者可以查閱Olsson或Drasgow的論文。1格相關(guān)系數(shù)估算方法1.1ai與bi之間的關(guān)系假設(shè)有兩個(gè)觀察變量x和y,即被試對(duì)兩道題目的選擇情況,這兩個(gè)變量是有序分類數(shù)據(jù);x和y分別生成自兩個(gè)不可觀察到的潛變量ξ和η,也就是我們想要測(cè)量的被試對(duì)兩道題目的真實(shí)感覺(jué);x和y分別有r個(gè)和s個(gè)分類,即題目的選項(xiàng)數(shù)。x和ξ的關(guān)系可以描述為如下表達(dá)式:y和η的關(guān)系也可以用類似的方式表示,我們將使用b1,b2,…,bs-1來(lái)代替ai作為η變量的邊界值。在這里,ai和bi被稱為“臨界點(diǎn)”,且a0=b0=-∞,ar=bs=+∞。如果直接對(duì)變量x和y求皮爾遜相關(guān),得到的是兩個(gè)觀察變量的相關(guān)ρxy,而實(shí)際上我們期望獲得的是兩個(gè)潛變量間的相關(guān)ρξη?,F(xiàn)在,假設(shè)變量x和y分別被2個(gè)臨界點(diǎn)分為3個(gè)分類,其對(duì)應(yīng)的潛變量ξ和η服從二元正態(tài)分布,可以用圖1來(lái)解釋這一關(guān)系。兩坐標(biāo)軸分別表示兩個(gè)潛變量,95%的樣本落在圖中橢圓型的區(qū)域內(nèi),斜線表示兩個(gè)潛變量間的回歸線。整個(gè)坐標(biāo)空間被4個(gè)“臨界點(diǎn)”分為了9個(gè)區(qū)域,每個(gè)區(qū)域內(nèi)有nij個(gè)觀察到的樣本,例如,觀察值x=2,y=3的樣本數(shù)量就等于n23。推廣到一般情況,對(duì)于兩個(gè)變量的有序分類數(shù)據(jù),樣本分布可以被總結(jié)為一張r×s的表格,表格中每個(gè)單元格為對(duì)應(yīng)變量取值的樣本數(shù)量。由于無(wú)法獲知ξ和η的真實(shí)度量刻度,假設(shè)其為μξ=μη=0,σξ2=ση2=1的標(biāo)準(zhǔn)二元正態(tài)分布下,概率密度函數(shù)準(zhǔn)(ξ,η;ρ如下:那么,觀察到X=xi,Y=yj的可能性就為1.2基于聯(lián)合最大限度的擬然估計(jì)接下來(lái)的問(wèn)題就是如何利用方程(2)和(3),以及我們觀察到的樣本分布來(lái)估計(jì)相關(guān)系數(shù)ρ。一種方法是聯(lián)合極大似然估計(jì)法,這是最常見(jiàn)的參數(shù)估計(jì)法。如果用nij表示實(shí)際觀察到X=xi,Y=yj的樣本數(shù),則總樣本數(shù)為那么樣本的對(duì)數(shù)似然函數(shù)為要想獲得相關(guān)系數(shù)ρ的極大似然估計(jì)值,就需要對(duì)l求ρ的一階導(dǎo)并使其等于零。對(duì)l求一階導(dǎo)數(shù)得到的表達(dá)式為需要注意的是,方程(5)中不僅相關(guān)系數(shù)ρ是未知參數(shù),臨界點(diǎn)ai和bj也同樣未知。所以,在估計(jì)ρ時(shí),ai和bj需要同時(shí)被估計(jì)。Olsson已經(jīng)給出了利用牛頓-拉夫遜跌代法進(jìn)行極大似然估計(jì)所需的表達(dá)式。從蒙特卡洛(MonteCarlo)仿真的結(jié)果看,聯(lián)合極大似然估計(jì)法獲得的估計(jì)值非常接近真實(shí)值,但由于它需要同時(shí)對(duì)相關(guān)系數(shù)和臨界點(diǎn)進(jìn)行估計(jì),當(dāng)變量分類較多的時(shí)候,計(jì)算開(kāi)銷大。為了減少計(jì)算,Martinson和Hamdan提出可以用臨界點(diǎn)的邊界累積比率來(lái)取代其估計(jì)值,然后只對(duì)相關(guān)系數(shù)ρ進(jìn)行極大似然估計(jì),該方法被稱為“兩步法”。第三種估值方法是Lancaster和Hamdan開(kāi)發(fā)的“多項(xiàng)序列法”,多項(xiàng)序列法的本質(zhì)是先對(duì)r×s表中每四個(gè)相鄰單元格的觀察值求四分格相關(guān),然后使用正交方程理論把這些四分格相關(guān)系數(shù)整合起來(lái)。該方法計(jì)算量也較小,但是由于其估計(jì)值與前兩者有較大差距,所以并不為人常用。Olsson和Drasgow的研究都證明,聯(lián)合極大似然法和兩步法的估計(jì)值非常接近,但兩步法的計(jì)算卻開(kāi)銷大幅下降,所以綜合考慮,“兩步法”是對(duì)多分格相關(guān)系數(shù)進(jìn)行估計(jì)的最好選擇。1.3通過(guò)相關(guān)系數(shù)估計(jì),檢驗(yàn)各相關(guān)方的相關(guān)估計(jì)為了證實(shí)多分格相關(guān)系數(shù)在分類數(shù)據(jù)分析上的優(yōu)勢(shì),Olsson,Babakus、Ferguson和J觟reskog,Lee和Poon,Quiroga,Flora和Curran進(jìn)行了一系列蒙特卡洛仿真研究。具體做法是,人為設(shè)定兩個(gè)變量間的相關(guān)系數(shù)(這里被稱為真實(shí)值),然后使用峰度、偏度和數(shù)據(jù)的分類數(shù)目組合成不同條件,生成一個(gè)相當(dāng)樣本量(如500或1000)的樣本;接著,分別使用皮爾遜相關(guān)系數(shù)和多分格相關(guān)系數(shù)對(duì)這兩個(gè)變量間的相關(guān)進(jìn)行估計(jì);最后,檢驗(yàn)?zāi)姆N估計(jì)值與真實(shí)值之間的偏差最小。綜合這些仿真研究,可以得出以下四點(diǎn)結(jié)論:(1)對(duì)于有序分類數(shù)據(jù),多分格相關(guān)系數(shù)的估計(jì)值在絕大多數(shù)情況下要比皮爾遜相關(guān)準(zhǔn)確很多;(2)無(wú)論哪種相關(guān)系數(shù),分類的類別數(shù)越多,相關(guān)系數(shù)的估計(jì)就越準(zhǔn)確,皮爾遜相關(guān)系數(shù)的這種趨勢(shì)比多分格相關(guān)系數(shù)更為明顯;(3)兩種相關(guān)系數(shù)估計(jì)的準(zhǔn)確性受樣本量大小的影響都相對(duì)較小,很難給出一個(gè)明確趨勢(shì)的判定;(4)非正態(tài)分布對(duì)多分格相關(guān)系數(shù)估計(jì)值的準(zhǔn)確度影響有限,它的估值表現(xiàn)相對(duì)穩(wěn)定(Robust),但皮爾遜相關(guān)系數(shù)受樣本分布的影響顯著,特別是當(dāng)數(shù)據(jù)呈明顯偏態(tài)分布且多個(gè)變量偏斜的方向不一致時(shí),皮爾遜相關(guān)系數(shù)被扭曲的相當(dāng)嚴(yán)重。2格致相關(guān)系數(shù)的應(yīng)用2.1基于估計(jì)誤差的因素分析設(shè)計(jì)方法本分多分格相關(guān)系數(shù)最大的應(yīng)用體現(xiàn)在了其與結(jié)構(gòu)方程模型和因素分析的結(jié)合。結(jié)構(gòu)方程模型是社會(huì)科學(xué)研究中的一個(gè)非常重要的方法,它彌補(bǔ)了傳統(tǒng)統(tǒng)計(jì)方法的不足,成為多元數(shù)據(jù)分析的重要工具。結(jié)構(gòu)方程模型的基本原理是使包含各估計(jì)參數(shù)的模型協(xié)方差矩陣,與樣本協(xié)方差矩陣或樣本相關(guān)矩陣最為接近。那么,樣本相關(guān)(或協(xié)方差)矩陣估值的精確性就決定了結(jié)構(gòu)方程模型分析結(jié)果的準(zhǔn)確性。當(dāng)分析有序分類數(shù)據(jù)時(shí),如果使用皮爾遜相關(guān)計(jì)算而來(lái)的樣本相關(guān)矩陣,其相關(guān)系數(shù)上的估計(jì)誤差就會(huì)被引入到對(duì)結(jié)構(gòu)方程模型的分析中,這樣很有可能導(dǎo)致錯(cuò)誤的結(jié)論。Olsson進(jìn)行得分類數(shù)據(jù)的因素分析中,就發(fā)現(xiàn)較少的分類數(shù)目、呈偏態(tài)分布的數(shù)據(jù)、較高的因素載荷都會(huì)導(dǎo)致普通的因素分析產(chǎn)生偏差;特別是高偏度分布的數(shù)據(jù),即便是在分類數(shù)目較多的情況下,其模型的因素載荷估計(jì)值依舊偏差明顯。Distefano使用結(jié)構(gòu)方程模型對(duì)正態(tài)分布的分類數(shù)據(jù)進(jìn)行分析,結(jié)果證明以皮爾遜相關(guān)為基礎(chǔ)的估計(jì)法在參數(shù)估計(jì)值、標(biāo)準(zhǔn)誤和因子間相關(guān)三項(xiàng)指標(biāo)上都存在較大的偏差,而以多分格相關(guān)為基礎(chǔ)的估計(jì)值則偏差很小。為了準(zhǔn)確、有效地分析有序分類數(shù)據(jù),以多分格相關(guān)系數(shù)為基礎(chǔ)的結(jié)構(gòu)方程模型被發(fā)展起來(lái)。其中,Muthén建議使用“加權(quán)最小二乘法”(WeightedLeastSquares)進(jìn)行估計(jì),并在1984年給出了詳細(xì)的解決方案。Lee,Poon和Bentler提出的“兩段極大似然估計(jì)法”從另一個(gè)角度給出了有關(guān)算法。J觟reskog和S觟rbom開(kāi)發(fā)了基于多分格相關(guān)系數(shù)的“對(duì)角線加權(quán)最小二乘法”估計(jì)法。而且,他們還把這些方法加入到了其開(kāi)發(fā)的結(jié)構(gòu)方程模型軟件LISREL,Mplus和EQS之中。研究者只需要在進(jìn)行分析時(shí)指明哪些變量為有序分類數(shù)據(jù),這些軟件就會(huì)直接使用基于多分格和多序列相關(guān)的方法進(jìn)行分析。目前,該問(wèn)題依處于不斷發(fā)展之中,Bollen和Olivares在2007年還提出了一種名為“多分格輔助變量法”的估計(jì)器來(lái)分析有序分類數(shù)據(jù)。2.2測(cè)量模型檢驗(yàn)和結(jié)構(gòu)效度檢驗(yàn)在統(tǒng)計(jì)軟件的有力配合之下,基于多分格相關(guān)系數(shù)的結(jié)構(gòu)方程模型和因素分析被直接應(yīng)用到了社會(huì)科學(xué)的各種研究之中。Bjorner等人1998年發(fā)表的論文對(duì)丹麥語(yǔ)的SF-36健康調(diào)查表的測(cè)驗(yàn)屬性進(jìn)行過(guò)分析,結(jié)果發(fā)現(xiàn)在的在高峰度、高偏度的分布,或者具有“天花板效應(yīng)”的子樣本中,多分格相關(guān)系數(shù)的結(jié)果能更多的支持理論假設(shè),而皮爾遜相關(guān)有可能低估題目與所屬因子間的關(guān)系。Flora等人在研究中,試圖證明自控測(cè)驗(yàn)存在著二階因子,即在該量表的6個(gè)因子之上存在一個(gè)總的自控因子。在該論文之前的一些研究中,也有人曾經(jīng)試圖去建立這樣的結(jié)構(gòu),但是由于使用存在較大誤差的皮爾遜相關(guān)系數(shù),夸大了測(cè)量誤差,沒(méi)能成功驗(yàn)證二階模型。Flora等人采用基于多分格相關(guān)系數(shù)的驗(yàn)證性因素分析,發(fā)現(xiàn)高階因子的結(jié)構(gòu)與數(shù)據(jù)擬合良好,從而證明了“自控”高階因子的存在。Bell-Ellison和Dedrick等人在考察不同性別的博士研究生是否具有不同的理想導(dǎo)師觀念時(shí),使用基于有序分類數(shù)據(jù)的驗(yàn)證性因素分析檢驗(yàn)34道題目的理想導(dǎo)師量表(IdeaMentorScale,IMS)的結(jié)構(gòu)效度。對(duì)美國(guó)中西部研究型大學(xué)收集到博士生樣本的分析表明,三因素模型的擬合結(jié)果并不理想,其中一些題目間的殘差有較高的相關(guān)關(guān)系,需要對(duì)該量表的結(jié)構(gòu)重新進(jìn)行考察和調(diào)整。Holgado-Tello等人使用多分格相關(guān)系數(shù)為基礎(chǔ)的方法重新檢驗(yàn)了培訓(xùn)滿意度評(píng)定量表的效度,檢驗(yàn)的結(jié)果發(fā)現(xiàn),基于多分格相關(guān)系數(shù)獲得的量表結(jié)構(gòu)更符合實(shí)際經(jīng)驗(yàn)。我國(guó)臺(tái)灣地區(qū)的鄭海蓮和陳世玉在編制標(biāo)準(zhǔn)化空間能力測(cè)驗(yàn)時(shí),也使用多分格相關(guān)系數(shù)的方法來(lái)檢驗(yàn)量表的構(gòu)想效度。3基于分析模型的統(tǒng)計(jì)方法還存在著一些不一致的問(wèn)題無(wú)論從理論分析還是仿真研究上看,多分格相關(guān)系數(shù)都比皮爾遜相關(guān)系數(shù)更適合用作估計(jì)由量表測(cè)試獲得的有序分類數(shù)據(jù)間的線性關(guān)系,給出的估計(jì)值要更為精確一些。特別是在分類數(shù)目較少(題目選項(xiàng)少于5個(gè)),或數(shù)據(jù)呈明顯的偏態(tài)分布時(shí),皮爾遜相關(guān)系數(shù)被扭曲的比較嚴(yán)重,而多分格相關(guān)系數(shù)卻表現(xiàn)穩(wěn)定,給出的估計(jì)值依舊偏差很小?!皟刹椒ā北蛔C明估計(jì)準(zhǔn)確且計(jì)算開(kāi)銷小,該方法成為進(jìn)行多分格相關(guān)系數(shù)估計(jì)的主要方法。對(duì)有序分類數(shù)據(jù)進(jìn)行因素分析或其它結(jié)構(gòu)方程模型分析的時(shí)候,如果數(shù)據(jù)呈明顯的非正態(tài)分布,以多分格相關(guān)系數(shù)為基礎(chǔ)的方法也可以獲得更準(zhǔn)確的模型估計(jì)。實(shí)證研究也證明,在某些情況下,基于多分格相關(guān)系數(shù)的因素分析能夠更加有效地驗(yàn)證我們的研究假設(shè)。但基于多分格相關(guān)系數(shù)的統(tǒng)計(jì)方法,目前還存在著一些有待改進(jìn)的地方那個(gè)。比如,以多分格相關(guān)基礎(chǔ)的結(jié)構(gòu)方程模型在樣本量相對(duì)觀察變量較小的情況下,往往較難收斂,或者會(huì)產(chǎn)生一些不合理的結(jié)果(如方差估值為負(fù));另外,判斷結(jié)構(gòu)方程模型擬合程度好壞的指標(biāo)還并不太適合于多分格相關(guān)的估計(jì)法。但無(wú)論如何,以多分格相關(guān)系數(shù)為基礎(chǔ)的結(jié)構(gòu)方程模型為分析有序分類數(shù)據(jù)提供了另外一種方法,它在非正態(tài)分布條件下表現(xiàn)出來(lái)的優(yōu)勢(shì)也值得社會(huì)科學(xué)研究者對(duì)其進(jìn)一步加以考察和應(yīng)用。在社會(huì)科學(xué)的研究中,常常會(huì)遇到這樣一類數(shù)據(jù),數(shù)據(jù)由按順序排列的離散數(shù)據(jù)點(diǎn)組成,比如對(duì)態(tài)度或觀點(diǎn)的測(cè)量中使用的李克特(Likert)式測(cè)驗(yàn)所獲得的數(shù)據(jù)。舉例來(lái)說(shuō),典型的測(cè)量態(tài)度和人格的量表會(huì)對(duì)每道題列出如下選項(xiàng):(1)非常不同意;(2)不同意;(3)不確定;(4)同意;(5)非常同意用這樣的測(cè)驗(yàn)對(duì)一組被試施測(cè),被試的回答就會(huì)是一組有順序的分類數(shù)據(jù)。分類指每道題目有5個(gè)離散的選項(xiàng),而從1到5的順序表示同意程度的逐漸增加。傳統(tǒng)上,我們用從1到5的整數(shù)來(lái)表示每個(gè)選項(xiàng)所代表的程度等級(jí)。這種方法簡(jiǎn)單、易用,已經(jīng)為研究者們所廣泛使用,并在很多統(tǒng)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論