有序分類數(shù)據(jù)的變量間線性依存關(guān)系的估計_第1頁
有序分類數(shù)據(jù)的變量間線性依存關(guān)系的估計_第2頁
有序分類數(shù)據(jù)的變量間線性依存關(guān)系的估計_第3頁
有序分類數(shù)據(jù)的變量間線性依存關(guān)系的估計_第4頁
有序分類數(shù)據(jù)的變量間線性依存關(guān)系的估計_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

有序分類數(shù)據(jù)的變量間線性依存關(guān)系的估計

0總體方法和模型因此,有必要通過有序分類數(shù)據(jù)提供更精確、更可靠的相關(guān)系數(shù),即相關(guān)系數(shù)的平均值,并將其解釋為“多個相關(guān)系數(shù)”。多分格相關(guān)系數(shù)的起源可以追溯到皮爾遜,他早在20世紀(jì)初就定義四分格相關(guān)系數(shù)來計算每個變量各有2個分類情況下的相關(guān)系數(shù)。隨后,又將四分格相關(guān)拓展到超過2個分類的情況,誕生了多分格相關(guān)系數(shù)的概念。皮爾遜之后,多分格相關(guān)系數(shù)的研究在很長一段時期內(nèi)沒有更多的進(jìn)展。直到上世紀(jì)七十年代,在計算機技術(shù)的支持下,以O(shè)lsson為代表的一些學(xué)者重新對多分格相關(guān)系數(shù)的估計方法進(jìn)行了探討,產(chǎn)生了“兩步法”等估計方法。八九十年代,它和結(jié)構(gòu)方程模型(StructuralEquationModeling,簡寫為SEM)技術(shù)相結(jié)合,產(chǎn)生了面向有序分類數(shù)據(jù)的結(jié)構(gòu)方程模型分析法。其間,香港的Lee和Poon等人還對多變量下的多分格相關(guān)系數(shù)估計和不完整數(shù)據(jù)下的多分格相關(guān)系數(shù)估計進(jìn)行了研究。近10年來,以多分格相關(guān)系數(shù)為基礎(chǔ)的因素分析方法和結(jié)構(gòu)方程模型已經(jīng)進(jìn)入了實際應(yīng)用的階段,并在應(yīng)用中表現(xiàn)出了具體的優(yōu)勢。皮爾遜相關(guān)系數(shù)的使用范圍是等距數(shù)據(jù)或等比例數(shù)據(jù),多分格相關(guān)系數(shù)適用于兩個變量同為有序分類變量的情況;如果一個變量為分類變量,而另一個是連續(xù)變量,就需要使用多序列相關(guān)。本文將不在這里對多序列相關(guān)詳細(xì)介紹,有興趣的研究者可以查閱Olsson或Drasgow的論文。1格相關(guān)系數(shù)估算方法1.1ai與bi之間的關(guān)系假設(shè)有兩個觀察變量x和y,即被試對兩道題目的選擇情況,這兩個變量是有序分類數(shù)據(jù);x和y分別生成自兩個不可觀察到的潛變量ξ和η,也就是我們想要測量的被試對兩道題目的真實感覺;x和y分別有r個和s個分類,即題目的選項數(shù)。x和ξ的關(guān)系可以描述為如下表達(dá)式:y和η的關(guān)系也可以用類似的方式表示,我們將使用b1,b2,…,bs-1來代替ai作為η變量的邊界值。在這里,ai和bi被稱為“臨界點”,且a0=b0=-∞,ar=bs=+∞。如果直接對變量x和y求皮爾遜相關(guān),得到的是兩個觀察變量的相關(guān)ρxy,而實際上我們期望獲得的是兩個潛變量間的相關(guān)ρξη?,F(xiàn)在,假設(shè)變量x和y分別被2個臨界點分為3個分類,其對應(yīng)的潛變量ξ和η服從二元正態(tài)分布,可以用圖1來解釋這一關(guān)系。兩坐標(biāo)軸分別表示兩個潛變量,95%的樣本落在圖中橢圓型的區(qū)域內(nèi),斜線表示兩個潛變量間的回歸線。整個坐標(biāo)空間被4個“臨界點”分為了9個區(qū)域,每個區(qū)域內(nèi)有nij個觀察到的樣本,例如,觀察值x=2,y=3的樣本數(shù)量就等于n23。推廣到一般情況,對于兩個變量的有序分類數(shù)據(jù),樣本分布可以被總結(jié)為一張r×s的表格,表格中每個單元格為對應(yīng)變量取值的樣本數(shù)量。由于無法獲知ξ和η的真實度量刻度,假設(shè)其為μξ=μη=0,σξ2=ση2=1的標(biāo)準(zhǔn)二元正態(tài)分布下,概率密度函數(shù)準(zhǔn)(ξ,η;ρ如下:那么,觀察到X=xi,Y=yj的可能性就為1.2基于聯(lián)合最大限度的擬然估計接下來的問題就是如何利用方程(2)和(3),以及我們觀察到的樣本分布來估計相關(guān)系數(shù)ρ。一種方法是聯(lián)合極大似然估計法,這是最常見的參數(shù)估計法。如果用nij表示實際觀察到X=xi,Y=yj的樣本數(shù),則總樣本數(shù)為那么樣本的對數(shù)似然函數(shù)為要想獲得相關(guān)系數(shù)ρ的極大似然估計值,就需要對l求ρ的一階導(dǎo)并使其等于零。對l求一階導(dǎo)數(shù)得到的表達(dá)式為需要注意的是,方程(5)中不僅相關(guān)系數(shù)ρ是未知參數(shù),臨界點ai和bj也同樣未知。所以,在估計ρ時,ai和bj需要同時被估計。Olsson已經(jīng)給出了利用牛頓-拉夫遜跌代法進(jìn)行極大似然估計所需的表達(dá)式。從蒙特卡洛(MonteCarlo)仿真的結(jié)果看,聯(lián)合極大似然估計法獲得的估計值非常接近真實值,但由于它需要同時對相關(guān)系數(shù)和臨界點進(jìn)行估計,當(dāng)變量分類較多的時候,計算開銷大。為了減少計算,Martinson和Hamdan提出可以用臨界點的邊界累積比率來取代其估計值,然后只對相關(guān)系數(shù)ρ進(jìn)行極大似然估計,該方法被稱為“兩步法”。第三種估值方法是Lancaster和Hamdan開發(fā)的“多項序列法”,多項序列法的本質(zhì)是先對r×s表中每四個相鄰單元格的觀察值求四分格相關(guān),然后使用正交方程理論把這些四分格相關(guān)系數(shù)整合起來。該方法計算量也較小,但是由于其估計值與前兩者有較大差距,所以并不為人常用。Olsson和Drasgow的研究都證明,聯(lián)合極大似然法和兩步法的估計值非常接近,但兩步法的計算卻開銷大幅下降,所以綜合考慮,“兩步法”是對多分格相關(guān)系數(shù)進(jìn)行估計的最好選擇。1.3通過相關(guān)系數(shù)估計,檢驗各相關(guān)方的相關(guān)估計為了證實多分格相關(guān)系數(shù)在分類數(shù)據(jù)分析上的優(yōu)勢,Olsson,Babakus、Ferguson和J觟reskog,Lee和Poon,Quiroga,Flora和Curran進(jìn)行了一系列蒙特卡洛仿真研究。具體做法是,人為設(shè)定兩個變量間的相關(guān)系數(shù)(這里被稱為真實值),然后使用峰度、偏度和數(shù)據(jù)的分類數(shù)目組合成不同條件,生成一個相當(dāng)樣本量(如500或1000)的樣本;接著,分別使用皮爾遜相關(guān)系數(shù)和多分格相關(guān)系數(shù)對這兩個變量間的相關(guān)進(jìn)行估計;最后,檢驗?zāi)姆N估計值與真實值之間的偏差最小。綜合這些仿真研究,可以得出以下四點結(jié)論:(1)對于有序分類數(shù)據(jù),多分格相關(guān)系數(shù)的估計值在絕大多數(shù)情況下要比皮爾遜相關(guān)準(zhǔn)確很多;(2)無論哪種相關(guān)系數(shù),分類的類別數(shù)越多,相關(guān)系數(shù)的估計就越準(zhǔn)確,皮爾遜相關(guān)系數(shù)的這種趨勢比多分格相關(guān)系數(shù)更為明顯;(3)兩種相關(guān)系數(shù)估計的準(zhǔn)確性受樣本量大小的影響都相對較小,很難給出一個明確趨勢的判定;(4)非正態(tài)分布對多分格相關(guān)系數(shù)估計值的準(zhǔn)確度影響有限,它的估值表現(xiàn)相對穩(wěn)定(Robust),但皮爾遜相關(guān)系數(shù)受樣本分布的影響顯著,特別是當(dāng)數(shù)據(jù)呈明顯偏態(tài)分布且多個變量偏斜的方向不一致時,皮爾遜相關(guān)系數(shù)被扭曲的相當(dāng)嚴(yán)重。2格致相關(guān)系數(shù)的應(yīng)用2.1基于估計誤差的因素分析設(shè)計方法本分多分格相關(guān)系數(shù)最大的應(yīng)用體現(xiàn)在了其與結(jié)構(gòu)方程模型和因素分析的結(jié)合。結(jié)構(gòu)方程模型是社會科學(xué)研究中的一個非常重要的方法,它彌補了傳統(tǒng)統(tǒng)計方法的不足,成為多元數(shù)據(jù)分析的重要工具。結(jié)構(gòu)方程模型的基本原理是使包含各估計參數(shù)的模型協(xié)方差矩陣,與樣本協(xié)方差矩陣或樣本相關(guān)矩陣最為接近。那么,樣本相關(guān)(或協(xié)方差)矩陣估值的精確性就決定了結(jié)構(gòu)方程模型分析結(jié)果的準(zhǔn)確性。當(dāng)分析有序分類數(shù)據(jù)時,如果使用皮爾遜相關(guān)計算而來的樣本相關(guān)矩陣,其相關(guān)系數(shù)上的估計誤差就會被引入到對結(jié)構(gòu)方程模型的分析中,這樣很有可能導(dǎo)致錯誤的結(jié)論。Olsson進(jìn)行得分類數(shù)據(jù)的因素分析中,就發(fā)現(xiàn)較少的分類數(shù)目、呈偏態(tài)分布的數(shù)據(jù)、較高的因素載荷都會導(dǎo)致普通的因素分析產(chǎn)生偏差;特別是高偏度分布的數(shù)據(jù),即便是在分類數(shù)目較多的情況下,其模型的因素載荷估計值依舊偏差明顯。Distefano使用結(jié)構(gòu)方程模型對正態(tài)分布的分類數(shù)據(jù)進(jìn)行分析,結(jié)果證明以皮爾遜相關(guān)為基礎(chǔ)的估計法在參數(shù)估計值、標(biāo)準(zhǔn)誤和因子間相關(guān)三項指標(biāo)上都存在較大的偏差,而以多分格相關(guān)為基礎(chǔ)的估計值則偏差很小。為了準(zhǔn)確、有效地分析有序分類數(shù)據(jù),以多分格相關(guān)系數(shù)為基礎(chǔ)的結(jié)構(gòu)方程模型被發(fā)展起來。其中,Muthén建議使用“加權(quán)最小二乘法”(WeightedLeastSquares)進(jìn)行估計,并在1984年給出了詳細(xì)的解決方案。Lee,Poon和Bentler提出的“兩段極大似然估計法”從另一個角度給出了有關(guān)算法。J觟reskog和S觟rbom開發(fā)了基于多分格相關(guān)系數(shù)的“對角線加權(quán)最小二乘法”估計法。而且,他們還把這些方法加入到了其開發(fā)的結(jié)構(gòu)方程模型軟件LISREL,Mplus和EQS之中。研究者只需要在進(jìn)行分析時指明哪些變量為有序分類數(shù)據(jù),這些軟件就會直接使用基于多分格和多序列相關(guān)的方法進(jìn)行分析。目前,該問題依處于不斷發(fā)展之中,Bollen和Olivares在2007年還提出了一種名為“多分格輔助變量法”的估計器來分析有序分類數(shù)據(jù)。2.2測量模型檢驗和結(jié)構(gòu)效度檢驗在統(tǒng)計軟件的有力配合之下,基于多分格相關(guān)系數(shù)的結(jié)構(gòu)方程模型和因素分析被直接應(yīng)用到了社會科學(xué)的各種研究之中。Bjorner等人1998年發(fā)表的論文對丹麥語的SF-36健康調(diào)查表的測驗屬性進(jìn)行過分析,結(jié)果發(fā)現(xiàn)在的在高峰度、高偏度的分布,或者具有“天花板效應(yīng)”的子樣本中,多分格相關(guān)系數(shù)的結(jié)果能更多的支持理論假設(shè),而皮爾遜相關(guān)有可能低估題目與所屬因子間的關(guān)系。Flora等人在研究中,試圖證明自控測驗存在著二階因子,即在該量表的6個因子之上存在一個總的自控因子。在該論文之前的一些研究中,也有人曾經(jīng)試圖去建立這樣的結(jié)構(gòu),但是由于使用存在較大誤差的皮爾遜相關(guān)系數(shù),夸大了測量誤差,沒能成功驗證二階模型。Flora等人采用基于多分格相關(guān)系數(shù)的驗證性因素分析,發(fā)現(xiàn)高階因子的結(jié)構(gòu)與數(shù)據(jù)擬合良好,從而證明了“自控”高階因子的存在。Bell-Ellison和Dedrick等人在考察不同性別的博士研究生是否具有不同的理想導(dǎo)師觀念時,使用基于有序分類數(shù)據(jù)的驗證性因素分析檢驗34道題目的理想導(dǎo)師量表(IdeaMentorScale,IMS)的結(jié)構(gòu)效度。對美國中西部研究型大學(xué)收集到博士生樣本的分析表明,三因素模型的擬合結(jié)果并不理想,其中一些題目間的殘差有較高的相關(guān)關(guān)系,需要對該量表的結(jié)構(gòu)重新進(jìn)行考察和調(diào)整。Holgado-Tello等人使用多分格相關(guān)系數(shù)為基礎(chǔ)的方法重新檢驗了培訓(xùn)滿意度評定量表的效度,檢驗的結(jié)果發(fā)現(xiàn),基于多分格相關(guān)系數(shù)獲得的量表結(jié)構(gòu)更符合實際經(jīng)驗。我國臺灣地區(qū)的鄭海蓮和陳世玉在編制標(biāo)準(zhǔn)化空間能力測驗時,也使用多分格相關(guān)系數(shù)的方法來檢驗量表的構(gòu)想效度。3基于分析模型的統(tǒng)計方法還存在著一些不一致的問題無論從理論分析還是仿真研究上看,多分格相關(guān)系數(shù)都比皮爾遜相關(guān)系數(shù)更適合用作估計由量表測試獲得的有序分類數(shù)據(jù)間的線性關(guān)系,給出的估計值要更為精確一些。特別是在分類數(shù)目較少(題目選項少于5個),或數(shù)據(jù)呈明顯的偏態(tài)分布時,皮爾遜相關(guān)系數(shù)被扭曲的比較嚴(yán)重,而多分格相關(guān)系數(shù)卻表現(xiàn)穩(wěn)定,給出的估計值依舊偏差很小?!皟刹椒ā北蛔C明估計準(zhǔn)確且計算開銷小,該方法成為進(jìn)行多分格相關(guān)系數(shù)估計的主要方法。對有序分類數(shù)據(jù)進(jìn)行因素分析或其它結(jié)構(gòu)方程模型分析的時候,如果數(shù)據(jù)呈明顯的非正態(tài)分布,以多分格相關(guān)系數(shù)為基礎(chǔ)的方法也可以獲得更準(zhǔn)確的模型估計。實證研究也證明,在某些情況下,基于多分格相關(guān)系數(shù)的因素分析能夠更加有效地驗證我們的研究假設(shè)。但基于多分格相關(guān)系數(shù)的統(tǒng)計方法,目前還存在著一些有待改進(jìn)的地方那個。比如,以多分格相關(guān)基礎(chǔ)的結(jié)構(gòu)方程模型在樣本量相對觀察變量較小的情況下,往往較難收斂,或者會產(chǎn)生一些不合理的結(jié)果(如方差估值為負(fù));另外,判斷結(jié)構(gòu)方程模型擬合程度好壞的指標(biāo)還并不太適合于多分格相關(guān)的估計法。但無論如何,以多分格相關(guān)系數(shù)為基礎(chǔ)的結(jié)構(gòu)方程模型為分析有序分類數(shù)據(jù)提供了另外一種方法,它在非正態(tài)分布條件下表現(xiàn)出來的優(yōu)勢也值得社會科學(xué)研究者對其進(jìn)一步加以考察和應(yīng)用。在社會科學(xué)的研究中,常常會遇到這樣一類數(shù)據(jù),數(shù)據(jù)由按順序排列的離散數(shù)據(jù)點組成,比如對態(tài)度或觀點的測量中使用的李克特(Likert)式測驗所獲得的數(shù)據(jù)。舉例來說,典型的測量態(tài)度和人格的量表會對每道題列出如下選項:(1)非常不同意;(2)不同意;(3)不確定;(4)同意;(5)非常同意用這樣的測驗對一組被試施測,被試的回答就會是一組有順序的分類數(shù)據(jù)。分類指每道題目有5個離散的選項,而從1到5的順序表示同意程度的逐漸增加。傳統(tǒng)上,我們用從1到5的整數(shù)來表示每個選項所代表的程度等級。這種方法簡單、易用,已經(jīng)為研究者們所廣泛使用,并在很多統(tǒng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論