版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
結(jié)構(gòu)方程中的缺失數(shù)據(jù)處理EM、FIML、MI--軟件操作與理論探討李曉煦2006/10/06香港中文大學(xué)教育心理系第一部分:軟件操作LISREL8.7.2-----專業(yè)的結(jié)構(gòu)方程分析軟件FIML, EMSAS9.1.3---勝任大規(guī)模的數(shù)據(jù),高強(qiáng)度的運(yùn)算MI,EMR2.3.1-----開(kāi)源的公共軟件,靈活的自由編程EM,MILISREL提供的例子瀏覽LISREL的安裝目錄打開(kāi)子目錄…\MISSINGEX\把數(shù)據(jù)文件grant.dat和程序文件MISSEX2A.ls8復(fù)制到自己創(chuàng)建的臨時(shí)練習(xí)目錄中在應(yīng)用任何一方法之前檢查數(shù)據(jù)是否因?yàn)槿笔Фe(cuò)列看最后幾列數(shù)據(jù)的缺失率是否特別大檢查缺失值的標(biāo)記,把不合理的數(shù)值改為缺失用直方圖、散點(diǎn)圖概覽(尤其是數(shù)據(jù)量很大時(shí))Excel中的數(shù)據(jù)預(yù)覽如何導(dǎo)入自由格式、列對(duì)齊格式數(shù)據(jù)到Excel(數(shù)據(jù)獲取外部數(shù)據(jù)導(dǎo)入文本文件)如何在Excel中看直方圖與描述統(tǒng)計(jì)量(工具加載宏勾選“分析工具庫(kù)”,確定;工具數(shù)據(jù)分析選需要的統(tǒng)計(jì)分析功能,點(diǎn)“確定”在彈出窗口點(diǎn)“幫助”)當(dāng)數(shù)據(jù)量大于65526或者變量多于256時(shí),需要用LISREL或者SAS、R之類的軟件LISREL中的數(shù)據(jù)預(yù)覽導(dǎo)入數(shù)據(jù):FileImportData選數(shù)據(jù)文件,確認(rèn)設(shè)定臨時(shí)數(shù)據(jù)文件名,確認(rèn)手工設(shè)定變量個(gè)數(shù)、首行是否變量名看多變量散點(diǎn)圖、單變量直方圖Graphs…留意散點(diǎn)圖中對(duì)鼠標(biāo)右鍵功能的提示;留意直方圖中的樣本量NLISREL中需要定義缺失值DataDefineVariables選變量,點(diǎn)MissingValuesLISREL圖形界面中的缺失值設(shè)置*全部的缺失值都寫(xiě)在下方Globalmissingvalues一欄;如果寫(xiě)在上方Missingvalues欄,Lisrel會(huì)在某些場(chǎng)合不認(rèn)。*除了設(shè)置缺失值,DefineVariables窗口中,還要點(diǎn)VariableTypes設(shè)置變量類型“EM”的兩層意思Expectation-Maximization(EM)是源自缺失數(shù)據(jù)處理的一種參數(shù)估計(jì)算法,在許多廣泛應(yīng)用的模型(比如HLM)上有重要的應(yīng)用缺失數(shù)據(jù)中的EM方法特指用EM算法從含缺失的數(shù)據(jù)估計(jì)出協(xié)方差/相關(guān)系數(shù)矩陣、均值向量。大部分多元統(tǒng)計(jì)模型只需要協(xié)方差和均值輸入。SEM只是其中一種。LISREL中的EM方法標(biāo)記好缺失數(shù)據(jù)后,就可以在圖形界面作EM估計(jì)(StatisticsMultipleImputation在彈出的窗口按缺省設(shè)置點(diǎn)run拷貝編輯.out文件輸出的協(xié)方差矩陣,作為.ls8文件的輸入數(shù)據(jù)MI實(shí)際上是MultipleImputation的縮寫(xiě)。但LISREL并不提供完整的MI功能。EM是三個(gè)方法中最容易實(shí)現(xiàn)的方法,所以FIML和MI都缺省地利用EM方法來(lái)提供迭代的初值。什么是FullInformationMaximizing-Likelihood與EM、MI方法不同,F(xiàn)IML缺失數(shù)據(jù)方法只針對(duì)SEM。假如所有的觀測(cè)缺失的變量都相同,等同于缺失的變量從模型里去掉。按缺失的模式把所有的觀測(cè)分組,每組內(nèi)的數(shù)據(jù)缺失的變量都相同。分組建模,再限制各組的參數(shù)相等,就是FIML方法。FIML方法的具體實(shí)現(xiàn)變化很多,不同的軟件有所差別。LISREL中的FIML法FIML方方法不計(jì)算算協(xié)方差矩矩陣,而是是直接對(duì)樣樣本數(shù)據(jù)建建模。看例例子MISSEX2A.ls8DANI=6……MI=-9RAFI=GRANT.datRA就是Rawdata,,F(xiàn)I就是是File;這一句句取代了通通常CM/KM語(yǔ)句句的協(xié)方差差矩陣輸入入。此外,在DA句中MI就是MissingValue,表示數(shù)數(shù)據(jù)中-9用來(lái)標(biāo)記記缺失數(shù)據(jù)據(jù)。MultipleImputation方法與SingleImputation對(duì)比---SingleImputation就是把所有有缺失位置置給一個(gè)修修補(bǔ)的數(shù)值值,用修補(bǔ)補(bǔ)的結(jié)果建建模MultipleImputation就是按某種種特定的隨隨機(jī)抽樣法法則去修補(bǔ)補(bǔ)。對(duì)多個(gè)個(gè)修補(bǔ)的版版本分別建建模,然后后匯總各個(gè)個(gè)版本的參參數(shù)估計(jì)結(jié)結(jié)果。SAS中的的MI與EM方法SAS是昂昂貴的商業(yè)業(yè)軟件,勝勝任大規(guī)模模(比如樣樣本量超過(guò)過(guò)10萬(wàn))或高運(yùn)算算量的數(shù)據(jù)據(jù)處理與統(tǒng)統(tǒng)計(jì)。SAS的幫幫助文檔內(nèi)內(nèi)容翔實(shí),,范例很具具體。但規(guī)規(guī)模太大,,組織稍有有些亂,初初學(xué)者往往往不能迅速速查到。MI方法適適用于一般般的多元統(tǒng)統(tǒng)計(jì)模型,,比如多層層分析。SAS9的的MI方法法(附帶EM)子子程序是ProcMI,能能提供原始始數(shù)據(jù)替算算缺失值的的多組采樣樣版本,此此外還提供供了ProcMIANALYZE用用于合并各各個(gè)采樣版版本對(duì)應(yīng)的的模型估計(jì)計(jì)結(jié)果。SAS提供的EM與MI的范例EM方法的的范例EM是適用用一般多元元統(tǒng)計(jì)模型型的缺失數(shù)數(shù)據(jù)處理方方法。最后后輸出的是是均值與方方差矩陣的的(無(wú)偏))估計(jì)值。。MI方法的的范例MI輸出的的中間結(jié)果果是原始數(shù)數(shù)據(jù)替算缺缺失值后的的多個(gè)(缺缺省為5個(gè)個(gè))采樣版版本。這些些版本的數(shù)數(shù)據(jù)逐一用用于模型估估計(jì),得到到的估計(jì)參參數(shù)分為兩兩類:一類類是均值估估計(jì),一類類是協(xié)方差差、方差估估計(jì)。這兩兩類參數(shù)都都輸入給ProcMIANALYZE匯總為為最后的結(jié)結(jié)果。*例子中中做的是是多元回回歸模型型。SAS中分分析結(jié)構(gòu)構(gòu)方程模模型的子子程序是是ProcCALIS,參參考*例子中中的ProcMIAnalyze中要把把舊版本本的var改成成新版本本的modeleffectsSAS的的MI范范例解析析原始含缺缺失的數(shù)數(shù)據(jù)(ProcMI)抽樣m份修補(bǔ)補(bǔ)的數(shù)據(jù)據(jù)(模型估計(jì)計(jì))m份參數(shù)數(shù)估計(jì)結(jié)結(jié)果(ProcMIAnalyze)合并一份份最終結(jié)結(jié)果R中的EM、MI方法法Copyleftv.s.CopyrightCopyleft,或或譯為““公共版版權(quán)”、、“版權(quán)權(quán)左派””。Copyleft軟件件提供源源代碼,,允許用用戶修改改、傳播播,但禁禁止化公公為私。。任何人人利用Copyleft源代代碼創(chuàng)作作的軟件件也必須須按Copyleft條款發(fā)發(fā)布。但但只限于于軟件,,不包含含書(shū)籍文文章。R程序任任何的擴(kuò)擴(kuò)展程序序包都免免費(fèi)并開(kāi)開(kāi)放源代代碼。但但關(guān)于R的文章章或書(shū)籍籍仍可以以有版權(quán)權(quán)。在R中安安裝norm程程序包要在R中中應(yīng)用EM方法法,需要要安裝專專門(mén)處理理缺失數(shù)數(shù)據(jù)多元元統(tǒng)計(jì)的的norm程序序包。norm包的主主頁(yè)是::可以下載載norm壓縮縮包,把把壓縮包包里的norm文件夾夾保存到到R安裝裝目錄的的子目錄錄...\library\下;;也可以以在主窗窗口菜單單下選擇擇更新網(wǎng)網(wǎng)站的鏡鏡像PackagesSetCRANMirror,然后點(diǎn)點(diǎn)PackagesInstallPackage(s),在彈出出的程序序包選項(xiàng)項(xiàng)里選擇擇需要添添裝的項(xiàng)項(xiàng)目)。。在R中啟啟動(dòng)程序序包每次啟動(dòng)動(dòng)norm程序序包,需需要在主主窗口菜菜單點(diǎn)Packages->Loadpackage...在彈出的的窗口中中選norm,然然后點(diǎn)確認(rèn)。在命令窗窗里輸入入:help(em.norm)回車,彈彈出的幫幫助窗口口解釋em.norm的用法。。首先從從最后一一段的實(shí)實(shí)例入手手。這段段例子可可以直接接copy運(yùn)行行,得到到EM估估計(jì)的協(xié)協(xié)方差矩矩陣:>data(mdata)#這一一句把數(shù)數(shù)據(jù)框mdata載入R中的EM方法法R中的數(shù)數(shù)據(jù)框agehageweduinckid在命令窗口輸輸入:mdata回回車,看這個(gè)例子所所用的數(shù)據(jù)。。其中NA在在R中標(biāo)記缺缺失數(shù)據(jù)。實(shí)際應(yīng)用中,,用戶還需要要掌握與R交交換數(shù)據(jù)的技技術(shù),把自己己的數(shù)據(jù)輸入入到R形成例例子中的mdata數(shù)據(jù)據(jù)框,把計(jì)算算出來(lái)的相關(guān)關(guān)系數(shù)矩陣存存成外部文件件。*建議初次接接觸R的讀者者首先花一個(gè)個(gè)學(xué)時(shí),通過(guò)過(guò)在R中作練習(xí),學(xué)習(xí)李李東風(fēng)老師的的在線入門(mén)講義前半部分(至至《輸入輸出出》一節(jié))。。R中的“缺失模式””報(bào)告注意語(yǔ)句>s<-prelim.norm(mdata)#dopreliminarymanipulations輸入s回回車看這個(gè)預(yù)預(yù)處理的結(jié)果果[,1][,2][,3][,4][,5]1411111410111111011110011311101111001111100[,1][,2][,3][,4][,5]…[14,]-0.188096030.332783731.09655951.7326544-0.2217664[15,]-0.01709964NA-1.23122460.43300080.6652991…[18,]2.12035526NA-1.65445810.57017361.5523647[19,]2.291351652.38999225NA0.94216740.6652991[20,]0.23939495NANA-0.7662143-0.2217664….R的MI方法法與sem包包R的norm包還提供了了應(yīng)用于一般般MI方法的的子程序。在在命令窗里輸輸入help(mi.inference)和和help(imp.norm)看看相關(guān)的幫助助。更專業(yè)的的MI方法軟軟件包是mitools。在R中分析結(jié)結(jié)構(gòu)方程模型型,需要安裝裝運(yùn)行sem程序包,參考考Fox,J.(2006),StructuralequationmodelingwiiththesempackageinR.StructuralEquationModeling,13:465-486第二部分:理理論背景與方方法比較理念與現(xiàn)狀Rubin的的理論框架EM、FIML、MI各各自的原理三種方法對(duì)比比無(wú)偏性與效率率軟件界面便利利性相互關(guān)系實(shí)質(zhì)性困難現(xiàn)狀:缺失數(shù)數(shù)據(jù)常見(jiàn),令令人滿意的處處理報(bào)告卻罕罕見(jiàn)最糟糕:修飾飾數(shù)據(jù)為整齊齊,不報(bào)告缺缺失數(shù)據(jù)差強(qiáng)人意:報(bào)報(bào)告用列刪法法(LD)、、對(duì)刪法(PD)、或者者單次替算(SI)法專業(yè)水準(zhǔn):采采用近年受到到推薦的FIML、EM或者M(jìn)I方方法不同報(bào)告背后后的理念對(duì)比比整理修飾的數(shù)數(shù)據(jù)信息不完整、、形式整齊含缺失的原數(shù)數(shù)據(jù)形式不整齊、、信息完整影響專業(yè)方法法普及的因素素軟件界面對(duì)方方法普及作用用最關(guān)鍵最直接的因素素是審稿人的的標(biāo)準(zhǔn)--正正在變化不理想的方法法并不是在所所有情況下都都必定導(dǎo)致致致命錯(cuò)誤不同缺失模式式的實(shí)際例子子學(xué)生可能因?yàn)闉槁┙淮痤}紙紙而沒(méi)有成績(jī)績(jī);* 可能因?yàn)闉槠綍r(shí)作業(yè)成成績(jī)優(yōu)秀被豁豁免參加考試試;* 可能因?yàn)闉槟骋豢瓢l(fā)揮揮太差而放棄棄剩下科目;;**可能因因?yàn)榭吹娇季砭硖y而索性性交白卷Rubin經(jīng)經(jīng)典框架的思思路最大似然估計(jì)計(jì)是否可以不不受缺失機(jī)制制影響?只要缺失模式的概概率由模式中中觀測(cè)位的變變量值確定,,獨(dú)立于缺失失位的值IgnorableMissingMissingatRandom(MAR)MCARMNARMCAR,缺缺失模式的概概率與任何變變量值無(wú)關(guān)MNAC,=NotMARMCAR、MNAR與MAR關(guān)系系Expectation-Maximization(EM)算法的突破:Rubin等人(1977)思想:已知模模型參數(shù)時(shí)可可以反過(guò)來(lái)計(jì)計(jì)算缺失位置置上觀測(cè)值的的分布迭代MultipleImputation(MI)Rubin(1987)給出MI算算法的關(guān)鍵基基礎(chǔ)需要抽樣多少少次?如何匯匯總方差估計(jì)計(jì)?思想:多次抽抽樣,類似蒙蒙特卡羅法。與常見(jiàn)的蒙蒙特卡羅法相相比,MI需需要的抽樣次次數(shù)很小。MI抽樣環(huán)節(jié)節(jié)是否最大似似然法則抽樣樣?是否抽均均值估計(jì)點(diǎn)??否!MI抽樣是隨隨機(jī)多次抽,,每次抽樣之之間互相獨(dú)立立。不是只抽抽取似然函數(shù)數(shù)最大值點(diǎn)。。MI不是將抽抽樣作平均后后代入模型,,而是逐一代代入。SEM中的FIML大約在1987年這個(gè)方方法成熟了,在各軟件中中的具體實(shí)現(xiàn)現(xiàn)不盡相同思想把數(shù)據(jù)按缺失失模式分組,,然后在組內(nèi)內(nèi)建立子模型型應(yīng)用SEM中中的多組模型型,約束各組組的參數(shù)相等等。SEM中的比比較:估計(jì)的無(wú)偏性性與效率EMFIMLMI對(duì)飽和模型是最大似然估計(jì)趨近最大似然估計(jì),但要求樣本量大非最大似然估計(jì)。但相對(duì)效率可以接近相等*最大似然估估計(jì)意味著最最優(yōu)效率和MAR下的無(wú)無(wú)偏軟件界面的便便利性EMFIMLMI最方便;主流通用統(tǒng)計(jì)軟件與主流SEM軟件都有實(shí)現(xiàn);而且便于添加輔助變量在主流SEM軟件中有實(shí)現(xiàn);但不方便添加輔助變量最不便。主流SEM軟件中沒(méi)有實(shí)現(xiàn);需要配合其它軟件使用但便于添加輔助變量相互關(guān)系EMFIMLMI其特例MCEM中用到MI思想算法具體步驟可用到EM算法,參數(shù)初值可用EM估計(jì)抽樣所需要的分布的初值可以用EM估計(jì)困難:缺缺少樣本量量的調(diào)整估估計(jì)擬合指標(biāo)EMFIMLMI只能給出協(xié)方差矩陣離差F0,參數(shù)的標(biāo)準(zhǔn)誤差上下界估計(jì)偏差太大只能給出似然比估計(jì)的p值,參數(shù)的標(biāo)準(zhǔn)誤差估計(jì)優(yōu)于EM目前有估計(jì)似然比p值的方法,但未有方便的軟件實(shí)現(xiàn);可以無(wú)偏地估計(jì)參數(shù)標(biāo)準(zhǔn)誤差NO=?樣樣本量更大大好還是更更小好名義上的樣樣本量對(duì)參參數(shù)的均值值估計(jì)、擬擬合指標(biāo)F0沒(méi)有影響。。協(xié)方差與與均值就完完全決定了了這些報(bào)告告值。樣本越多,,協(xié)方差和和均值估計(jì)計(jì)越精確參數(shù)均方誤誤差估計(jì)與與輸入的樣樣本量直接接有關(guān);絕絕大部分?jǐn)M擬合指標(biāo)是是F0和輸入的樣樣本量、模模型自由度度的函數(shù),,因此受輸輸入的樣本本量影響。。用部分?jǐn)?shù)據(jù)據(jù)計(jì)算出的的協(xié)方差建建模,輸入入全部數(shù)據(jù)據(jù)的樣本量量,會(huì)使模模型的報(bào)告告錯(cuò)誤地顯顯得更差;;用全部數(shù)據(jù)據(jù)計(jì)算出的的協(xié)方差建建模,輸入入部分?jǐn)?shù)據(jù)據(jù)的樣本量量,會(huì)使模模型的報(bào)告告錯(cuò)誤地顯顯得更好。。EM、FIML與MI樣本量量問(wèn)題FIML與與MI在建建模時(shí)沒(méi)有有輸入樣本本量的問(wèn)題題,但在報(bào)報(bào)告時(shí)仍然然有樣本量量的問(wèn)題。。報(bào)告的p值(卡方值值從p值計(jì)算)是是無(wú)偏的,,但其他擬擬合指標(biāo)都
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 攝影合同中合同價(jià)款調(diào)整對(duì)價(jià)
- 校園綠化草坪翻新合同
- 酒店裝修工程協(xié)議
- 宗教建筑塔吊信號(hào)工錄用協(xié)議
- 滑翔傘班組施工合同
- 展會(huì)現(xiàn)場(chǎng)保安招聘合同
- 房屋交易爭(zhēng)議預(yù)防補(bǔ)充協(xié)議
- 商業(yè)街區(qū)廣告位外墻體租賃合同
- 酒店改造粉墻施工合同
- 家政公司文職人員招聘協(xié)議
- 2023年中國(guó)鐵路成都局集團(tuán)有限公司招聘考試真題
- 2024保密教育測(cè)試題含答案(綜合題)
- 廣東省深圳市福田區(qū)紅嶺教育集團(tuán)2024-2025學(xué)年七年級(jí)上學(xué)期期中考試數(shù)學(xué)試卷
- 上海市2020-2021學(xué)年七年級(jí)下學(xué)期數(shù)學(xué)校本作業(yè)133同位角內(nèi)錯(cuò)角同旁內(nèi)角
- 2024年第三屆浙江技能大賽(供應(yīng)鏈管理賽項(xiàng))理論考試題庫(kù)(含答案)
- 2023年溫州鹿城區(qū)區(qū)屬國(guó)企招聘選調(diào)筆試真題
- 封窗安全事故免責(zé)協(xié)議書(shū)范文
- 拆除石籠護(hù)坡施工方案
- 2024秋國(guó)開(kāi)《現(xiàn)代教育管理專題》平時(shí)作業(yè)1-4答案
- 【7道人教版期中】安徽省懷寧縣2023-2024學(xué)年七年級(jí)上學(xué)期期中考試道德與法治試卷(含詳解)
- 管理經(jīng)濟(jì)學(xué)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
評(píng)論
0/150
提交評(píng)論