結(jié)構(gòu)方程中的缺失數(shù)據(jù)處理討論_第1頁(yè)
結(jié)構(gòu)方程中的缺失數(shù)據(jù)處理討論_第2頁(yè)
結(jié)構(gòu)方程中的缺失數(shù)據(jù)處理討論_第3頁(yè)
結(jié)構(gòu)方程中的缺失數(shù)據(jù)處理討論_第4頁(yè)
結(jié)構(gòu)方程中的缺失數(shù)據(jù)處理討論_第5頁(yè)
已閱讀5頁(yè),還剩38頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

結(jié)構(gòu)方程中的缺失數(shù)據(jù)處理EM、FIML、MI--軟件操作與理論探討李曉煦2006/10/06香港中文大學(xué)教育心理系第一部分:軟件操作LISREL8.7.2-----專業(yè)的結(jié)構(gòu)方程分析軟件FIML, EMSAS9.1.3---勝任大規(guī)模的數(shù)據(jù),高強(qiáng)度的運(yùn)算MI,EMR2.3.1-----開(kāi)源的公共軟件,靈活的自由編程EM,MILISREL提供的例子瀏覽LISREL的安裝目錄打開(kāi)子目錄…\MISSINGEX\把數(shù)據(jù)文件grant.dat和程序文件MISSEX2A.ls8復(fù)制到自己創(chuàng)建的臨時(shí)練習(xí)目錄中在應(yīng)用任何一方法之前檢查數(shù)據(jù)是否因?yàn)槿笔Фe(cuò)列看最后幾列數(shù)據(jù)的缺失率是否特別大檢查缺失值的標(biāo)記,把不合理的數(shù)值改為缺失用直方圖、散點(diǎn)圖概覽(尤其是數(shù)據(jù)量很大時(shí))Excel中的數(shù)據(jù)預(yù)覽如何導(dǎo)入自由格式、列對(duì)齊格式數(shù)據(jù)到Excel(數(shù)據(jù)獲取外部數(shù)據(jù)導(dǎo)入文本文件)如何在Excel中看直方圖與描述統(tǒng)計(jì)量

(工具加載宏勾選“分析工具庫(kù)”,確定;工具數(shù)據(jù)分析選需要的統(tǒng)計(jì)分析功能,點(diǎn)“確定”在彈出窗口點(diǎn)“幫助”)當(dāng)數(shù)據(jù)量大于65526或者變量多于256時(shí),需要用LISREL或者SAS、R之類的軟件LISREL中的數(shù)據(jù)預(yù)覽導(dǎo)入數(shù)據(jù):FileImportData選數(shù)據(jù)文件,確認(rèn)設(shè)定臨時(shí)數(shù)據(jù)文件名,確認(rèn)手工設(shè)定變量個(gè)數(shù)、首行是否變量名看多變量散點(diǎn)圖、單變量直方圖Graphs…留意散點(diǎn)圖中對(duì)鼠標(biāo)右鍵功能的提示;留意直方圖中的樣本量NLISREL中需要定義缺失值DataDefineVariables選變量,點(diǎn)MissingValuesLISREL圖形界面中的缺失值設(shè)置*全部的缺失值都寫(xiě)在下方Globalmissingvalues一欄;如果寫(xiě)在上方Missingvalues欄,Lisrel會(huì)在某些場(chǎng)合不認(rèn)。*除了設(shè)置缺失值,DefineVariables窗口中,還要點(diǎn)VariableTypes設(shè)置變量類型“EM”的兩層意思Expectation-Maximization(EM)是源自缺失數(shù)據(jù)處理的一種參數(shù)估計(jì)算法,在許多廣泛應(yīng)用的模型(比如HLM)上有重要的應(yīng)用缺失數(shù)據(jù)中的EM方法特指用EM算法從含缺失的數(shù)據(jù)估計(jì)出協(xié)方差/相關(guān)系數(shù)矩陣、均值向量。大部分多元統(tǒng)計(jì)模型只需要協(xié)方差和均值輸入。SEM只是其中一種。LISREL中的EM方法標(biāo)記好缺失數(shù)據(jù)后,就可以在圖形界面作EM估計(jì)(StatisticsMultipleImputation在彈出的窗口按缺省設(shè)置點(diǎn)run拷貝編輯.out文件輸出的協(xié)方差矩陣,作為.ls8文件的輸入數(shù)據(jù)MI實(shí)際上是MultipleImputation的縮寫(xiě)。但LISREL并不提供完整的MI功能。EM是三個(gè)方法中最容易實(shí)現(xiàn)的方法,所以FIML和MI都缺省地利用EM方法來(lái)提供迭代的初值。什么是FullInformationMaximizing-Likelihood與EM、MI方法不同,F(xiàn)IML缺失數(shù)據(jù)方法只針對(duì)SEM。假如所有的觀測(cè)缺失的變量都相同,等同于缺失的變量從模型里去掉。按缺失的模式把所有的觀測(cè)分組,每組內(nèi)的數(shù)據(jù)缺失的變量都相同。分組建模,再限制各組的參數(shù)相等,就是FIML方法。FIML方法的具體實(shí)現(xiàn)變化很多,不同的軟件有所差別。LISREL中的FIML法FIML方法不計(jì)算算協(xié)方差矩矩陣,而是是直接對(duì)樣樣本數(shù)據(jù)建建模。看例例子MISSEX2A.ls8DANI=6……MI=-9RAFI=GRANT.datRA就是Rawdata,F(xiàn)I就是File;這一句取取代了通常常CM/KM語(yǔ)句的協(xié)方方差矩陣輸輸入。此外,在DA句中MI就是MissingValue,表示數(shù)據(jù)據(jù)中-9用來(lái)標(biāo)記缺缺失數(shù)據(jù)。。MultipleImputation方法與SingleImputation對(duì)比--SingleImputation就是把所有有缺失位置置給一個(gè)修修補(bǔ)的數(shù)值值,用修補(bǔ)補(bǔ)的結(jié)果建建模MultipleImputation就是按某種種特定的隨隨機(jī)抽樣法法則去修補(bǔ)補(bǔ)。對(duì)多個(gè)個(gè)修補(bǔ)的版版本分別建建模,然后后匯總各個(gè)個(gè)版本的參參數(shù)估計(jì)結(jié)結(jié)果。SAS中的MI與EM方法SAS是昂貴的商商業(yè)軟件,,勝任大規(guī)規(guī)模(比如樣本量量超過(guò)10萬(wàn))或高運(yùn)算量量的數(shù)據(jù)處處理與統(tǒng)計(jì)計(jì)。SAS的幫助文檔檔內(nèi)容翔實(shí)實(shí),范例很很具體。但但規(guī)模太大大,組織稍稍有些亂,,初學(xué)者往往往不能迅迅速查到。。MI方法適用于于一般的多多元統(tǒng)計(jì)模模型,比如如多層分析析。SAS9的MI方法(附帶EM)子程序是ProcMI,能提供原原始數(shù)據(jù)替替算缺失值值的多組采采樣版本,,此外還提提供了ProcMIANALYZE用于合并各各個(gè)采樣版版本對(duì)應(yīng)的的模型估計(jì)計(jì)結(jié)果。SAS提供供的的EM與MI的范范例例EM方法法的的范范例例EM是適適用用一一般般多多元元統(tǒng)統(tǒng)計(jì)計(jì)模模型型的的缺缺失失數(shù)數(shù)據(jù)據(jù)處處理理方方法法。。最最后后輸輸出出的的是是均均值值與與方方差差矩矩陣陣的的((無(wú)無(wú)偏偏))估估計(jì)計(jì)值值。。MI方法法的的范范例例MI輸出出的的中中間間結(jié)結(jié)果果是是原原始始數(shù)數(shù)據(jù)據(jù)替替算算缺缺失失值值后后的的多多個(gè)個(gè)((缺缺省省為為5個(gè)))采采樣樣版版本本。。這這些些版版本本的的數(shù)數(shù)據(jù)據(jù)逐逐一一用用于于模模型型估估計(jì)計(jì),,得得到到的的估估計(jì)計(jì)參參數(shù)數(shù)分分為為兩兩類類::一一類類是是均均值值估估計(jì)計(jì),,一一類類是是協(xié)協(xié)方方差差、、方方差差估估計(jì)計(jì)。。這這兩兩類類參參數(shù)數(shù)都都輸輸入入給給ProcMIANALYZE匯總總為為最最后后的的結(jié)結(jié)果果。。*例例子子中中做做的的是是多多元元回回歸歸模模型型。。SAS中分分析析結(jié)結(jié)構(gòu)構(gòu)方方程程模模型型的的子子程程序序是是ProcCALIS,參參考考*例子子中中的的ProcMIAnalyze中要要把把舊舊版版本本的的var改成成新新版版本本的的modeleffectsSAS的MI范例例解解析析原始始含含缺缺失失的的數(shù)數(shù)據(jù)據(jù)(ProcMI)抽樣樣m份修修補(bǔ)補(bǔ)的的數(shù)數(shù)據(jù)據(jù)(模型型估估計(jì)計(jì))m份參參數(shù)數(shù)估估計(jì)計(jì)結(jié)結(jié)果果(ProcMIAnalyze)合并并一一份份最最終終結(jié)結(jié)果果R中的的EM、MI方法法Copyleft,或或譯譯為為““公公共共版版權(quán)權(quán)””、、““版版權(quán)權(quán)左左派派””。。Copyleft軟件件提提供供源源代代碼碼,,允允許許用用戶戶修修改改、、傳傳播播,,但但禁禁止止化化公公為為私私。。任任何何人人利利用用Copyleft源代代碼碼創(chuàng)創(chuàng)作作的的軟軟件件也也必必須須按按Copyleft條款款發(fā)發(fā)布布。。但但只只限限于于軟軟件件,,不不包包含含書(shū)書(shū)籍籍文文章章。。R程序序任任何何的的擴(kuò)擴(kuò)展展程程序序包包都都免免費(fèi)費(fèi)并并開(kāi)開(kāi)放放源源代代碼碼。。但但關(guān)關(guān)于于R的文文章章或或書(shū)書(shū)籍籍仍仍可可以以有有版版權(quán)權(quán)。。參考考::在R中安安裝裝norm程序序包包要在在R中應(yīng)應(yīng)用用EM方法法,,需需要要安安裝裝專專門(mén)門(mén)處處理理缺缺失失數(shù)數(shù)據(jù)據(jù)多多元元統(tǒng)統(tǒng)計(jì)計(jì)的的norm程序序包包。。norm包的的主主頁(yè)頁(yè)是是::可以下載載norm壓縮包,,把壓縮縮包里的的norm文件夾保保存到R安裝目錄錄的子目目錄...\library\下;也可可以在主主窗口菜菜單下選選擇更新新網(wǎng)站的的鏡像PackagesSetCRANMirror,然后點(diǎn)點(diǎn)PackagesInstallPackage(s),在彈出出的程序序包選項(xiàng)項(xiàng)里選擇擇需要添添裝的項(xiàng)項(xiàng)目)。。在R中啟動(dòng)程程序包每次啟動(dòng)動(dòng)norm程序包,,需要在在主窗口口菜單點(diǎn)點(diǎn)Packages->Loadpackage...在彈出的的窗口中中選norm,然后點(diǎn)確認(rèn)。在命令窗窗里輸入入:help(em.norm)回車,彈彈出的幫幫助窗口口解釋em.norm的用法。。首先從從最后一一段的實(shí)實(shí)例入手手。這段段例子可可以直接接copy運(yùn)行,得得到EM估計(jì)的協(xié)協(xié)方差矩矩陣:>data(mdata)#這一句把把數(shù)據(jù)框框mdata載入R中的EM方法R中的數(shù)數(shù)據(jù)框agehageweduinckid在命令令窗口口輸入入:mdata回車,看這個(gè)個(gè)例子子所用用的數(shù)數(shù)據(jù)。。其中中NA在R中標(biāo)記記缺失失數(shù)據(jù)據(jù)。實(shí)際應(yīng)應(yīng)用中中,用用戶還還需要要掌握握與R交換數(shù)數(shù)據(jù)的的技術(shù)術(shù),把把自己己的數(shù)數(shù)據(jù)輸輸入到到R形成例例子中中的mdata數(shù)據(jù)框框,把把計(jì)算算出來(lái)來(lái)的相相關(guān)系系數(shù)矩矩陣存存成外外部文文件。。*建議議初次次接觸觸R的讀者者首先先花一一個(gè)學(xué)學(xué)時(shí),,通過(guò)過(guò)在R中作練習(xí),,學(xué)習(xí)習(xí)李東東風(fēng)老老師的的在線入入門(mén)講義前半部部分(至《輸入輸輸出》一節(jié))。......R中的“缺失失模式式”報(bào)告注意語(yǔ)語(yǔ)句>s<-prelim.norm(mdata)#dopreliminarymanipulations輸入s回車看看這個(gè)個(gè)預(yù)處處理的的結(jié)果果[,1][,2][,3][,4][,5]1411111410111111011110011311101111001111100[,1][,2][,3][,4][,5]……….R的MI方法與與sem包R的norm包還提提供了了應(yīng)用用于一一般MI方法的的子程程序。。在命命令窗窗里輸輸入help(mi.inference)和help(imp.norm)看相關(guān)關(guān)的幫幫助。。更專專業(yè)的的MI方法軟軟件包包是mitools。在R中分析析結(jié)構(gòu)構(gòu)方程程模型型,需需要安安裝運(yùn)運(yùn)行sem程序包包,參參考Fox,J.(2006),StructuralequationmodelingwiiththesempackageinR.StructuralEquationModeling,13:465-486第二部部分::理論論背景景與方方法比比較理念與與現(xiàn)狀狀Rubin的理論論框架架EM、FIML、MI各自的的原理理三種方方法對(duì)對(duì)比無(wú)偏性性與效效率軟件界界面便便利性性相互關(guān)關(guān)系實(shí)質(zhì)性性困難難現(xiàn)狀::缺失失數(shù)據(jù)據(jù)常見(jiàn)見(jiàn),令令人滿滿意的的處理理報(bào)告告卻罕罕見(jiàn)最糟糕:修修飾數(shù)據(jù)為為整齊,不不報(bào)告缺失失數(shù)據(jù)差強(qiáng)人意::報(bào)告用列列刪法(LD)、對(duì)刪法(PD)、或者單次次替算(SI)法專業(yè)水準(zhǔn)::采用近年年受到推薦薦的FIML、EM或者M(jìn)I方法不同報(bào)告背背后的理念念對(duì)比整理修飾的的數(shù)據(jù)信息不完整整、形式整整齊含缺失的原原數(shù)據(jù)形式不整齊齊、信息完完整影響專業(yè)方方法普及的的因素軟件界面對(duì)對(duì)方法普及及作用最關(guān)關(guān)鍵最直接的因因素是審稿稿人的標(biāo)準(zhǔn)準(zhǔn)--正在在變化不理想的方方法并不是是在所有情情況下都必必定導(dǎo)致致致命錯(cuò)誤不同缺失模模式的實(shí)際際例子學(xué)生可能因因?yàn)槁┙淮鸫痤}紙而沒(méi)沒(méi)有成績(jī);;* 可能因因?yàn)槠綍r(shí)作作業(yè)成績(jī)優(yōu)優(yōu)秀被豁免免參加考試試;* 可能因因?yàn)槟骋豢瓶瓢l(fā)揮太差差而放棄剩剩下科目;;**可能能因?yàn)榭吹降娇季硖y難而索性交交白卷Rubin經(jīng)典框架的的思路最大似然估估計(jì)是否可可以不受缺缺失機(jī)制影影響?只要缺失模式的的概率由模模式中觀測(cè)測(cè)位的變量量值確定,,獨(dú)立于缺缺失位的值值IgnorableMissingMissingatRandom(MAR)MCARMNARMCAR,缺失模式式的概率與與任何變量量值無(wú)關(guān)MNAC,=NotMARMCAR、MNAR與MAR關(guān)系Expectation-Maximization(EM)算法的突破破:Rubin等人(1977)思想:已知知模型參數(shù)數(shù)時(shí)可以反反過(guò)來(lái)計(jì)算算缺失位置置上觀測(cè)值值的分布迭代MultipleImputation(MI)Rubin(1987)給出MI算法的關(guān)鍵鍵基礎(chǔ)需要抽樣多多少次?如如何匯總方方差估計(jì)??思想:多次次抽樣,類類似蒙特卡卡羅法。與常見(jiàn)的的蒙特卡羅羅法相比,,MI需要的抽樣樣次數(shù)很小小。MI抽樣環(huán)節(jié)是是否最大似似然法則抽抽樣?是否否抽均值估估計(jì)點(diǎn)?否!MI抽樣是隨機(jī)機(jī)多次抽,,每次抽樣樣之間互相相獨(dú)立。不不是只抽取取似然函數(shù)數(shù)最大值點(diǎn)點(diǎn)。MI不是將抽樣樣作平均后后代入模型型,而是逐逐一代入。。SEM中的FIML大約在1987年這個(gè)方方法成熟熟了,在各軟軟件中的的具體實(shí)實(shí)現(xiàn)不盡盡相同思想把數(shù)據(jù)按按缺失模模式分組組,然后后在組內(nèi)內(nèi)建立子子模型應(yīng)用SEM中的多組組模型,,約束各各組的參參數(shù)相等等。SEM中的比較較:估計(jì)的無(wú)無(wú)偏性與與效率EMFIMLMI對(duì)飽和模型是最大似然估計(jì)趨近最大似然估計(jì),但要求樣本量大非最大似然估計(jì)。但相對(duì)效率可以接近相等*最大似然然估計(jì)意意味著最最優(yōu)效率率和MAR下的無(wú)偏偏軟件界面面的便利利性EMFIMLMI最方便;主流通用統(tǒng)計(jì)軟件與主流SEM軟件都有實(shí)現(xiàn);而且便于添加輔助變量在主流SEM軟件中有實(shí)現(xiàn);但不方便添加輔助變量最不便。主流SEM軟件中沒(méi)有實(shí)現(xiàn);需要配合其它軟件使用但便于添加輔助變量相互關(guān)系系EMFIMLMI其特例MCEM中用到MI思想算法具體步驟可用到EM算法,參數(shù)初值可用EM估計(jì)抽樣所需要的分布的初值可以用EM估計(jì)困難:缺缺少樣樣本量的的調(diào)整估估計(jì)擬合指標(biāo)EMFIMLMI只能給出協(xié)方差矩陣離差F0,參數(shù)的標(biāo)準(zhǔn)誤差上下界估計(jì)偏差太大只能給出似然比估計(jì)的p值,參數(shù)的標(biāo)準(zhǔn)誤差估計(jì)優(yōu)于EM目前有估計(jì)似然比p值的方法,但未有方便的軟件實(shí)現(xiàn);可以無(wú)偏地估計(jì)參數(shù)標(biāo)準(zhǔn)誤差NO=?樣本量量更大好好還是更更小好名義上的的樣本量量對(duì)參數(shù)數(shù)的均值值估計(jì)、、擬合指指標(biāo)F0沒(méi)有影響響。協(xié)方方差與均均值就完完全決定定了這些些報(bào)告值值。樣本越多多,協(xié)方方差和均均值估計(jì)計(jì)越精確確參數(shù)均方方誤差估估計(jì)與輸輸入的樣樣本量直直接有關(guān)關(guān);絕大大部分?jǐn)M擬合指標(biāo)標(biāo)是F0和輸入的的樣本量量、模型型自由度度的函數(shù)數(shù),因此此受輸入入的樣本本量影響響。用部分?jǐn)?shù)數(shù)據(jù)計(jì)算算出的協(xié)協(xié)方差建建模,輸輸入全部部數(shù)據(jù)的的樣本量量,會(huì)使使模型的的報(bào)告錯(cuò)錯(cuò)誤地顯顯得更差差;用全部數(shù)數(shù)據(jù)計(jì)算算出的協(xié)協(xié)方差建建模,輸輸入部分分?jǐn)?shù)據(jù)的的樣本量量,會(huì)使

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論