




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上畢業(yè)論文題 目部分協(xié)變量缺失下的線性回歸分析及其應用學 院基礎科學學院專業(yè)班級學 號姓 名吳佳桐指導教師袁曉惠二一五年六月四日專心-專注-專業(yè)中 文 摘 要在目前的各個領域的研究調(diào)查中,由于受到各種已知或者未知因素的影響,經(jīng)常會導致缺失數(shù)據(jù)出現(xiàn)的情況。而由于缺失數(shù)據(jù)的存在,不但會增加研究者分析數(shù)據(jù)的難度,而且會造成分析結(jié)果的偏差,從而降低研究者統(tǒng)計計算工作的效率。因此考慮如何消除或者盡可能的減少這些缺失數(shù)據(jù)的影響就變的越來越重要了。文章首先介紹了回歸模型及其基本概念并介紹了使用方法;然后介紹了國內(nèi)外對缺失數(shù)據(jù)的研究現(xiàn)狀,并簡單介紹了數(shù)據(jù)缺失機制的三種形式,指出解決數(shù)據(jù)
2、缺失的一般性方法。并在接下來的文章中介紹了在協(xié)變量缺失下的線性回歸模型,最后是利用R程序?qū)?shù)據(jù)進行實證分析。為了有效地解決缺失數(shù)據(jù)帶來的問題,本文使用了其中三種方法對缺失數(shù)據(jù)集做了相應的處理。首先使用的是剔除法即將含有缺失數(shù)據(jù)列直接刪除;第二種方法是對數(shù)據(jù)集做逆概率加權(quán);第三種方法是使用回歸補值法,對缺失數(shù)據(jù)集進行填補,從而形成一個完整的數(shù)據(jù)集,然后對填補后的數(shù)據(jù)集進行相應的統(tǒng)計分析。本文研究的重點是部分析變量缺失下的回歸分析,對不同的樣本量做數(shù)值模擬,研究在兩種缺失程度的數(shù)據(jù)(15%、30%的隨機缺失)通過對比,針對本文的數(shù)據(jù)研究發(fā)現(xiàn)逆概率加權(quán)法更好。關鍵詞 線性回歸 缺失值 缺失機制 填補
3、方法Title Linear regression analysis with missing covariates and its applicationAbstractIn the present investigation of various fields, because of the influence of various known or unknown factors, it often leads to the missing data. Because of the existence of missing data, it not only increases the
4、difficulty of the researchers to analyze the data, but also can lead to the deviation of the results of the analysis, which can reduce the efficiency of the study. So it becomes more and more important to consider how to eliminate or minimize the impact of these missing data. At first, the paper int
5、roduces the regression model and the basic concept and describes the methodology used; then introduces the research status at home and abroad for the missing data, and introduces three forms of the missing data mechanism, it is pointed out that to solve the general methods of missing data. In the ne
6、xt article, the linear regression model is introduced, and the data is analyzed by R program. In order to solve the problem caused by the missing data, three methods are used to deal with the missing data sets. The first use of elimination will contain missing data directly to a column removed; the
7、second method is to data sets to do the inverse probability weighted; the third method is using regression imputation method, to fill the missing data set, so as to form a complete data set, and then the corresponding statistical analysis to fill the data set.The focus of this paper is analysis of m
8、issing variables regression analysis, to the different amount of sample numerical simulation study in two levels of missing data (15%, 30% of the missing at random) by contrast, according to the data of the study found inverse probability weighting method is better.Key words Linear regression Missin
9、g value Missing mechanism Imputation method目 錄1 緒論1.1 回歸分析的發(fā)展歷程回歸分析是處理變量與之間的關系的一種統(tǒng)計方法和技術?;貧w分析的基本思想和方法以及“回歸”名稱的由來歸功于英國統(tǒng)計學家F.高爾頓。高爾頓和他的學生K.皮爾遜在研究父母身高與其子女身高的遺傳問題時,觀察了1078對夫婦,以每對夫婦的平均身高作為,而取他們的一個成年兒子的身高作為,將結(jié)果在平面直角坐標系上繪成散點圖,發(fā)現(xiàn)趨勢近乎一條直線。計算出的回歸直線方程為這種趨勢及回歸方程總的表明父母平均身高每增加一個單位,其兒子的成年兒子的身高也平均增加0.516個單位。這個結(jié)果表明,
10、雖然高個子父輩確有生高個子兒子的趨勢,但父輩身高增加一個單位,兒子身高僅增加半個單位左右。這個例子生動地說明了生物學中“種”的概念的穩(wěn)定性。正是為了描述這種有趣的現(xiàn)象,高爾頓引進了“回歸”這個名詞來描述父輩的身高與子輩身高的關系。盡管“回歸”這個名詞的由來具有其特定的含義,人們在研究大量的問題中,其變量與之間的關系并不總是具有這種“回歸”的含義,但借用這個名詞把研究變量與間統(tǒng)計關系的量化方法稱為“回歸”分析也算是對高爾頓這個偉大的統(tǒng)計學家的紀念1。1.2 多元線性回歸模型的一般形式設隨機變量與一般變量,的線性回歸模型為 (1.1)其中,,.,是個未知參數(shù),稱為回歸常數(shù),.,稱為回歸系數(shù)。稱為被
11、解釋變量(因變量),,是個可以精確測量并控制的一般變量,稱為解釋變量(自變量)。是隨機誤差,對隨機誤差項我們常假定 (1.2)稱 (1.3)為理論回歸方程。對一個實際問題,如果我們獲得組觀測數(shù)據(jù)(,;)(=1,2,),則線性回歸模型(1.1)式可表示為 (1.4)寫成矩陣形式為 (1.5)其中 (1.6) 是一個階矩陣,稱為回歸設計矩陣或者資料矩陣。在實驗設計中的元素是預先設定并可以控制的,人的主觀因素可作用其中,因而稱為設計矩陣。1.3 多元線性回歸模型的基本假定為了方便地進行模型的參數(shù)估計,對回歸方程(1.4)式有如下一些基本假定:(1)解釋變量,是確定性變量,不是隨機變量,且要求。這里的
12、,表明設計矩陣中的自變量列之間不相關,樣本量的個數(shù)應大于解釋變量的個數(shù),是一滿秩矩陣。(2)隨機誤差項具有零均值和等方差,即 (1.7)這個假定常稱為高斯馬爾柯夫條件。,即假設觀測值沒有系統(tǒng)誤差,隨機誤差項的平均值為零。隨機誤差項的協(xié)方差為零,表明隨機誤差項在不同樣本之間是不相關的(在正態(tài)假定下即為獨立的),不存在序列相關,并且有相同的精度。(3)正態(tài)分布的假定條件為 (1.8)對于多元線性回歸的矩陣模型(1.5)式,這個條件便可表示為 (1.9)由上述假定和多元正態(tài)分布的性質(zhì)可知,隨機向量服從維正態(tài)分布,回歸模型(1.5)式的期望向量 (1.10) (1.11)因此 (1.12)1.4 回歸
13、參數(shù)的估計的主要方法 1、回歸參數(shù)的普通最小二乘估計多元線性回歸方程未知參數(shù)的估計與一元線性回歸方程的參數(shù)估計原理一樣,仍然可以采用最小二乘估計。對于(1.5)式表示的回歸模型,所謂最小二乘法,就是尋找參數(shù)的估計值,使離差平方和達到極小,即尋找滿足 (1.13)依照(1.13)式求出就成為回歸參數(shù)的最小二乘估計。得出用矩陣形式表示的正規(guī)方程組移項得,當存在時,即得到回歸參數(shù)的最小二乘估計為 (1.14)稱為經(jīng)驗回歸方程。2、回歸參數(shù)的最大似然估計極大似然估計是統(tǒng)計中最重要,應用最廣泛的方法之一,最初被德國數(shù)學家高斯在1821年提出時,并未引起重視,直到1922年費舍爾提出了極大似然思想并得以得
14、出性質(zhì)后,才廣為研究和應用。多元線性回歸參數(shù)的最大似然估計與一元線性回歸參數(shù)的最大似然估計的思想一致。對于(1.5)式所表示的模型,即服從多變量正態(tài)分布,那么的概率分布為 這時,似然函數(shù)為 (1.16)其中的未知參數(shù)是和,最大似然估計就是選取似然函數(shù)達到最大的和。要使達到最大,對(1.16)式兩邊同時取自然對數(shù),得 (1.17)在(1.17)式中,僅在最后一項中含有,顯然使(1.17)式達到最大,等價于達到最小,這又完全與普通最小二乘估計相同,即誤差項方差的最大似然估計為 (1.18)這是的有偏估計,但他滿足一致性。在大樣本的情況下,這是的漸近無偏估計。1.5 回歸分析研究的主要內(nèi)容回歸分析研
15、究的主要對象是客觀事物變量間的統(tǒng)計關系,它是建立在對客觀事物進行大量實驗和觀察的基礎上,用來尋找隱藏在那些看上去是不確定的現(xiàn)象中的統(tǒng)計規(guī)律性的方法?;貧w分析方法是通過建立統(tǒng)計模型研究變量間相互關系的密切程度、結(jié)構(gòu)狀態(tài)及進行模型預測的一種有效的工具?;貧w分析方法在生產(chǎn)實踐中的廣泛應用是它發(fā)展和完善的根本動力。如果從19世紀初高斯提出的最小二乘法算起,回歸分析的歷史已有200年。從經(jīng)典的回歸分析方法到近代的回歸分析方法,他們所研究的內(nèi)容已非常豐富。2 缺失數(shù)據(jù)的介紹2.1研究缺失數(shù)據(jù)的背景和意義缺失數(shù)據(jù)是分析數(shù)據(jù)中的一個基本問題。最常見的例子是在做調(diào)查的時候沒有響應,我們要向在一項統(tǒng)計調(diào)查中要得到
16、百分之百的有效答卷是相當困難的,因為有很多因素產(chǎn)生影響,主要有:在調(diào)查初始階段,可能由于種種原因調(diào)查人員無法和被調(diào)查人員接觸;在調(diào)查進行階段,被調(diào)查者拒絕接受調(diào)查是很常見的現(xiàn)象。拒絕的主要原因有很多種,例如被調(diào)查者沒有時間,或者對調(diào)查的問題不感興趣,或者處于被調(diào)查者的安全考慮拒絕調(diào)查人員的調(diào)查,或者被調(diào)查者拒絕回答某些重要的問題;在研究的整理階段,研究人員將不和邏輯的數(shù)據(jù)剔除出去會造成數(shù)據(jù)的缺失。如果把缺失數(shù)據(jù)用無回答表示,當今的實踐表明,在現(xiàn)在的調(diào)查研究中的缺失數(shù)據(jù)。其實,在如今這種信息爆炸的時代完整的和正確的數(shù)據(jù)是很難獲得的??紤]到調(diào)查研究中數(shù)據(jù)的重要性,我們在研究工作中需要不斷地采集數(shù)據(jù)
17、,從大量的數(shù)據(jù)中抽取出對我們有用的知識來指導我們的實踐,但是,收集的數(shù)據(jù)量越大,可能造成缺失數(shù)據(jù)的情況就越嚴重,這本身就是一對矛盾。對此,這不僅僅是必須針對大量的數(shù)據(jù)進行分析處理得到正確結(jié)果的問題,同時也需要對缺失數(shù)據(jù)給出適當?shù)奶钛a措施,使得數(shù)據(jù)的分析更加有意義。2.2 國內(nèi)外研究情況2.2.1 國外研究情況外國學術界對缺失數(shù)據(jù)的問題研究早就開始了,關于統(tǒng)計調(diào)查中缺失數(shù)據(jù)問題的研究大致可分為三個階段2:第一階段是啟動期(1915年20世紀40年代)有關學者開始了對缺失數(shù)據(jù)問題的初步研究,強調(diào)處理無回答問題的重要性。第二階段是專題研究、方法發(fā)展期(20世紀40年代中期20世紀90年代初)這一時期
18、許多學者對缺失數(shù)據(jù)問題進行了大量的專題研究,提出了對缺失數(shù)據(jù)進行處理補救的經(jīng)典方法。要減少調(diào)查中的缺失數(shù)據(jù),主要從事前預防和事后補救兩方面入手。事前預防也許是處理缺失數(shù)據(jù)最簡單且有效的方法,早期學者也較多的關注減少缺失數(shù)據(jù)的事前預防方法和措施。但是人們逐步認識到,現(xiàn)實中由于種種原因和條件的限制,這種事先預防的方法并不能使問題得到完全解決。因此,對缺失數(shù)據(jù)的補救越來越受到重視。第三階段是方法的完善期(20世紀90年代初至今)這一時期,較少有學者提出關于無回答處理的全新思想,但很多學者或者提出了方法的改進和擴展,或者研究如何使用插補后的數(shù)據(jù)進行方差估計。此外,大量現(xiàn)代統(tǒng)計方法在缺失數(shù)據(jù)研究領域的應
19、用,帶動了這一領域的蓬勃發(fā)展。近20年來涌現(xiàn)出眾多關于處理缺失數(shù)據(jù)的研究文獻,對缺失數(shù)據(jù)進行調(diào)整的統(tǒng)計方法取得了很多突破,方法不斷完善。至今處理缺失數(shù)據(jù)仍為抽樣應用和理論界的熱點專題之一3。2.2.2 國內(nèi)研究背景概況缺失數(shù)據(jù)是一個普遍現(xiàn)象,在我國同樣存在。解決統(tǒng)計調(diào)查中的缺失數(shù)據(jù),是提高數(shù)據(jù)質(zhì)量的一個重要方面。目前從國內(nèi)情況來看,我們對缺失數(shù)據(jù)雖有研究,但國內(nèi)尚未見對填補方法以及其應用的深入研究,在對缺失值處理研究較前沿的醫(yī)學衛(wèi)生領域也未見對缺失值處理統(tǒng)計方法的深入研究。我國對于有關缺失數(shù)據(jù)的填補與調(diào)整的原創(chuàng)性學術研究還很有限,主要成果還只是對國外相關研究資料的譯介和文獻綜述等方面。在過去因
20、為采集數(shù)據(jù)所花費的代價太高,所以人們經(jīng)常是基于有限的信息進行決策。隨著信息時代的到來,人們把數(shù)據(jù)挖掘技術作為一種發(fā)現(xiàn)和尋找有用信息的技術,正在迅猛發(fā)展并在商業(yè)決策支持、經(jīng)濟、管理、統(tǒng)計以及計算機科學中發(fā)揮著巨大的作用,它使用許多計算方法,如決策樹、聚類、人工神經(jīng)網(wǎng)絡和回歸算法等。處理缺失數(shù)據(jù)在統(tǒng)計領域中并不是一個新的課題,然而遺憾的是,傳統(tǒng)的統(tǒng)計方法不能正確的解決某些特定數(shù)據(jù)的缺失問題,例如具有很大的缺失窗口的時間序列數(shù)據(jù),這就需要我們根據(jù)實際問題的需要采用新的方法。統(tǒng)計學數(shù)據(jù)主要來自于兩個方面:調(diào)查的數(shù)據(jù)和實驗數(shù)據(jù)。統(tǒng)計調(diào)查中的數(shù)據(jù)缺失是影響統(tǒng)計數(shù)據(jù)質(zhì)量的一個重要方面,在概率抽樣中,缺失數(shù)據(jù)
21、將導致統(tǒng)計推論中出現(xiàn)估計量偏差和估計方差增大,在其他調(diào)查方式中,缺失數(shù)據(jù)也會對統(tǒng)計數(shù)據(jù)的質(zhì)量產(chǎn)生影響,使統(tǒng)計數(shù)據(jù)的說服力降低。況且,種類調(diào)查特別是抽樣調(diào)查應用的領域越來越廣闊,各種干擾項調(diào)查的因素也逐步凸顯,調(diào)查研究中出現(xiàn)的缺失數(shù)據(jù)也會帶來相同的后果。這種現(xiàn)象是普遍性的,正是因為如此,對缺失數(shù)據(jù)問題的研究,一直是國際統(tǒng)計學屆熱點討論的課題之一。國內(nèi)對缺失數(shù)據(jù)問題的研究雖有發(fā)展,但與國外相比,仍有很大差距。主要表現(xiàn)在理論討論方面缺乏原創(chuàng)性,基本上是介紹國外已有方法,即便如此,介紹的也不夠全面和豐富,而在應用方面則幾乎是空白。2.3 缺失的原因在各種科學研究中,數(shù)據(jù)的缺失現(xiàn)象很普遍,不完備數(shù)據(jù)給數(shù)
22、據(jù)的使用和分析帶來了很大的困難,也是造成信息系統(tǒng)不確定的主要原因之一??偨Y(jié)了一些不完備數(shù)據(jù)的定義:數(shù)據(jù)傳輸或采集中的錯誤、空值、超出范圍或者不符合要求的值。造成數(shù)據(jù)缺失的原因是多方面的,主要可能有以下幾種4:1、有些信息暫時無法獲取。例如在醫(yī)療數(shù)據(jù)庫中,并非所有病人的所有臨床檢驗結(jié)果都能在給定的時間內(nèi)得到,就致使一部分屬性值空缺出來。又如在申請表數(shù)據(jù)中,對某些問題的反映依賴于對其他問題的回答。2、有些信息是被遺漏的??赡苁且驗檩斎霑r認為不重要、忘記填寫了或?qū)?shù)據(jù)理解錯誤而遺漏,也可能是由于數(shù)據(jù)采集設備的故障、存儲介質(zhì)的故障、傳輸媒體的故障和一些人為因素等原因而丟失了。3、有些對象的某個或某些屬
23、性是不可用的。也就是說,對于這個對象來說,該屬性值是不存在的,如一個未婚者的配偶姓名、一個兒童的固定收入狀況等。4、有些信息(被認為)是不重要的。如一個屬性的取值與給定語境是無關的,或訓練數(shù)據(jù)庫的設計者并不在乎某個屬性的取值。5、獲取這些信息的代價太大。6、系統(tǒng)實時性能要求較高,即要求得到這些信息前迅速做出判斷或決策。2001年荷蘭統(tǒng)計與運籌協(xié)會下屬的統(tǒng)計軟件分會組織了一個關于缺失數(shù)據(jù)的討論會,討論會提醒人們,即使表面上看缺失數(shù)據(jù)對研究結(jié)果不可能構(gòu)成威脅時,也不要簡單地將其刪除,因為雖然缺失數(shù)據(jù)可能只占到4一5的比例,但那些重要信息中往往有30-95來自這些數(shù)據(jù)。所以絕對不能存在僥幸心理,而要
24、妥善處理好不完備數(shù)據(jù)。缺失數(shù)據(jù)的產(chǎn)生的原因多種多樣,主要分為機械原因和人為原因。機械原因是由于機械原因?qū)е碌臄?shù)據(jù)收集或保存的失敗造成的數(shù)據(jù)缺失,比如數(shù)據(jù)存儲的失敗,存儲器損壞,機械故障導致某段時間數(shù)據(jù)未能收集(對于定時數(shù)據(jù)采集而言)。人為原因是由于人的主觀失誤、歷史局限或有意隱瞞造成的數(shù)據(jù)缺失,比如,在市場調(diào)查中被訪人拒絕透露相關問題的答案,或者回答的問題是無效的,數(shù)據(jù)錄入人員失誤漏錄了數(shù)據(jù)。2.4 缺失機制2.4.1 完全隨機缺失完全隨機缺失(missing completely at random, MCAR),完全隨機缺失是缺失數(shù)據(jù)問題中最簡單的一種,指缺失數(shù)據(jù)是隨機發(fā)生的,即某一變量的
25、缺失與非缺失數(shù)據(jù)之間不存在任何系統(tǒng)差異,數(shù)據(jù)集中與其有關的其他變量,在該變量的缺失與非缺失數(shù)據(jù)之間分組也不存在任何差異。在MCAR機制下,目標變量集,協(xié)變量集和指示變量集A相互獨立,并且有其中L是的分布函數(shù)。此式表明目標變量的回答數(shù)據(jù)集與無回答數(shù)據(jù)集有相同分布,該分布就是目標變量分布本身。在完全隨機缺失機制下,對含有缺失值的數(shù)據(jù)集采用通常的統(tǒng)計分析方法是可行的,估計量無偏,但方法不同的估計效率存在差別。盡管完全隨機缺失只要求數(shù)據(jù)缺失的概率與所研究的變量獨立,但是研究變量與未觀察到的因素間的間接關聯(lián)仍是可能的,而資料本身難以證實這種假設的成立,因而完全隨機缺失假設有時存在一定問題?,F(xiàn)實中完全隨機
26、缺失的情況有所存在,但并不普遍。2.4.2 隨機缺失隨機缺失(missing at random, MAR)隨機缺失相對完全隨機缺失而言,要求沒有那么嚴格此時數(shù)據(jù)并非完全的隨機缺失。假設缺失數(shù)據(jù)發(fā)生的概率與所觀察到的變量是有關的而與未觀察到的數(shù)據(jù)特征是無關的,此時可以認為數(shù)據(jù)缺失屬于隨機缺失。MAR是指目標變量是否缺失只是與已經(jīng)觀測到的值有關,而與缺失的無關。若用表示的觀測部分,用表示的缺失部分,在MAR機制下,有式表示缺失數(shù)據(jù)(即是否回答的知識變量數(shù)據(jù)集A)只是與有關,而與無關。當缺失數(shù)據(jù)發(fā)生的概率僅與實際的缺失數(shù)據(jù)有關時,隨機缺失假設也成立。完全隨機缺失與隨機缺失均被稱為是可忽略的缺失。2
27、.4.3 完全非隨機缺失完全非隨機缺失(not missing at random, NMAR)完全非隨機缺失與隨機缺失相對應,是指目標變量是否缺失與值本身有關,不管其是否被觀察到。非隨機缺失也被稱為不可忽略的缺失。在隨機缺失機制中曾提及單調(diào)缺失是MAR的一種典型形式,而非單調(diào)缺失則歸應于NMAR。非隨機缺失是缺失數(shù)據(jù)的普遍形式,但是比較難于處理。進行處理時需要基于目標變量和協(xié)變量模型比較強的假定。解決隨機缺失的一種思路是將其有條件的轉(zhuǎn)化為隨機缺失模式。例如,將非單調(diào)缺失轉(zhuǎn)變?yōu)殚g隔性的單調(diào)缺失,或利用輔助變量將樣本單元類別細分,使得同類別中樣本單元的目標變量值接近56。2.5 缺失數(shù)據(jù)的處理方
28、法2.5.1 剔除數(shù)據(jù)法顧名思義,剔除數(shù)據(jù)法也就是將存在遺漏信息屬性值的對象刪除,從而得到一個完備的信息數(shù)據(jù)表。并且這種方法操作簡單易行,在對象有多個屬性缺失值、被刪除的含缺失值的對象與信息表中的數(shù)據(jù)量相比非常小的情況下是非常的有效的。然而這種方法也有其一定的局限性,比如說它是以減少歷史數(shù)據(jù)來換取信息的完備,會造成資源的大量浪費,丟棄了大量隱藏在這些對象中的信息。在信息表中本來包含的對象很少的情況下,刪除少量對象就足以嚴重影響到數(shù)據(jù)信息表數(shù)據(jù)的客觀性和結(jié)果的正確性。因此,當遺漏數(shù)據(jù)所占比例比較大,特別當遺漏數(shù)據(jù)隨機分布時,這種方法可能導致數(shù)據(jù)發(fā)生偏理,從而引出錯誤的結(jié)論并對分析結(jié)果產(chǎn)生誤差。2
29、.5.2 回歸填補法回歸填補法(regression imputation)是運用回歸技術來替代缺失數(shù)據(jù)的方法,它是通過多元回歸方法建立變量關于數(shù)據(jù)集所有其它變量的回歸模型,并用非標準化的結(jié)果預測該變量的缺失數(shù)據(jù)來實現(xiàn)的?;貧w填補法是利用輔助變量(1,2,)與目標變量的關系,建立回歸模型,然后利用已知的輔助變量的信息和回歸模型,對目標變量的缺失數(shù)據(jù)進行估計的方法。在樣本變量中,如果變量(1,2,)和變量,之間存在高度相關,可利用已知數(shù)據(jù)擬合回歸預測模型,預測出未知的缺失數(shù)據(jù)。例如,缺失變量和已知變量是線性回歸關系,其預測模型為根據(jù)最小二乘法求得的線性模型?;貧w替代值是一個預測值,而不是取自當前
30、調(diào)查中得到的實際值。于是我們可以推出第個缺失數(shù)據(jù)的估計值可以表示為,式子中的是回歸系數(shù)。若輔助變量是定性變量時,可以采用虛擬變量的處理方法;若目標變量是定性變量,則考慮通過logit變換,進行l(wèi)ogistic線性回歸。我們應該看到,利用嚴格擬合的回歸方程來預測目標值,容易人為地增大變量間的相關關系。因此只有當輔助變量與目標變量之間存在著高度的相關關系時,采用回歸填補法才是比較有效的。2.5.3 IPW逆概率加權(quán)法逆概率加權(quán)法就是對在CC(complete case analysis)情形下對估計方程的項加權(quán),且權(quán)為缺失概率的逆,在通常情況下,估計是相合估計,這一思想是Horvitz and T
31、hpmpson在1952年提出的,被稱為IPW逆概率加權(quán)法,在協(xié)變量缺失時被普遍采用。逆概率加權(quán)法就是對每個可觀測的的概率取倒數(shù),作為被觀測的的權(quán)重。即由于在總體中每一個樣本都有可能被隨機選擇到,被選擇到的概率是,這個樣本就可以看為是總體的個總體。如果假設是總體均值,即:,可以用來估計,由弱大數(shù)定律知,取條件期望得: 在實際中,通常是未知的,如假定一個模型可以用極大似然估計:,得到了IPW估計在參數(shù)估計的問題中,如果被估計的權(quán)函數(shù)適當,IPW方法估計比已知權(quán)時得估計更加有效,但是如果權(quán)函數(shù)假設不合適或者錯誤時,是得不到相合估計的,所以Rubin等還有其他學者提出了擴張逆概率加權(quán)法,其具有“雙穩(wěn)
32、健”性,進一步推廣了這種方法7。3 協(xié)變量缺失下的回歸分析3.1協(xié)變量缺失下的回歸分析的介紹研究協(xié)變量缺失的回歸分析方法在過去的二十年已經(jīng)是一個活躍的研究領域。Little8最近回顧了在這一領域的文獻,并總結(jié)了六大方法包括CC分析。除了這些方法,半?yún)?shù)的方法也已開發(fā)用于缺失協(xié)變量的回歸分析,不過其中一些是在其他方面開發(fā)的。在兩階段的病例對照研究的背景下,Breslow和Cain9介紹了一個在協(xié)變量和二元結(jié)果上的邏輯回歸的偽似然條件的方法,絕對值作為在第一級所有研究對象的樣本,作為在第二級研究對象的一個子集(被認為“丟失”的不是在第二級的研究對象)。這種方法適用于當缺失機制是MAR時的缺失協(xié)變量
33、的回歸分析。在另一方面,Pepe和Fleming10與Carroll和Wand11考慮在協(xié)變量測量錯誤,其中在所有研究對象和中被觀測到的背景下的半?yún)?shù)方法。協(xié)變量真正的價值,是收集只有部分研究對象,他們的方法適用于缺失協(xié)變量是MCAR的回歸分析。Reilly 和 Pepe 12擴展了Pepe和Fleming的半?yún)?shù)法回歸分析,當一個協(xié)變量已經(jīng)缺少觀測值和缺失數(shù)據(jù)是MAR時,稱它是平均得分方法。Reilly 和 Pepe指出,平均得分方法,本質(zhì)上與加權(quán)估計方程相一致,F(xiàn)landers 和 Greenland 13,Zhao 和 Lipsitz 的文本的兩階段表明了這是獨立的兩個階段。他們提出的加
34、權(quán)估計方程的想法是對在第二級的樣本中的一個完整的觀測值加權(quán)貢獻,通過抽樣概率使在第二級被觀測到。在當前的背景下,本次抽樣概率對應“被觀察到的概率”,即是被觀測到的概率。已經(jīng)表明,該加權(quán)估計方程可適用于缺少協(xié)變量是MAR或MCAR時的回歸分析。3.2 協(xié)變量缺失下的估計方程3.2.1 估計方程的介紹認為一個回歸問題包括個獨立的研究對象,= 1, 。在第個研究對象上收集的數(shù)據(jù)是一個結(jié)果變量。P維協(xié)變量通常是可觀測的,協(xié)變量是缺失了一些研究對象。令表示為所有協(xié)變量的一個向量。同時令表示為觀測到的結(jié)果和所有觀測到的協(xié)變量的一個向量。令表示為觀測的一個指標(若被觀測到則=1,;若沒有被觀測到則=0)。的
35、隨機過程被,觀測到的概率以及給出的結(jié)果和協(xié)變量所約束。即。不可忽略的缺失值表明了取決于。MAR表明了不取決于,即。MCAR表明了不取決于中的任意一個。令表示為結(jié)果給出的協(xié)變量的期望。在大多數(shù)的回歸問題中,從回歸模型 (3.1)估計回歸系數(shù)是很受關注的。這里是一個指定的方程,例如線性回歸的和邏輯回歸的。3.2.2 完整案例分析和相關偏差當執(zhí)行CC分析時,量化模型(3.1)中的估計偏差是很重要的。為簡化起見,讓我們考慮在估計方程的線性回歸(3.1)中的估計回歸系數(shù)()的偏差。由于CC分析排除了缺失的值的這些記錄,它有效地利用估算公式。其中,和是觀測的指標。當=0,相應項就會從估計方程中被剔除。要解
36、決這個估算公式是明確的,由下式給出 (3.2)如果在(3.2)中,我們用替代,然后合并同類項,我們可以得到因此的偏差由下式給出 在弱規(guī)律性的條件下,上述偏差是漸近等同于 其中,。有趣的是,當不依賴于時,則上述偏差漸近為0,在這種情況下,不管,MAR或MCAR的缺失值是不是不可忽略的。Little在他文章的討論中指出CC分析的這種無偏的特征。如果依賴于,那么偏差可能不為零。比如,認為模型是通過來依賴于線性的(來確保積極性)。那么上述偏差是漸近等于其中,是的方差。如果,偏差進一步簡化為顯然,一般情況下,這種偏差不等于零,除非,即缺失值是MCAR。如果所觀察到的概率是已知的,一個簡單的方法來糾正估計
37、模型(3.1)中 的CC分析的偏差在是采用一個加權(quán)的估計方程。正如zhao和Lipsitz14所描述的,加權(quán)估計方程具有和相同的形式, (3.3)其中,。因為核函數(shù)的期望是在MAR等于零的情況,的估計和從上述加權(quán)估計方程獲得的是一致的,其可以用矩量法來表示。在這個意義上說,這種加權(quán)估計方程可以被看作是一個具有所觀察到的已知概率修改后的CC分析。注意,CC分析實際上可以看作是(3.3)的特例,其中被觀察的分配概率是恒定的,即。在大多數(shù)應用中,所觀察到的概率是未知的,需要連同一起估計。3.2.3 加權(quán)估計方程現(xiàn)在假設,被觀測的概率,取決于所觀察到的結(jié)果和協(xié)變量,并且依賴性被指定到由未知參數(shù)有限個的
38、索引的已知概率函數(shù)。具體來說,我們認為邏輯回歸的被觀察的概率,其中是一個未知參數(shù)向量,。我們可以使用加權(quán)估算方程(3.3)估計,同時構(gòu)建另一基于估計方程來估計。兩個估計方程可以結(jié)合成一個類似于的單一的估計方程,具有核函數(shù) (3.4)我們將此估算公式作為有觀測到的估計概率的加權(quán)估計方程(WEE)??梢钥闯鲆蕴峁┮欢ǖ囊?guī)律性條件時,的期望等于零,除了和(Zhao和Lipsitz14)分別正確的模型假設。因此和的估計是一致的。他們也有一個方差是由一致估計方程(3.4)得到的漸近正態(tài)分布,其中和其中,0是具有合適空間的0向量。應該指出的是,的估計是一致的,就必須正確地指定的模型。這個概率函數(shù)是建立在(
39、以及可能的相互作用)上的有關的邏輯回歸。如果的模型是錯誤指定的,那我們感興趣的是回歸系數(shù)的估計值,會有偏差。因此,回歸系數(shù)的解釋應該有模型的明確說明假設。3.3 方法介紹3.3.1 建立模型在缺失數(shù)據(jù)的研究中,對于協(xié)變量缺失的研究不是很多,而協(xié)變量的缺失在實際生活和應用中也是普遍存在的,本文將對協(xié)變量的隨機缺失進行研究。假定下述線性模型: (3.5)其中是響應變量,是協(xié)變量,是隨機誤差。且,是未知的參數(shù),假設我們得到來自模型的樣本為,=1,。其中為示性函數(shù)。我們假設在缺失機制為MAR,即。3.3.2 全數(shù)據(jù)下的參數(shù)模型多元線性回歸方程未知參數(shù)的估計可以采用最小二乘估計。對于所謂最小二乘法,就是
40、尋找參數(shù)的估計值,使離差平方和達到極小,即尋找滿足根據(jù)(3.5)式結(jié)合本文的模型可以得出。3.3.3 直接剔除法剔除數(shù)據(jù)法也就是將存在遺漏信息屬性值的對象刪除,從而得到一個完備的信息數(shù)據(jù)表。并且這種方法操作簡單易行,在對象有多個屬性缺失值、被刪除的含缺失值的對象與信息表中的數(shù)據(jù)量相比非常小的情況下是非常的有效的。然而這種方法也有其一定的局限性,比如說它是以減少歷史數(shù)據(jù)來換取信息的完備,會造成資源的大量浪費,丟棄了大量隱藏在這些對象中的信息。在信息表中本來包含的對象很少的情況下,刪除少量對象就足以嚴重影響到數(shù)據(jù)信息表數(shù)據(jù)的客觀性和結(jié)果的正確性。因此,當遺漏數(shù)據(jù)所占比例比較大,特別當遺漏數(shù)據(jù)隨機分
41、布時,這種方法可能導致數(shù)據(jù)發(fā)生偏理,從而引出錯誤的結(jié)論并對分析結(jié)果產(chǎn)生誤差。我們對做出估計,。3.3.4 逆概率加權(quán)法逆概率加權(quán)法就是對在CC情形下對估計方程的項加權(quán),且權(quán)為缺失概率的逆,在通常情況下,估計是相合估計,被稱為IPW逆概率加權(quán)法,在協(xié)變量缺失時被普遍采用。逆概率加權(quán)法就是對每個可觀測的的概率取倒數(shù),作為被觀測的的權(quán)重。即由于在總體中每一個樣本都有可能被隨機選擇到,被選擇到的概率是,這個樣本就可以看為是總體的個總體。根據(jù)(3.5)可以得出的估計。3.3.5 回歸填補法回歸填補法是運用回歸技術來替代缺失數(shù)據(jù)的方法,它是通過多元回歸方法建立變量關于數(shù)據(jù)集所有其它變量的回歸模型,并用非標
42、準化的結(jié)果預測該變量的缺失數(shù)據(jù)來實現(xiàn)的?;貧w填補法是利用輔助變量(1,2,)與目標變量的關系,建立回歸模型,然后利用已知的輔助變量的信息和回歸模型,對目標變量的缺失數(shù)據(jù)進行估計的方法。在樣本變量中,如果變量(1,2,)和變量,之間存在高度相關,可利用已知數(shù)據(jù)擬合回歸預測模型,預測出未知的缺失數(shù)據(jù)。例如,缺失變量和已知變量是線性回歸關系,其預測模型為根據(jù)最小二乘法求得的線性模型?;貧w替代值是一個預測值,而不是取自當前調(diào)查中得到的實際值。 于是我們可以推出第個缺失數(shù)據(jù)的估計值可以表示為,式子中的是回歸系數(shù)。若輔助變量是定性變量時,可以采用虛擬變量的處理方法,若目標變量是定性變量,則考慮通過logi
43、t變換,進行l(wèi)ogistic線性回歸。我們可以得出的估計為其中,。3.4 模擬比較我們是為了研究在有限樣本下的協(xié)變量隨機缺失,選擇缺失模型為,其中=1,。本節(jié)中我們考慮兩種缺失,和,缺失率分別為 15%和30%。在MAR缺失機制下,對100和300個樣本容量做1000次模擬。我們的結(jié)果在表3.1-3.4 中列出。表3.1 在缺失率在15%時對三種方法進行模擬的值估計表all dataCCAIPWIMPBias-7.520990.184710.00893-0.17221Bias-0.00327-0.00442-0.00355-0.00347Bias0.-0.040120.000590.17911
44、Std0.173220.214030.224210.20734Std0.103140.117950.128870.11651Std0.098830.124030.131920.11828RMSE0.173140.282640.224280.26946RMSE0.103140.117980.128860.11650RMSE0.098920.130300.131850.21461從表中可以看出不論哪種方法填補都不會比原有真實數(shù)據(jù)更優(yōu)秀,這表明了數(shù)據(jù)的真實性,Bias和RMSE越接近于0,說明對本文數(shù)據(jù)缺失機制來說方法越好。在隨機缺失15%的機制下可以直觀的看出IPW逆概率加權(quán)法效果更好。但是IPW
45、的標準差略大于其他兩種方法,也可能體現(xiàn)出方法的局限性。同樣的,我們對100個樣本量做1000次模擬,改變?nèi)笔蕿?0%表3.2 在缺失率在30%時對三種方法進行模擬的值估計表all dataCCAIPWIMPBias0.000360.183490.00637-0.17144Bias-5.613500.000660.00267-0.00053Bias0.00200-0.04159-0.001050.17772Std0.172690.217700.222570.20337Std0.100720.117220.125500.11657Std0.100780.124410.134370.12051RM
46、SE0.172600.284630.222550.26591RMSE0.100670.117160.125470.11651RMSE0.100750.131130.134310.21426從表中我們依然可以看出不論哪種方法填補都不會比原有真實數(shù)據(jù)更優(yōu)秀,這表明了數(shù)據(jù)的真實性,Bias和RMSE越接近于0說明填補方法越優(yōu)秀。在隨機缺失30%的機制下IMP回歸填補法效果更好,但是RMSE均方根誤差比其他兩種方法稍大一些,也體現(xiàn)出了回歸填補的局限性。對當=300個樣本量執(zhí)行隨機缺失15%表3.3 在缺失率在15%時對三種方法進行模擬的值估計表all dataCCAIPWIMPBias-0.00237
47、0.12857-0.0369-0.11819Bias0.000940.001940.001520.00195Bias-0.00047-0.033960.001410.11563Std0.102130.118750.118510.11288Std0.056930.062970.065830.06093Std0.0.068130.071320.06718RMSE0.102100.174980.118510.16340RMSE0.056910.062970.065810.06093RMSE0.061090.076090.071300.13372從表中依然可以看出不論哪種方法填補都不會比原有真實數(shù)據(jù)更
48、優(yōu)秀,這表明了數(shù)據(jù)的真實性,Bias和RMSE越接近于0說明方法越好。在隨機缺失15%的機制下IPW逆概率加權(quán)法效果更好。對=300的樣本量執(zhí)行隨機缺失30%表3.4 在缺失率在30%時對三種方法進行模擬的值估計表all dataCCAIPWIMPBias-0.002070.17245-0.00463-0.17357Bias0.001440.003060.002340.00175Bias0.00075-0.040330.001950.17087Std0.099480.122540.127570.11990Std0.057720.067240.071290.06649Std0.059090.07
49、0050.075430.06620RMSE0.099450.211530.127590.21092RMSE0.057710.067280.071290.06648RMSE0.059070.080800.075420.18323從表中可以看出不論哪種方法填補都不會比原有真實數(shù)據(jù)更優(yōu)秀,這體現(xiàn)了數(shù)據(jù)的真實性,模擬值越接近于0說明方法越好。在隨機缺失30%的機制下IPW逆概率加權(quán)法效果更好,更接近于原始數(shù)據(jù)。4 實例分析 4.1 數(shù)據(jù)來源請鍵入文字或網(wǎng)站地址,或者。Davis, James A. and Tom W. Smith. 1997. General Social Surveys, 1972
50、-1996: Chicago, IL: National Opinion Research Center producer. Ann Arbor, MI: Inter-university Consortium for Political and Social Research distributor.4.2 數(shù)據(jù)描述該數(shù)據(jù)集包括2,879受訪者對1994年社會總調(diào)查的反饋信息。其中調(diào)查了受訪者的年齡、學歷、性別對收入的影響。為了研究收入的變化趨勢及其成因,我們以居民收入作為因變量,分別以年齡、學歷、性別為影響居民收入的主要因素。1、表示年齡(age,隨機缺失,數(shù)值型)2、表示學歷(研究生、本科、高中等)3、表示性別,為分類變量(1為男性、0為女性)4、表示居民收入我們假設為MAR隨機缺失機制,具體數(shù)據(jù)詳見附錄。這里列舉部分數(shù)據(jù)。表4.1 部分數(shù)據(jù)表AgeEducFemaleIncome5120067.55312032.5NA16055581215.53812167.5818111.254.3 方法應用及分析1、直接剔除法表4.2 直接剔除法運行結(jié)果Call:lm(formula = y + + , weights = delta)EstimateStd.Errort val
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 上海市黃浦區(qū)金陵中學2025屆高三第二學期第二次月考試卷化學試題含解析
- 2025春新版四年級下冊語文 【期末復習:文學常識填空】
- 華東交通大學《工程造價CBE實踐》2023-2024學年第二學期期末試卷
- 湖南藝術職業(yè)學院《醫(yī)學機能學(二)》2023-2024學年第一學期期末試卷
- 蘇州城市學院《中藥不良反應概論》2023-2024學年第一學期期末試卷
- 云南民族大學《英語視聽說III》2023-2024學年第一學期期末試卷
- 三亞城市職業(yè)學院《工程統(tǒng)計學(實驗)》2023-2024學年第二學期期末試卷
- 星海音樂學院《病理學》2023-2024學年第二學期期末試卷
- 寧夏大學新華學院《智慧城市與智能制造概論》2023-2024學年第二學期期末試卷
- 江蘇省連云港東??h聯(lián)考2024-2025學年初三語文試題周考試題含解析
- 企業(yè)集團文件與檔案管理制度
- 2024福建漳州市九龍江集團有限公司招聘10人筆試參考題庫附帶答案詳解
- 建筑行業(yè)勞動保護制度與措施
- 中國少數(shù)民族文化知到課后答案智慧樹章節(jié)測試答案2025年春云南大學
- 初級車工(五級)技能認定理論考試題(附答案)
- 2025年監(jiān)理工程師考試《建設工程監(jiān)理案例分析(水利工程)》綜合案例題
- 短期資金拆借合同樣本
- 汽車液壓主動懸架系統(tǒng)的設計與仿真
- 公共衛(wèi)生應急管理體系建設的調(diào)研報告
- 數(shù)學-天一大聯(lián)考2025屆高三四省聯(lián)考(陜晉青寧)試題和解析
- 客戶體驗與滿意度提升作業(yè)指導書
評論
0/150
提交評論